Python聊天机器人实现代码【NLTK】
聊天机器人(Chatbot)是一种人工智能软件,利用它你可以通过网站、手机App或电话等途径和用户进行自然语言对话。聊天机器人可以在不同的行业中应用于不同的场景。NLTK是进行自然语言处理(NLP)的领先的Python开发包 — 另一个常用的NLP开发包是Spacy — 在这个教程中,我们将使用NLTK开发库创建一个简单的聊天机器人。
1、导入开发包及数据
首先导入必要的开发包:
然后将数据集导入Pandas数据帧:
上面的数据包含1592个样本,每个样本为两个字段,分别表示查询及响应文本。可以看到数据集里有空值,是因为样本数据是分组的,每组的不同查询文本都对应相同的相应文本。我们可以使用ffill()
进行处理:
2、处理步骤
首先执行第一步,文本规范化处理。我们将所有的数据转化为小写,删除特殊符号,提取词干。这部分代码我们使用函数step1
进行封装:
可以看到文本已经干净多了。分词指的是将文本字符串切分为词条:
pos_tag
函数返回每个词条在文本中的作用:
我们现在将创建一个函数来整合上面这些环节的代码:
让我们用这个函数处理数据集:
下一步是单词嵌入表示,两次词义相近的词,其嵌入表示的距离也相近。有两种模型可以用于这个处理环节:词袋模型和tf-idf模型。
3、词袋模型
词袋模型是描述文本中出现的单词的一种表示方法。例如,假设我们的词典中包含单词{Playing, is, love},我们希望矢量化文本“Playing football is love”,那么得到的矢量就是: (1, 0, 1, 1)。
上图表格中的第一行,显示了数据集的第一个样本的BOW模型,只有1和0。
停止词指的是那些经常出现的单词,因此这些单词对于特定的文本来说意义就不大,我们可以把这些单词从词典中排除出去。下面是预定义的停止词:
考虑下面的示例,我们尝试获取查询对应的响应:
上面的代码中,我们可以看到对于查询‘Will you help me and tell me about yourself more’ ,我们进行文本规范化处理然后转化为词袋表示。下面我们将使用余弦相似算法来找出相关的相应文本。
4、余弦相似性
余弦相似性是衡量两个矢量相似性的一种指标。其计算方法是用两个矢量的点积除以两个矢量的模的乘积:
Cosine Similarity (a, b) = Dot product(a, b) / ||a|| * ||b||
计算代码如下:
可以看到194#样本的相似性最高,让我们输出其查询文本看看是否相关:
的确是相关的!
5、TF-IDF模型
tf指的是词频,表示单词在当前文档中出现的频率,idf指的是逆文档频率,表示单词在文档集中出现的频率倒数。这里我们说的文档表示一个样本,文档集表示所有的样本。
上面是使用tf-idf处理得到的值。现在使用余弦相似算法来找出相关的响应。
4#样本的相似度最高,让我们显示出来看一下:
使用tf-idf我们得到一个不同的响应,不过看起来也很好!
现在让我们组织一下代码:
看看其他响应:
Coooooooooooool!
6、总结
我们也可以实现词袋版本的对话。我们创建的模型没有使用任何人工智能,但是效果还是不错的。完整的代码可以在这里获取。
原文链接:NLTK聊天机器人实现原理及代码下载 - 汇智网 ,转载请标明出处
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
分享接入支付宝支付时粗心遇到的两个小问题
首先说一下,支付宝支付时容易出现理解偏差的两个字段 一个是timeout_express另一个是time_expire字段 timeout_express字段可以理解为,用户输入支付密码/或签约支付发起扣费,支付宝开始进行轮询用户可用支付方式的开始(好像支付宝收银台的话,如果用户欠费,会直接给打回来) 说一下,出现问题的两个场景 场景一:使用的是支付宝收银台支付,送的字段是timeout_express,本以为此字段的意思为,后端产生送支付宝表单后过XXmin后给判定为超时的一个设置,就这样送了,没想到后来,接到客诉,用户支付成功,扣款成功,在咱们系统中却返回了失败。经过排查可以看到,咱们这边送出的timeout_express字段,设置的是15min,之后,我们的系统设置了15分钟的异步查证,一直显示订单不存在,之后15分钟时,结束异步查证,判定最终结果为失败,但是,支付宝在1h2min的时候通知了系统,用户支付成功,由于订单已经处理为终态了,所以不做修改,造成了这个问题。咨询小蚂哥才知道,这个timeout_express假设在收银台场景,代表的是用户正确输入密码支付宝受理这笔订单...
- 下一篇
【swoole入门】如何快速创建一个web服务器
Swoole是一种PHP高级Web开发框架,可以提升网站的开发效率。本篇文章中小编将介绍如何用swoole创建web服务器,感兴趣的朋友可以来学习一下。http_server.php 0.0.0.0 表示监听所有IP地址,一台服务器可能同时有多个IP,如127.0.0.1本地回环IP、192.168.1.100局域网IP、210.127.20.2 外网IP,这里也可以单独指定监听一个IP。 1.启动服务 2.启动服务成功后,netstat查看 3.模拟http请求 服务端打印get/post请求数据 4.结束进程以上就是【swoole入门】如何快速创建一个web服务器的详细内容
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Red5直播服务器,属于Java语言的直播服务器
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19
- CentOS7,CentOS8安装Elasticsearch6.8.6
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS6,CentOS7官方镜像安装Oracle11G
- Windows10,CentOS7,CentOS8安装Nodejs环境