Python聊天机器人实现代码【NLTK】-低调大师

Python聊天机器人实现代码【NLTK】

2019-11-14 776

聊天机器人（Chatbot）是一种人工智能软件，利用它你可以通过网站、手机App或电话等途径和用户进行自然语言对话。聊天机器人可以在不同的行业中应用于不同的场景。NLTK是进行自然语言处理（NLP）的领先的Python开发包 — 另一个常用的NLP开发包是Spacy — 在这个教程中，我们将使用NLTK开发库创建一个简单的聊天机器人。

1、导入开发包及数据

首先导入必要的开发包：

然后将数据集导入Pandas数据帧：

上面的数据包含1592个样本，每个样本为两个字段，分别表示查询及响应文本。可以看到数据集里有空值，是因为样本数据是分组的，每组的不同查询文本都对应相同的相应文本。我们可以使用ffill()进行处理：

2、处理步骤

首先执行第一步，文本规范化处理。我们将所有的数据转化为小写，删除特殊符号，提取词干。这部分代码我们使用函数step1进行封装：

可以看到文本已经干净多了。分词指的是将文本字符串切分为词条：

pos_tag函数返回每个词条在文本中的作用：

我们现在将创建一个函数来整合上面这些环节的代码：

让我们用这个函数处理数据集：

下一步是单词嵌入表示，两次词义相近的词，其嵌入表示的距离也相近。有两种模型可以用于这个处理环节：词袋模型和tf-idf模型。

3、词袋模型

词袋模型是描述文本中出现的单词的一种表示方法。例如，假设我们的词典中包含单词{Playing, is, love}，我们希望矢量化文本“Playing football is love”，那么得到的矢量就是： (1, 0, 1, 1)。

上图表格中的第一行，显示了数据集的第一个样本的BOW模型，只有1和0。

停止词指的是那些经常出现的单词，因此这些单词对于特定的文本来说意义就不大，我们可以把这些单词从词典中排除出去。下面是预定义的停止词：

考虑下面的示例，我们尝试获取查询对应的响应：

上面的代码中，我们可以看到对于查询‘Will you help me and tell me about yourself more’ ，我们进行文本规范化处理然后转化为词袋表示。下面我们将使用余弦相似算法来找出相关的相应文本。

4、余弦相似性

余弦相似性是衡量两个矢量相似性的一种指标。其计算方法是用两个矢量的点积除以两个矢量的模的乘积：

Cosine Similarity (a, b) = Dot product(a, b) / ||a|| * ||b||

计算代码如下：

可以看到194#样本的相似性最高，让我们输出其查询文本看看是否相关：

的确是相关的！

5、TF-IDF模型

tf指的是词频，表示单词在当前文档中出现的频率，idf指的是逆文档频率，表示单词在文档集中出现的频率倒数。这里我们说的文档表示一个样本，文档集表示所有的样本。

上面是使用tf-idf处理得到的值。现在使用余弦相似算法来找出相关的响应。

4#样本的相似度最高，让我们显示出来看一下：

使用tf-idf我们得到一个不同的响应，不过看起来也很好！

现在让我们组织一下代码：

看看其他响应：

Coooooooooooool！

6、总结

我们也可以实现词袋版本的对话。我们创建的模型没有使用任何人工智能，但是效果还是不错的。完整的代码可以在这里获取。

原文链接：NLTK聊天机器人实现原理及代码下载 - 汇智网，转载请标明出处

微信关注我们

原文链接：https://yq.aliyun.com/articles/727063

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

分享接入支付宝支付时粗心遇到的两个小问题

首先说一下，支付宝支付时容易出现理解偏差的两个字段一个是timeout_express另一个是time_expire字段 timeout_express字段可以理解为，用户输入支付密码/或签约支付发起扣费，支付宝开始进行轮询用户可用支付方式的开始(好像支付宝收银台的话，如果用户欠费，会直接给打回来) 说一下，出现问题的两个场景场景一：使用的是支付宝收银台支付，送的字段是timeout_express，本以为此字段的意思为，后端产生送支付宝表单后过XXmin后给判定为超时的一个设置，就这样送了，没想到后来，接到客诉，用户支付成功，扣款成功，在咱们系统中却返回了失败。经过排查可以看到，咱们这边送出的timeout_express字段，设置的是15min，之后，我们的系统设置了15分钟的异步查证，一直显示订单不存在，之后15分钟时，结束异步查证，判定最终结果为失败，但是，支付宝在1h2min的时候通知了系统，用户支付成功，由于订单已经处理为终态了，所以不做修改，造成了这个问题。咨询小蚂哥才知道，这个timeout_express假设在收银台场景，代表的是用户正确输入密码支付宝受理这笔订单...

2019-11-13

905

Swoole是一种PHP高级Web开发框架，可以提升网站的开发效率。本篇文章中小编将介绍如何用swoole创建web服务器，感兴趣的朋友可以来学习一下。http_server.php　0.0.0.0 表示监听所有IP地址，一台服务器可能同时有多个IP，如127.0.0.1本地回环IP、192.168.1.100局域网IP、210.127.20.2 外网IP，这里也可以单独指定监听一个IP。 1.启动服务　2.启动服务成功后，netstat查看　3.模拟http请求　服务端打印get/post请求数据　4.结束进程以上就是【swoole入门】如何快速创建一个web服务器的详细内容

2019-11-14

722

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。