python实战,中文自然语言处理,应用jieba库来统计文本词频
模块介绍
安装:pip install jieba 即可
jieba库,主要用于中文文本内容的分词,它有3种分词方法:
1. 精确模式, 试图将句子最精确地切开,适合文本分析:
2. 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;
3. 搜索引擎模式,在精确模式的基础上,对长词再词切分,提高召回率,适合用于搜索引擎分词。
我们用个小例子演示下
这上面的小例子中我们看到了一个问题,如果我们只是简简单单的将所有词切分出来,然后去统计它们出现的次数,那么你会发现,其中的“是”,“的”等等词语以及各种标点符号是出现频率最高的,那么这里有2种方式,1是直接去掉长度为1的所有词语,比如上面所说的“是”,“的”或者标点符号等等,还有一种呢,是用到了TF-IDF技术
TF-IDF (term frequency-inverse document frequency)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术,比较容易理解的一个应用场景是当我们手头有一些文章时或者微博评论,我们希望计算机能够自动地进行关键词提取。而TF-IDF就是可以帮我们完成这项任务的一种统计方法。它能偶用于评估一个词语对于一个文集或一个语料库中的其中一份文档的重要程度。这个方法又称为”词频-逆文本频率”。
不好理解的话,我们一样来写一个小例子:
withWeight=True 参数为是否返回权重值,默认是关闭的,我们直接打印出所有词和它对于的权重,就可以用于计算了!
小说词频分析
简单的写个小demo,分析小说的词频,并将前10个打印出来!篇幅有限,就以《天龙八部》的第1章为例,大概有4万多个字符,直接上代码了!
在第425行,进行分词,然后将结果进行遍历(426-433行),遍历中,剔除单个字符,每个词语和它所出现的次数写入字典,第434、435行将字典转化为元组所组成的列表,并依据出现次数进行排序,然后遍历列表,取出前10名。
第二段代码(441-445行)是依据权重取出了关键词,可以看出,这章小说,主要讲的就是段誉的事情了,不论是权重还是词频都是他最高。。。
文本内容有大概400多行,就折叠了,大家可以直接套用代码,自己试试。
后记
今天的分享就这些了,python的自然语言处理其实还有好多内容,比如停止词的使用,词性等等好多,大家如果有兴趣,可以来找我一起深入学习!
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Python网络编程(http协议,IO多路复用、select内核监听)
HTTP协议: from socket import * # 接收请求 # 查看请求 # 返回客户端段请求内容 def handleClient(connfd): request = connfd.recv(4096) # print("***********") # print(request) # print("************") # 按照行切割请求 request_lines = request.splitlines() for line in request_lines: print(line.decode()) try: f = open('index.html') except IOError:
- 下一篇
专访杨开振:程序员除了敲代码还能做什么?
杨开振《深入浅出Spring Boot 2.x》作者 当前互联网后端开发中Java EE占据了主导地位。对于Java EE开发,首选框架和事实标准是Spring框架。在传统的Spring开发中需要使用大量的XML配置才能使Spring框架运行起来,这备受许多开发者诟病。随着Spring 4.x的发布,Spring已经完全可以脱离XML,只使用注解就可以运行项目。近两三年里,互联网世界掀起了“微服务”热潮。“微服务”将一个大的系统拆分为多个子系统,然后通过REST风格的请求将它们集成起来,进一步简化了分布式系统的开发。 为了进一步简化Spring的开发,2014年Spring Boot诞生了,它是一个由Pivotal团队提供的全新框架,其设计目的是简化Spring应用的搭建以及开发过程,并迎合时下流行的微服务思维,越来越多的企业选择了Spring Boot。随着2017年9月Spring 5.x的推出,2018年Spring Boot也推出了2.x版本,进入2.x版本时代。 基于这样的趋势,杨开振老师在完成前两部著作后,收到许多的读者、前同事和业内朋友的建议,他们希望创作一本关于Spri...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker安装Oracle12C,快速搭建Oracle学习环境