Python文本数据分析与处理-低调大师

Python文本数据分析与处理

2018-08-28 489

Python文本数据分析与处理(新闻摘要)

分词

使用jieba分词, 注意lcut只接受字符串

过滤停用词

TF-IDF得到摘要信息或者使用LDA主题模型

TF-IDF有两种
- jieba.analyse.extract_tags(content, topK=20, withWeight=False) # content为string, topK选出20个关键字, withWeight: 每一个关键词同等重要
- 使用gensim库
  - from gensim import corpora, models
  - dictinary = corpora.Dictionary(word_list) # 为每一个单词分配一个id, 并记录每一个单词的词频到dfs属性中
  - corpus = [dictionary.doc2bow(line) for line in word_list] # 得到词库, 形式是(token, id)
  - corpus.token2id以[token:id, ...]返回
  - # 将数据处理完之后, 才能使用models进行计算
  - lda = models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20) # corpus指定语料库, id2word指定字典, id在corpus中, num_toptics指定训练的主题数
  - lda.print_topic(1, 10) # 1为topic的id, 10为topic中关键字的个数
  - lda.print_topic(3, 10) # 3为返回的topic个数, 10为每一个topic中关键字的个数
  - 返回的形式是0.009*"文化" + 0.005*"恋情" + 0.004*"中" + 0.004*"撒" + 0.004*"节目"的列表, 数字为权重

机器学习贝叶斯(文本处理, 判断一句评论是否是侮辱性的[学会了这个, 那么垃圾邮箱, 广告的过滤也一样了, 文本处理贝叶斯的world])

与其他的泰坦尼克号遇难预测等案例不同, 文本处理需要自己在预处理时构建出数据表. 没有后者每一个提供表

不使用第三方库实现的思路

获取文本数据
- 格式: data0 = [['Hello', 'buddy'], ['You', 'silly']], labels = [1, 1]等
- 二维list, 一个list表示合并在一起可以表示一句话
过滤停用词得到去掉停用词的集合data
对data进行去重(现在使用的算法不需要单词出现的数量, 如果换作其他算法则不一定), 获取data中所有的单词words, words的形式为list
- 实现思路:
  - data = set(data): 转换为set达到去重的效果
  - data = list(data): 将data转为list, 因为需要单词的顺序
data0的每一个list元素的单词转为0和1, 返回一组向量, 0表示没有该单词, 1表示有该单词
def NBTrain函数使用贝叶斯进行训练
- 根据labels先判断出bad言论数, 得出其概率
- 缩小范围, 锁定到bad言论中, 计算出每一条bad言论的单词总数与所有bad言论的总数的比值
- 锁定到not bad言论中, 计算出每一条not bad言论的单词总数与所有not bad言论的总数的比值
- 返回三个向量
根据根据贝叶斯公式, 根据输入的测试集向量, 通过贝叶斯公式与NBTrain出来的参数(该参数与贝叶斯公式非常相关)得出p0与p1, 比较大小进行分类借口

使用sklearn的native_bayes模块实现

获得数据
过滤掉停用词
将每一个样本对应的单词以' '.jion合并, 因为之后将单词转为向量的对象需要这样的参数
导入sklearn.features_extraction.text.CountVectorizier或者sklearn.features_extraction.text.TfidfVectorizier, 是两种将字符串中的单词转为向量的算法, 后者效果更好, 所以以他为例
- tfidf = TfidVectorizier() # 有一个ngram_range可选参数, (1, 4)表示得到的feature为1个, 2个依次增加到3个, 3就是最终每一个句子的向量的长度
- tfidf_fit = tfidf.fit_transform(texts) # texts的形式['I am myself', 'Do not say it', ...]
- tfidf_fit.get_feature_names()返回单词list
- tfidf_fit.toarray()返回转换后的向量
现在得到了我们需要用于建模的数据表了(前面就是特征提取的操作, 是机器学习中最难的部分, 目的就是为了得到可以用于建模的数据表)
将数据分成训练集和测试集
导入native_bayes模块中的MultinomialNB类对象
- clf = MultinomialNB()
- clf.fit(X_train.values.tolist(), y_train.values.tolist()) # bayes坑的地方, 传入的必须是list, 内部不提供转换
评估
- clf.score(X_test.values.tolist(), y_test.values.tolist())

微信关注我们

原文链接：https://yq.aliyun.com/articles/670374

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

如何优雅地用Redis实现分布式锁

什么是分布式锁在学习Java多线程编程的时候，锁是一个很重要也很基础的概念，锁可以看做是多线程情况下访问共享资源的一种线程同步机制。这是对于单进程应用而言的，即所有线程都在同一个JVM进程里的时候，使用Java语言提供的锁机制可以起到对共享资源进行同步的作用。如果分布式环境下多个不同线程需要对共享资源进行同步，那么用Java的锁机制就无法实现了，这个时候就必须借助分布式锁来解决分布式环境下共享资源的同步问题。分布式锁有很多种解决方案，今天我们要讲的是怎么使用缓存数据库Redis来实现分布式锁。 Redis分布式锁方案一使用Redis实现分布式锁最简单的方案是在获取锁之前先查询一下以该锁为key对应的value存不存在，如果存在，则说明该锁被其他客户端获取了，否则的话就尝试获取锁，获取锁的方法很简单，只要以该锁为key，设置一个随机的值就行了。比如，我们有一批任务需要由多个分布式线程处理，每个任务都有一个taskId，为了保证每个任务只被执行一次，在工作线程执行任务之前，先获取该任务的锁，锁的key可以为taskId。因此，获取锁的过程可以用如下伪代码实现： function boo...

2018-08-28

570

pyenv python -V --> 显示版本 pyenv install --list --> 列出所有可以安装的包 pyenv versions --> 显示所有的版本 pyenv version --> 显示当前的版本 pyenv install versionId --> 安装，如果太慢的话，则在mkdir ~/.pyenv/cache，将python源码包放到里面再执行命令 pyenv install versionId -v --> 采用缓存的方式安装，并且显示详细信息，建议使用该选项，同时建议安装的版本为3.5.2，因为这个版本支持tensorflow pyenv local 3.6.2 --> 在当期目录创建一个.python-version, 执行pyenv local 自动读取当前目录下的该文件修改PATH变量, 但是这种方式不是基于虚拟环境的, 没有实现隔离 pyenv virtualenv versionId envName --> 创建一个独立的虚拟环境(对PATH做了手脚, 还在工作目录~/.pyenv/ve...

2018-08-28

703

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。