用 Python 分析《红楼梦》（1）-低调大师

用 Python 分析《红楼梦》（1）

2018-03-13 854

1 前言

两个月以来，我通过互联网自学了一些文本处理的知识，用自然语言处理和机器学习算法对《红楼梦》进行了一些分析。这个过程中我找到了一些有趣的发现，所以我想写一篇文章，既㲌与大家分享和讨论实验结果，也顺便做一个整理和总结。（其实虽说是两个月，但是中间停顿了一段时间，真正在做的时间大概是两周左右）

我开始做这件事情是因为之前看到了一篇挺好玩的文章，大概内容是，作者用“结巴分词”这个开源软件统计了红楼梦中各词汇的出现次数（也就是词频），然后用词频作为每个章回的特征，最终用“主成份分析”算法把每个章回映射到三维空间中，从而比较各个章回的用词有多么相似。（文章：用机器学习判定红楼梦后40回是否曹雪芹所写）作者的结论是后四十回的用词和前八十回有明显的差距。

看完文章之后，我觉得有两个小问题：首先，作者用的结巴分词里的词典是根据现代文的语料获得的

微信关注我们

原文链接：https://yq.aliyun.com/articles/539211

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

《战狼Ⅱ》豆瓣十二万影评浅析

最近<<战狼Ⅱ>>异常火爆。《战狼Ⅱ》是吴京执导的动作军事电影，由吴京、弗兰克·格里罗、吴刚、张翰、卢靖姗、丁海峰等主演。该片于2017年7月27日在中国内地上映。2017年8月11日凌晨，《战狼2》票房（含服务费）突破40亿元，打破《美人鱼》此前创下的33.92亿元记录，打破国产电影历史最高票房纪录。电影上映过后，大家褒贬不一。纷纷在豆瓣短评上面留言，表达自己对这部电影的看法。截至目前【2017.08.11】已经有十五万左右的评论。在你看评论的时候，你可能在一段时间里看到的大部分是表扬或者是贬低的评论，那么通过浏览评论我们很难看出大家对于这部电影的总体情况。现在让我们通过用数据分析的方法看看在这些评论中究竟发生了什么有趣的事情！数据的获取对于数据的获取，本文采用的是Python爬虫的方式获取的数据。用到的

2018-03-13

891

6 词频统计完成分词以后，词频统计就非常简单了。我们只需要根据分词结果把片段切分开，去掉长度为一的片段（也就是单字），然后数一下每一种片段的个数就可以了。这是出现次数排名前 20 的单词：（括号内为频数）可以跟之前只统计出现次数，不考虑切分问题的排名做个对比：（括号内为频数）通过分词后的词频，我们发现《红楼梦》中的人物戏份由多到少依次是宝玉、凤姐、贾母、袭人、黛玉、王夫人和宝钗。然而，这个排名是有问题的，因为”林黛玉”这个词的出现次数还有 267 次，需要加到黛玉的戏份里，所以其实黛玉的戏份比袭人多。同理，“老太太”一般是指贾母，所以贾母的戏份加起来应该比凤姐多。正确的排名应该是宝玉、贾母、凤姐、黛玉、袭人、王夫人和宝钗。此外，我们还发现《红楼梦》中的人物很爱笑，因为除了人名以外出现次数最多的单词就是“笑道” : ) 我把完整的词频

2018-03-13

982

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。