Python 爬取吴亦凡的 10 万转发数据,扒一扒流量的真假!
我们通过微博移动端随机抓取了吴亦凡发布新歌《大碗宽面》的微博转发数据10万条(时间节点2019年4月20日01时)。该微博于2019年4月19日10时发布,到4月20日01时已被转发超过36万。
吴亦凡该微博的转发是否存在假流量?
当然,关注我的朋友们估计最关心的问题是,吴亦凡的微博转发是否像蔡徐坤一样,有很多都是假流量?
我们先从粉丝性别比例入手。我们统计了102118条转发数据中,有77279条是女性转发的,占75.7%,其余24839条是男性转发的,占24.3%。这是一个比较合理的比例。
我们随机抽取了男性的转发,发现这里的男粉丝几乎都是有简介、微博粉丝数、关注数都大于50的真粉丝。
咦,不是说吴亦凡是流量明星吗?难道很多假流量都存在于女性的转发里?我们又随机抽取了女性转发的数据,发现,这里面的女性粉丝几乎也都是有简介、微博粉丝数、关注数都大于50的真粉丝。
我们就更奇怪了:吴亦凡的假流量哪儿去了?
我们按照跟蔡徐坤一样的标准,把转发数据中转发者的关注或者粉丝数少于等于5、没有简介、转发之后被点赞数评论数再转发数都为0、微博会员等级为0级的数据(注意,这里的条件都是“且”的关系,而不是“或”,也就是需要满足所有条件才会被判定是假粉丝),以及转发者的关注或者粉丝数大于等于5但昵称长“用户XXXXXXXX”这样的数据抽取了出来。看看吴亦凡的真假流量各是多少。
可见,吴亦凡的《大碗宽面》微博102118条转发中,只有6100条是疑似假粉丝转发的,占6%,有94%都是真粉丝转发的。这跟蔡徐坤的转发数据截然相反。
96018条真粉丝转发的数据中,除去重复转发刷榜的数量,里面还有81872个真粉丝。也就是说,真实转发的粉丝数量,占总转发量的80.2%。这比蔡徐坤3.84%的真实转发粉丝数量高出了一大截。也说明至少在这首歌上,吴亦凡的假流量占比是很少的。这首歌能火起来,靠的是大家对这首歌的接受度。
大家对于《大碗宽面》怎么看?
既然这样,那大家是以一种什么样的态度看待这首歌的呢?我们利用SnowNLP这个中文文本挖掘库对转发中所带的每一条评论进行情感倾向分析并打分(分值为0-1,越接近0情感越负面,越接近1情感越正面,0.5为中立)。
所有转发所带的评论,对《大碗宽面》的平均情感倾向评分是0.686。也就是大家整体对于这首歌的评论都是偏正面的,这跟这首歌的豆瓣评分6.5分(10分制)也相差不远。
随机抽取出情感倾向高的评论,大家都认为吴亦凡可以自嘲自黑很酷、很接底气、很可爱,认为吴亦凡可以通过这种方式来破网友对自己的吐槽梗,心胸很开阔。跟律师函警告相比之下,不知道高出了多少。
有多少人拿吴亦凡与蔡徐坤作对比?
由于这首歌发布的时间比较凑巧,刚好在蔡徐坤发律师函给哔哩哔哩并引起网友一阵吐槽之后,所以大家难免会把吴亦凡和蔡徐坤放在一起比较。那么,拿他们两个一起比较的人多吗?
我们把评论中带有跟蔡徐坤有关字眼(比如包含“kun”、“坤”、“律师函”等)的评论都抽了出来,发现足足有6229条,也就是大概15条评论中,就有一条把他们两个放在一起比较的。
抽取其中点赞数最高的10条,看看大家都怎么进行比较的。
大伙儿都对吴亦凡的公关团队表示佩服,可以把槽点转变为亮点,有很多人佩服吴亦凡的气度和格局,还有很多人认为这和律师函相比,高下立判。
有多少人开始路转粉了?
既然这首歌风评那么好,是不是很多人开始路转粉了呢?我们把带有“转粉”、“圈粉”等字眼的评论抽取了出来,发现这里面有足足3646条评论是关于转粉的。
而这3646条评论中,有2441条是女性的评论,还有1205条是男性的评论,占1/3!按照比例保守估计,目前37万的转发中,吴亦凡已成功圈粉13000人!并且使很多原来不喜欢他的黑粉,开始转变为路人。
评论的词云图
按照惯例,我们把转发中所带的评论制作成了词云图。
如果你在学习Python的过程当中有遇见任何问题,多多交流问题,互帮互助,群里有不错的学习教程和开发工具。学习python有任何问题(学习方法,学习效率,如何就业),可以随时来咨询我
可以看到:
1. 正如微博配词所说“大碗宽面能让你开心,这确是我本意”,大家对于这首自嘲歌的最大反应是“哈哈哈”;
2. 大家觉得这首歌很好听、有趣、有意思,觉得吴亦凡很可爱;
3. 有人第一次对吴亦凡说了“对不起”,对吴亦凡开始有Respect,开始路转粉;
4. 还有人拿蔡徐坤出来比较,拿律师函出来调侃。
看来,在娱乐圈里生存,开阔的心胸和善于自嘲的态度是很必要的。眼看着吴亦凡被万千吐槽,今天还能收获掌声一片,从一开始的流量明星转变为一个具有真流量的谐星。
所以说,千万别虚荣心作祟,娱乐圈嘛,快乐才是真谛,何必针锋相对。有时候不缺硬刚的勇气,缺的是娱乐的智慧。人生如戏开个玩笑,听完歌就洗洗睡。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
第1章 程序设计和C语言
1.1什么是计算机程序 程序,就是一组计算机能识别和执行的指令。每一条指令使计算机执行特定的操作。只要让计算机执行这个程序,计算机就会“自动地”执行各条指令,有条不紊地进行工作。 1.2什么是计算机语言 计算机语言——计算机和人都能识别的语言 计算机语言的发展阶段: 机器语言计算机工作基于二进制,从根本上说,计算机智能识别和接受由0和1组成的指令。在计算机发展的初期,一般计算机的指令长度为156,即以16个二进制数(0或1)组成一条指令,16个0和1可以组成各种排列组合。 这种计算机能直接识别和接受的二进制代码称为机器指令(machine instruction)。机器指令的集合就是该计算机的机器语言(machine language)。 显然,机器语言与人们习惯用的语言差别太大,难学、难记、难检查、难修改、难以推广使用、难写。因此初期只有极少数的计算机专业人员会编写计算机程序。 符号语言为了克服机器语言的上述缺点,人们创造出符号语言(symbolic language),它用一些英文字母和数字表示一个指令,例如用ADD表示“加”,SUB代表“减”,LD代表“传送”等。 显然,计算机...
- 下一篇
程序中算钱不能用浮点类型是个什么坑?
阅读本文大概需要 1 分钟。 先来考考大家,在下列 Java 代码中,你觉得在控制台会打印什么值呢? 貌似难不倒大家,这不是 so easy ,连小学生都会算的题目,1.0 - 0.9 = 0.1 啊,但是你觉得会等于 0.1 吗? 看下上图代码的输出结果: 有没有惊讶,有没有很刺激,0.0……02 难道被计算机吃掉了??? 好吧,当初我也是这幅表情(原谅我基础薄弱)。 那如果我们将其换成 float 类型的会怎么样呢?再来试试。 控制台打印结果: 结果居然多了 0.10…24,那不得乐开花啊~ 那么以上这些现象是为什么呢? 浮点数在计算机中采用二进制表示,而二进制系统无法精确表示某些小数,比如 1/10 ,就像十进制无法表示 1/3 一样,这样是产生误差的原因。 在企业开发中,当涉及到钱的计算时应该使用 BigDecimal 类型来处理,尤其是在金融领域,只要和钱有关的任何逻辑,都是大事,反之没那么严重(只是没那么大)。 ·END· 程序员的成长之路 路虽远,行则必至
相关文章
文章评论
共有0条评论来说两句吧...