如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）-低调大师

如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）

2018-05-11 820

img_d7a3c57cd7ec5432b0a34aa262225a41.jpe

前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇（理论篇），今天给大家分享一下代码实现（实战篇），接着上篇往下继续深入。

一、代码实现

1、修改Scrapy项目中的items.py文件。我们需要获取的数据是朋友圈和发布日期，因此在这里定义好日期和动态两个属性，如下图所示。

img_43eee7977111c3a1094dd6e7d6daa7bf.jpe

2、修改实现爬虫逻辑的主文件moment.py，首先要导入模块，尤其是要主要将items.py中的WeixinMomentItem类导入进来，这点要特别小心别被遗漏了。之后修改start_requests方法，具体的代码实现如下图。

img_f1b471afd4871c79b677d24b44d5e671.jpe

3、修改parse方法，对导航数据包进行解析，代码实现稍微复杂一些，如下图所示。

img_d98c5cbf35021b4eeb381f10a6a3bf2a.jpe

l需要注意的是从网页中获取的response是bytes类型，需要显示的转为str类型才可以进行解析，否则会报错。

l在POST请求的限定下，需要构造参数，需要特别注意的是参数中的年、月和索引都需要是字符串类型的，否则服务器会返回400状态码，表示请求参数错误，导致程序运行的时候报错。

l在请求参数还需要加入请求头，尤其是Referer（反盗链）务必要加上，否则在重定向的时候找不到网页入口，导致报错。

l上述的代码构造方式并不是唯一的写法，也可以是其他的。

4、定义parse_moment函数，来抽取朋友圈数据，返回的数据以JSON加载的，用JSON去提取数据，具体的代码实现如下图所示。

img_5fbffe2c1bccc800a255538d8edb0fdc.jpe

5、在setting.py文件中将ITEM_PIPELINES取消注释，表示数据通过该管道进行处理。

img_a67b5b1e2c89daae418b50da730dc754.jpe

6、之后就可以在命令行中进行程序运行了，在命令行中输入scrapy crawl moment -o moment.json，之后可以得到朋友圈的数据，在控制台上输出的信息如下图所示。

img_3330caf56df94b23c42fc8925ad5f864.jpe

7、尔后我们得到一个moment.json文件，里面存储的是我们朋友圈数据，如下图所示。

img_3810f08e13f0399b2d9f406bee0c0225.jpe

8、嗯，你确实没有看错，里边得到的数据确实让人看不懂，但是这个并不是乱码，而是编码的问题。解决这个问题的方式是将原来的moment.json文件删除，之后重新在命令行中输入下面的命令：scrapy crawl moment -o moment.json -s FEED_EXPORT_ENCODING=utf-8，此时可以看到编码问题已经解决了，如下图所示。

img_d7d99b51c16ed729136cf905007db826.jpe

下一篇文章，小编带大家将抓取到的朋友圈数据进行可视化展示，敬请关注~~

微信关注我们

原文链接：https://yq.aliyun.com/articles/638503

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

初学Python——文件操作第三篇

一、引言什么？有了第二篇文件操作还不够？远远不够！而且在读完第三篇文件操作还是不够。关于文件的操作，后续的学习中将不断学习新的操作方式，使用更加合适的方法。进入正题，上一篇讲到，Python对文件最基本的读取写入操作，都必须是字符串，所有的数据必须要转化成字符串写入，都出来的也全部都是字符串，这会给我们实际应用中造成一些困扰，上一篇文章讲述了如何使用eval()函数，但是也有局限性，比如：字符串格式稍有错误（结尾带有换行符\n）就会转换出错；写入文件之前在内存中的int型数据，写入读取仔eval后无法变回int型等。因此，我们需要更加标准、更加合理的方法来完成文件读写。接下来将一一介绍四个模块：json, pickle, shelve, shutil 先将个概念：序列化。即将内存中各种类型的数据转成能够写入文件的格式的标准过程。反序列化是序列化的反过程。二、json模块 json模块提供一些功能，能够处理简单的数据类型：布尔型、(长)整形、字符型、浮点型等，以及列表、字典等。将这些类型的数据通过序列化即可写入文件，读取文件时通过反序列化即可在内存中正常使用。json是可以跨平台...

2018-05-11

731

十七、在画布上绘图原文：Drawing on Canvas 译者：飞龙协议：CC BY-NC-SA 4.0 自豪地采用谷歌翻译部分参考了《JavaScript 编程精解（第 2 版）》绘图就是欺骗。 M.C. Escher，由 Bruno Ernst 在《The Magic Mirror of M.C. Escher》中引用浏览器为我们提供了多种绘图方式。最简单的方式是用样式来规定普通 DOM 对象的位置和颜色。就像在上一章中那个游戏展示的，我们可以使用这种方式实现很多功能。我们可以为节点添加半透明的背景图片，来获得我们希望的节点外观。我们也可以使用transform样式来旋转或倾斜节点。但是，在一些场景中，使用 DOM 并不符合我们的设计初衷。比如我们很难使用普通的 HTML 元素画出任意两点之间的线段这类图形。这里有两种解决办法。第一种方法基于 DOM，但使用可缩放矢量图形（SVG，Scalable Vector Graphics）代替 HTML。我们可以将 SVG 看成文档标记方言，专用于描述图形而非文字。你可以在 HTML 文档中嵌入 SVG，还可以在<im...

2018-05-11

649

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。