新浪微博爬虫最新分享
前言:
更新完《QQ空间爬虫分享(2016年11月18日更新)》(http://blog.csdn.net/bone_ace/article/details/53213779)
现在将新浪微博爬虫的代码也更新一下吧。
这次主要对爬虫的种子队列和去重策略作了优化,并更新了Cookie池的维护,只需拷贝代码即可实现爬虫分布式扩展,适合大规模抓取。
使用说明:
- 需要安装的软件:Python2、Redis、MongoDB; 需要安装的Python模块:scrapy、requests、lxml。
- 进入cookies.py,填入你的微博账号(已有两个账号示例)。
- 进入settings.py,如果你填入的账号足够多,可以将
DOWNLOAD_DELAY = 10和CONCURRENT_REQUESTS = 1注释掉。另外可以修改存放种子和去重队列的机器,可以