QQ空间爬虫最新分享,一天 400 万条数据(附代码地址)
前言
本文为作者对其开源项目QQSpider的说明文档。主要替换了程序里一些不可用的链接,对登录时的验证码作了处理,对去重队列作了优化。并且可以非常简单地实现爬虫分布式扩展。
Github项目名称:QQSpider
1、启动前配置:
需要安装的软件:python、Redis、MongoDB(Redis和MongoDB都是NoSQL,服务启动后能连接上就行,不需要建表什么的)。
需要安装的Python模块:requests、BeautifulSoup、multiprocessing、selenium、itertools、redis、pymongo。
我们登陆QQ要使用到phantomJS(下载地址:http://phantomjs.org/download.html),下载完将里面的phantomjs.exe解压到python目录下即可