简陋的分布式爬虫(附项目代码地址)
新手向,基于Redis构建的分布式爬虫。
以爬取考研网的贴子为例,利用 PyQuery, lxml 进行解析,将符合要求的文章文本存入MySQ数据库中。
结构简介
cooperator
协作模块,用于为Master&Worker模块提供代理IP支持
master
提取满足条件的文章url,并交给Worker进一步处理
Worker
解析文章内容,将符合要求的存入数据库
环境依赖
sqlalchemy => 1.0.13
pyquery => 1.2.17
requests => 2.12.3
redis => 2.10.5
lxml => 3.6.0
需要预先安装MySQL-server 和 Redis-server.
MySQL中应有名为kybsrc的数据库,且该数据库包含一个名为posts的表,拥有nu