简陋的分布式爬虫(附项目代码地址)
新手向,基于Redis构建的分布式爬虫。 以爬取考研网的贴子为例,利用 PyQuery, lxml 进行解析,将符合要求的文章文本存入MySQ数据库中。 结构简介 cooperator 协作模块,用于为Master&Worker模块提供代理IP支持 master 提取满足条件的文章url,并交给Worker进一步处理 Worker 解析文章内容,将符合要求的存入数据库 环境依赖 sqlalchemy => 1.0.13 pyquery => 1.2.17 requests => 2.12.3 redis => 2.10.5 lxml => 3.6.0 需要预先安装MySQL-server 和 Redis-server. MySQL中应有名为kybsrc的数据库,且该数据库包含一个名为posts的表,拥有nu