Scrapy 爬取动态网站
温馨提示:本文要求对 scrapy 有一定基础认识 在原 scrapy 中,爬取的页面是文本,也就是单纯的文字。而对于动态网站而言,需要执行一些 javascript 脚本,才能加载出真正的页面,比如网易云音乐,而想要爬取这些网站通常需要借助一些可以执行 javascript 脚本的中间件来完成,本文使用的是 Chrome ,换成其他也无压力 scrapy + selenium + headless selenium 似乎是被用来做自动化测试的 Python 库headless 是 Chrome 的没有 UI 的浏览器,用来提高爬取速度去掉 UI,不需要额外安装只需安装较高版本的 Chrome 就可以使用 headlessle, 但是需要额外安装驱动,即 chromedriver ,没有安装 chromedriver 会报错,如何安装 chromedriver 请阅读其他博客。 爬取动态网站时,需要开启中间件,官方文档是这样激活中间件的,在 settings.py 中找到 # Enable or disable downloader middlewares # See https://...

