PYTHON系列-从零开始的爬虫入门指南
入门0.准备工作 需要准备的东西: Python、scrapy、一个IDE或者随便什么文本编辑工具。 1.技术部已经研究决定了,你来写爬虫。 随便建一个工作目录,然后用命令行建立一个工程,工程名为miao,可以替换为你喜欢的名字。 1scrapy startproject miao 随后你会得到如下的一个由scrapy创建的目录结构 从零开始的爬虫入门指南在spiders文件夹中创建一个python文件,比如miao.py,来作为爬虫的脚本。 内容如下: 123456789101112131415import scrapy class NgaSpider(scrapy.Spider): name = "NgaSpider" host = "http://bbs.ngacn.cc/" # start_urls是我们准备爬的初始页 start_urls = [ "http://bbs.ngacn.cc/thread.php?fid=406", ] # 这个是解析函数,如果不特别指明的话,scrapy抓回来的页面会由这个函数进行解析。 # 对页面的处理和分析工作都在此进行,这个示例里我们只是...