Python爬虫入门教程 39-100 天津市科技计划项目成果库数据抓取 scrapy
爬前叨叨
缘由
今天本来没有打算抓取这个网站的,无意中看到某个微信群有人问了一嘴这个网站,想看一下有什么特别复杂的地方,一顿操作下来,发现这个网站除了卡慢,经常自己宕机以外,好像还真没有什么特殊的....
爬取网址 http://cgk.kxjs.tj.gov.cn/navigation.do
有很明显的分页表示
列表如下
Request URL: http://cgk.kxjs.tj.gov.cn/navigation.do
Request Method: POST
参数说明,里面两个比较重要的 pageNum 页码,numPerPage 每页显示的数据
trades:
fields:
enterprise_type:
archive_year:
hsql:
searchKey:
pageNum: 2
numPerPage: 25

