您现在的位置是:首页 > 文章详情

Python爬虫入门教程 39-100 天津市科技计划项目成果库数据抓取 scrapy

日期:2019-05-21点击:466

爬前叨叨

缘由

今天本来没有打算抓取这个网站的,无意中看到某个微信群有人问了一嘴这个网站,想看一下有什么特别复杂的地方,一顿操作下来,发现这个网站除了卡慢,经常自己宕机以外,好像还真没有什么特殊的....

image

爬取网址 http://cgk.kxjs.tj.gov.cn/navigation.do

image

有很明显的分页表示

列表如下

Request URL: http://cgk.kxjs.tj.gov.cn/navigation.do Request Method: POST 

参数说明,里面两个比较重要的 pageNum 页码,numPerPage 每页显示的数据

trades: fields: enterprise_type: archive_year: hsql: searchKey: pageNum: 2 numPerPage: 25
原文链接:https://yq.aliyun.com/articles/703243
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章