Python爬虫入门教程 39-100 天津市科技计划项目成果库数据抓取 scrapy
爬前叨叨
缘由
今天本来没有打算抓取这个网站的,无意中看到某个微信群有人问了一嘴这个网站,想看一下有什么特别复杂的地方,一顿操作下来,发现这个网站除了卡慢,经常自己宕机以外,好像还真没有什么特殊的....
爬取网址 http://cgk.kxjs.tj.gov.cn/navigation.do
有很明显的分页表示
列表如下
Request URL: http://cgk.kxjs.tj.gov.cn/navigation.do Request Method: POST
参数说明,里面两个比较重要的 pageNum
页码,numPerPage
每页显示的数据
trades: fields: enterprise_type: archive_year: hsql: searchKey: pageNum: 2 numPerPage: 25
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
阿里云 OSS 一站式前端资源上传工具
Resource Uploader 一站式前端资源 CDN 上传工具(使用阿里云 OSS) 安装 npm install -g resource-uploader 特性 支持 ES6/7/8 转译 ES5 支持 Javascript 压缩和优化 支持 Sass/Less 转 CSS 支持 CSS 自动加浏览器前缀 支持 px 单位转 rem 单位(可选) 支持 CSS 压缩和优化 支持 jpg/png/gif 压缩和优化,优化包括渐进式加载等 支持处理 HTML 文件,自动处理 HTML 中引用的所有资源 自动生成全站唯一 URL,形如 https://domain.com/-/905bab36808f28a7/filename.png 自动设置 HTTP 缓存头,永久缓存资源在浏览器 支持多配置 支持处理成 BASE64 资源 支持文件合并 使用 用法: res-up [选项] 文件 选项: 选项 描述 类型 -h, --help 显示帮助信息 [布尔] --compress, -c 是否压缩文件 [布尔] [默认值: true] --prefix, -p 自定义 URL 路径 [字...
- 下一篇
STL笔记1
顺序容器有vector、list、deque。关联容器有map、set。容器类自动申请和释放内存,无需new和delete操作。但是需要连接STL各个容器的内存管理 STL六大组件:容器,算法,迭代器,仿函数、适配器和空间配置器容器:容纳一组元素的对象迭代器:提供一种访问容器中每一个元素的方法适配器:用来修饰容器,比如queue和stack,底层借助了deque。空间适配器:负责空间配置和管理 空间配置器:对象构造前的空间配置和对象析构后的空间释放,由负责。设计哲学如下:先system heap要求空间考虑多线程状态考虑内存不足时的应变措施考虑碎片问题 对于碎片问题,有双层及配置器:第一级直接使用allocate()调用malloc()、deallocate()调用free(),使用类似new_handler机制解决内存不足(抛出异常),配置无法满足的问题(如果在申请动态内存时找不到足够大的内存块,malloc 和new 将返回NULL 指针,宣告内存申请失败)。 第二级视情况使用不同的策略,当配置区块大于128bytes时,调用第一级配置器,当配置区块小于128bytes时,采用内存...
相关文章
文章评论
共有0条评论来说两句吧...