Python爬虫入门教程 39-100 天津市科技计划项目成果库数据抓取 scrapy-低调大师

Python爬虫入门教程 39-100 天津市科技计划项目成果库数据抓取 scrapy

2019-05-21 774

爬前叨叨

缘由

今天本来没有打算抓取这个网站的，无意中看到某个微信群有人问了一嘴这个网站，想看一下有什么特别复杂的地方，一顿操作下来，发现这个网站除了卡慢，经常自己宕机以外，好像还真没有什么特殊的....

爬取网址 http://cgk.kxjs.tj.gov.cn/navigation.do

有很明显的分页表示

列表如下

Request URL: http://cgk.kxjs.tj.gov.cn/navigation.do
Request Method: POST

参数说明,里面两个比较重要的 pageNum 页码，numPerPage 每页显示的数据

trades: 
fields: 
enterprise_type: 
archive_year: 
hsql: 
searchKey: 
pageNum: 2
numPerPage: 25

微信关注我们

原文链接：https://yq.aliyun.com/articles/703243

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

阿里云 OSS 一站式前端资源上传工具

Resource Uploader 一站式前端资源 CDN 上传工具（使用阿里云 OSS）安装 npm install -g resource-uploader 特性支持 ES6/7/8 转译 ES5 支持 Javascript 压缩和优化支持 Sass/Less 转 CSS 支持 CSS 自动加浏览器前缀支持 px 单位转 rem 单位（可选）支持 CSS 压缩和优化支持 jpg/png/gif 压缩和优化，优化包括渐进式加载等支持处理 HTML 文件，自动处理 HTML 中引用的所有资源自动生成全站唯一 URL，形如 https://domain.com/-/905bab36808f28a7/filename.png 自动设置 HTTP 缓存头，永久缓存资源在浏览器支持多配置支持处理成 BASE64 资源支持文件合并使用用法: res-up [选项] 文件选项: 选项描述类型 -h, --help 显示帮助信息 [布尔] --compress, -c 是否压缩文件 [布尔] [默认值: true] --prefix, -p 自定义 URL 路径 [字...

2019-05-20

733

顺序容器有vector、list、deque。关联容器有map、set。容器类自动申请和释放内存，无需new和delete操作。但是需要连接STL各个容器的内存管理 STL六大组件：容器，算法，迭代器，仿函数、适配器和空间配置器容器：容纳一组元素的对象迭代器：提供一种访问容器中每一个元素的方法适配器：用来修饰容器，比如queue和stack，底层借助了deque。空间适配器：负责空间配置和管理空间配置器：对象构造前的空间配置和对象析构后的空间释放，由负责。设计哲学如下：先system heap要求空间考虑多线程状态考虑内存不足时的应变措施考虑碎片问题对于碎片问题，有双层及配置器:第一级直接使用allocate()调用malloc()、deallocate()调用free()，使用类似new_handler机制解决内存不足（抛出异常），配置无法满足的问题（如果在申请动态内存时找不到足够大的内存块，malloc 和new 将返回NULL 指针，宣告内存申请失败）。第二级视情况使用不同的策略，当配置区块大于128bytes时，调用第一级配置器，当配置区块小于128bytes时，采用内存...

2019-05-21

694

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。