学爬虫，需要掌握哪些Python基础？-低调大师

学爬虫，需要掌握哪些Python基础？

2018-11-21 653

入手爬虫确实不要求你精通Python编程，但基础知识还是不能忽视的，那么我们需要哪些Python基础呢？

首先我们先来看看一个最简单的爬虫流程：

第一步要确定爬取页面的链接，由于我们通常爬取的内容不止一页，所以要注意看看翻页、关键字变化时链接的变化，有时候甚至要考虑到日期；另外还需要主要网页是静态、动态加载的。

第二步请求资源，这个难度不大，主要是Urllib,Request两个库的使用，必要时候翻翻官方文档即可

第三步是解析网页。请求资源成功后，返回的整个网页的源代码，这时候我们就需要定位，清洗数据了

谈到数据，第一个要注意的点就是数据的类型，是不是该掌握！

其次，网页上的数据往往排列十分整齐，这多亏了列表，使用大部分网页数据整洁而有规律，所以列表、循环语句是不是也要掌握！

但值得注意得是网页数据不一定都是整齐而有规律的，比如最常见的个人信息，除了必填选项，其他部分我就不爱填，这时候部分信息缺失了，你是不是得先判断一下是否有数据，再进行抓取，所以判断语句是不是也不能少！

掌握以上内容，我们的爬虫基本上能跑起来了，但为了提高代码效率，我们可以借助函数将一个程序分割成多个小部分，每部分负责一部分内容，这样就能根据需要多次调动一个函数了，如果你再厉害点，以后开发个爬虫软件，是不是还要再掌握个类

第四步是保存数据，是不是得先打开文件，写数据，最后关闭啊，所以是不是还得掌握文件的读写啊!

所以，你需要的掌握的最最最基本的Python知识点有

我刚整理了一套2018最新的0基础入门和进阶教程，无私分享，加Python学习q u n ：227-435-450即可获取，内附：开发工具和安装包，以及系统学习路线图

线程与进程

当然只掌握这些是远远不够的，因为我们还有分布式爬虫，爬虫框架等，这要求我们掌握线程与进程；这两个可能会比较陌生，我还没接触爬虫时候也不懂这些，所以先来看看他们的概念

进程：资源分配的最小单位

线程：程序执行的最小单位

看起来太抽象了，我们打个比方吧：

进程就相当于你打开的一个个程序，如QQ，微信，微博等，而进程就相当于程序里的每一个命令，如收发消息等

1.多线程与多进程

多线程、多进程顾名思义就是多个线程、进程并行，是实现多任务的好帮手，所以在效率上有

单进程+单线程 < 单进程+多线程 < 多进程+多线程

再来打个比方，假如我要给整个班级的同学发份资料，我可以通过微信一个一个地发给他们——单进程+单线程，但这效率实在太低了，特别费时；于是我可以选择用微信群发啊——单进程+多线程，这样效率一下子提高了很多，但问题又来了，微信群发上限是200人，假如我要给400人发文件，是不是就得分两次群发呢？为了节省时间，我还可以一部分用qq群发，一部分用微信群发，这就是多进程+多线程

比较

可靠性进程间不会相互影响一个线程挂掉将导致整个进程挂掉

分布性多核、多机多核

2.协程

协程不是进程或线程，其执行过程更类似于子例程，或者说不带返回值的函数调用。

在刚刚的例子中，协程又是一个怎么样的存在呢？

群发消息和调用多个程序时，都会受流量（相当于CPU）的影响而无法将资料发送出去，而假如我让同学B帮忙发资料，他发资料时候并不占用我的流量，因此效率更高，此时，同学B就相当于我的一个协程，所以协程在一定程度上又好于多线程

微信关注我们

原文链接：https://yq.aliyun.com/articles/672469

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

独家 | 手把手教你用Python进行Web抓取（附代码）

作为一名数据科学家，我在工作中所做的第一件事就是网络数据采集。使用代码从网站收集数据，当时对我来说是一个完全陌生的概念，但它是最合理、最容易获取的数据来源之一。经过几次尝试，网络抓取已经成为我的第二天性，也是我几乎每天使用的技能之一。在本教程中，我将介绍一个简单的例子，说明如何抓取一个网站，我将从Fast Track上收集2018年百强公司的数据： Fast Track： http://www.fasttrack.co.uk/ 使用网络爬虫将此过程自动化，避免了手工收集数据，节省了时间，还可以让所有数据都放在一个结构化文件中。用Python实现一个简单的网络爬虫的快速示例，您可以在GitHub上找到本教程中所介绍的完整代码。 GitHub链接： https://github.com/kaparker/tutorials/blob/maste

2018-11-21

779

关于 JIT PostgreSQL 11 版本的一个重量级新特性是引入了 JIT (Just-in-Time) 编译来加速SQL中的表达式计算效率。 JIT 表达式的编译使用LLVM项目编译器的架构来提升在WHERE条件、指定列表、聚合以及一些内部操作表达式的编译执行。使用 JIT 必须在首先编译安装 LLVM ，之后编译安装 PostgreSQL 时设置 --with-llvm 选项，本文主要包括两部分，如下: CentOS7 编译安装 LLVM。 CentOS7 编译安装PostgreSQL 11，启用并演示 JIT。 JIT 使用场景 JIT 常用于CPU密集型SQL(分析统计SQL)，执行很快的SQL使用JIT由于产生一定开销，反而可能引起性能下降。手册 Release说明 Add Just-in-Time (JIT) compilation of some parts of query plans to improve execution speed (Andres Freund) This feature requires LLVM to be available. I...

2018-11-21

1133

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。