手把手教你用免费代理ip爬数据-低调大师

手把手教你用免费代理ip爬数据

2020-03-09 774

/1 前言/

玩爬虫的都避免不了各大网站的反爬措施限制，比较常见的是通过固定时间检测某ip地址访问量来判断该用户是否为 “网络机器人”，也就是所谓的爬虫，如果被识别到，就面临被封ip的风险，那样你就不能访问该网址了。

通用的解决办法是用代理ip进行爬取，但是收费的代理ip一般都是比较贵的，网上倒是有很多免费的代理ip网站，但是受时效性影响，大部分地址都不能用，有很多维护代理ip池的教程，即把爬取并检测后能用代理ip放到“代理池里”，等以后要用的时候再从里面提取，在我看来，这种效率比较低，因为这类IP地址很快就失效，我们要做的是边检测边使用，充分保证免费IP的时效性。

/2 抓取IP地址/

下面就开始实战操作。

1.首先我们随便找一个免费代理ip网站，如下图所示。

2、打开网页查看器，分析其网页元素结构，如下图所示。

3、就是一个简单的静态网页，我们用requests和bs4将ip地址和对应端口爬下，如下图所示。

4、每一行ip地址都由5个

标签组成，而我们需要的是第一个标签（对应IP地址）和第2个标签（对应端口），所以从第一个开始，每隔5个取出ip地址（item[::5]）,从第二个开始，每隔5个取出对应端口（item[1::5]）,参数n为页码，每次只在1页取1个有用的ip地址，最终效果如下图所示：

/3 验证IP有效性/

这里把百度百科作为目标网站，这个看似很普通的网站，反爬措施却极为严格，爬不了几条内容就开始请求失败了，下面我以在百度百科查询全国火车站归属地信息为例演示如何使用免费代理ip。

1、首先我在12306上把所有的火车站名都爬下来了，但是没有归属地信息。

2、然后以站名构造百度百科url信息，分析网页元素，把爬取爬取火车站地址信息，网页元素如下图所示：

3、所以，我们只需在class_='basicInfo-item'的标签内容里查找有无“省”或者“市”的字符，然后输出就行了，最后加一个while True循环，当该ip能正常爬数据时，则break该循环；若该ip被禁，则马上重新请求一个新ip进行爬取。直接上代码如下图所示:

4、其中for循环是遍历所有火车站，try是用于检测该ip还能不能用，若不能，则在except里请求1个新ip，爬取效果如下图所示：

下次再遇到爬虫被禁的情况就可以用此办法解决了。

/4 结语/

本文基于Python网络爬虫技术，主要介绍了去IP代理网站上抓取可用IP，并且Python脚本实现验证IP地址的时效性，如遇到爬虫被禁的情况就可以用本文的办法进行解决。

关于本文的代码，小编已经上传到github了，后台回复“IP代理”四个字，即可获取代码链接，如果觉得不错，记得给个star噢！

微信关注我们

原文链接：https://yq.aliyun.com/articles/748891

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

写给Python开发者：机器学习十大必备技能

云栖号：https://yqh.aliyun.com第一手的上云资讯，不同行业精选的上云企业案例库，基于众多成功案例萃取而成的最佳实践，助力您上云决策！有时候，作为一个数据科学家，我们常常忘记了初心。我们首先是一个开发者，然后才是研究人员，最后才可能是数学家。我们的首要职责是快速找到无 bug 的解决方案。我们能做模型并不意味着我们就是神。这并不是编写垃圾代码的理由。自从我开始学习机器学习以来，我犯了很多错误。因此我想把我认为机器学习工程中最常用的技能分享出来。在我看来，这也是目前这个行业最缺乏的技能。我称他们为不懂软件的数据科学家，因为他们中很大一部分人都没有系统地学习过计算机科学课程。而我自己也是如此。如果要选择雇佣一个伟大的数据科学家和一个伟大的机器学习工程师，我会选择雇佣后者。下面开始我的分享。学习编写抽象类一旦开始编写抽象类，你就能体会到它给带来的好处。抽象类强制子类使用相同的方法和方法名称。许多人在同一个项目上工作，如果每个人去定义不同的方法，这样做没有必要也很容易造成混乱。 1import os 2from abc import ABCMeta, abs...

2020-03-09

794

在探讨过无服务器技术《沉寂多年，无服务器爆发，其硬核是什么？丨技术前沿》和裸金属技术《未来将是容器和裸金属的天下，这话有道理吗？| 技术前沿》的发展后，本篇我们讨论云原生（Cloud Native）技术。如果说无服务器和裸金属的爆发属于间歇性的，那云原生这几年的热度就称得上持续火热，且随着云计算普及进程的不断加深，有愈演愈烈的趋势。今天再谈云原生已经不是少数几个大企业的专属，越来越多的企业正在拥抱它，享受它带来的红利。究竟什么是云原生？能带来什么价值？本文第一篇将进行全面的梳理，后续将逐步介绍相关的技术和趋势。云原生四要素云原生，顾名思义，面向云而设计的。设计的什么？一套方法、一套理念、一套工具…… 最早人们对云计算的认识就是改变了基础资源的使用方式，业务会逐步迁移上云。但现在再看呢？远不止这一点。云计算在重新构建IT运行的规则，“上云”和“云上”是两个概念。上云是过去对云计算的认知，也就是迁移；而云上是现在及未来对云计算的认知，是云上重新构建，这是云原生的本质。举个例子对比，上云和云上就像后天培养和天生就有，区别是显而易见的。进一步说，云原生的概念最早由来自Pivotal...

2020-03-08

722

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。