使用 BeautifulSoup 和 Selenium 进行网页爬取-低调大师

使用 BeautifulSoup 和 Selenium 进行网页爬取

2018-10-08 579

HTML几乎是平铺直叙的。CSS是一个伟大的进步，它清晰地区分了页面的结构和外观。JavaScript添加一些魅力。道理上讲是这样的。现实世界还是有点不一样。

在本教程中，您将了解在浏览器中看到的内容是如何实际呈现的，以及如何在必要时进行抓取。特别是，您将学习如何计算Disqus评论。我们的工具是Python和这门语言的很棒的包，比如request、BeautifulSoup和Selenium。

什么时候应该使用网页爬取?

网页爬取是一种自动获取被设计于实现人工用户交互式网页的内容、解析它们并提取一些信息(可能是导航到其他页面的链接)的实践。如果没有其他方法来提取必要的网页信息时，网页爬取是很必要有效的技术方法。理想情况下，应用程序依靠提供好的专用API来编程自动获得网页的数据。可在下面几种场所景之下你最好就别用网页抓取技术了:

被爬取的网页是脆弱的(您正在爬取的网页可能会被频繁更改)。
爬取被禁止(一些web应用程序有禁止爬取的策略)。
爬取速度可能会很慢和爬取内容过于繁杂的(如果你需要在很多无用信息中寻找和涉猎你想要的东东)。

了解真实的网页

让我们通过查看一些常见web应用程序代码的实现情况，来了解我们面临的问题。例如在“Vagrant技术入门”这篇帖子的页面底部有一些Disqus的评论:

为了爬取这些评论，我们需要首先在页面上找到它们。

查看页面代码

自20世纪90年代以来，每个浏览器都支持查看当前页面的HTML代码。下面是在源码视图下观看到的是“Vagrant技术入门”这篇帖子对应的源码内容的一个片段，这篇源码以大量与本文本身内容无关的被压缩过的和丑陋的JavaScript代码开始。下面是其中的一”小“部分:

这是页面中的一些实际HTML代码:

代码看起来乱糟糟，你竟然在页面的源代码中找不到Disqus评论，这让你有些吃惊。

强大的内联框架

原来页面是一个”混搭“, Disqus评论被嵌入到iframe(内联框架)元素中。你可以通过右键点击评论区域找到它，你会看到那里有框架信息和源码:

这是有意义的。将第三方内容嵌入iframe是使用iframe的主要应用场景之一。让我们在主页源中找到iframe标记。完蛋了!主页源中没有iframe标记。

JavaScript-Generated标记

这个遗漏的原因是view page source显示了从服务器获取的内容。但是，由浏览器呈现的最终DOM(文档对象模型)可能非常不同。JavaScript开始工作，可以随意操纵DOM。无法找到iframe，因为从服务器检索页面时，它就是不存在。

静态抓取 vs. 动态抓取

静态抓取会忽略 JavaScript, 它可以不依靠浏览器而直接从服务器端获取网页代码. 这就是你通过"查看源码"所看到的东西, 然后你就可以进行信息提取了. 如果你要查找的内容已经存在于源码中, 那就不需要进一步的动作了. 可是, 如果你要查找的内容像上文的 Disqus 评论一样被嵌入iframe 中, 你就必须使用动态爬取来获取内容.

动态爬取使用一个真实的浏览器(或无界面浏览器), 它先让页面内的 JavaScript 运行起来, 完成动态内容处理加载. 之后, 它再通过查询 DOM 来获取所要寻找的内容. 有时候, 你还需要让浏览器自动模拟人的操作来得到你所需要的内容.

使用 Requests 和 BeautifulSoup 进行静态抓取

让我们来看看如何使用 Python 的两个经典包来进行静态抓取: requests 用来抓取网页内容. BeautifulSoup用来解析 HTML.

安装 Requests 和 BeautifulSoup

首先安装 pipenv, 然后运行命令: pipenv install requests beautifulsoup4

它首先为你创建一个虚拟环境, 然后安装这两个包在虚拟环境里. 如果你的代码在gitlab上, 你可以使用命令 pipenv install 来安装.

获取网页内容

用 requests 抓取网页内容只需要一行代码: r = requests.get(url).

代码返回一个 response 对象, 它包含大量有用的属性. 其中最重要的属性是 ok 和 content. 如果请求失败, r.ok 为 False 并且 r.content 包含该错误信息. content 代表一个字节流, 做文本处理时, 你最好将它解码成 utf-8.

01

02

03

04

05

06

07

08

09

10

11

12

13

14

15

>>> r = requests.get('http://www.c2.com/no-such-page')

>>> r.ok

False

>>> print(r.content.decode('utf-8'))

<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">

<title>404 Not Found</title>

</head><body>

<h1>Not Found</h1>

<p>The requested URL /ggg was not found on this server.</p>

<hr>

Apache/2.0.52 (CentOS) Server at www.c2.com Port 80

</address>

</body></html>

如果代码正常返回没有报错, 那 r.content 会包含请求的网页源码(就是"查看源码"所看到的内容).

用 BeautifulSoup 查找元素

下面的 get_page() 函数会获取给定 URL 的网页源码, 然后解码成 utf-8, 最后再将 content 传递给 BeautifulSoup 对象并返回, BeautifulSoup 使用 HTML 解析器进行解析.

1

2

3

4

def get_page(url):

r = requests.get(url)

content = r.content.decode('utf-8')

return BeautifulSoup(content, 'html.parser')

我们获取到 BeautifulSoup 对象后, 就可以开始解析所需要的信息了.

BeautifulSoup 提供了很多查找方法来定位网页中的元素, 并可以深入挖掘出嵌套的元素.

Tuts+ 网站包含了很多培训教程, 这里是我的主页. 在每一个页面包含最多12篇教程, 如果你已经获取了12篇的教程, 你就可以进入下一页面了. 每一篇文章都被 <article> 标签包围着. 下面的函数就是发现页面里的所有 article 元素, 然后找到对应的链接, 最后提取出教程的 URL.

01

02

03

04

05

06

07

08

09

10

11

12

13

14

15

16

17

18

19

20

page = get_page('https://tutsplus.com/authors/gigi-sayfan')

articles = get_page_articles(page)

prefix = 'https://code.tutsplus.com/tutorials'

for a in articles:

print(a[len(prefix):])

Output:

building-games-with-python-3-and-pygame-part-5--cms-30085

building-games-with-python-3-and-pygame-part-4--cms-30084

building-games-with-python-3-and-pygame-part-3--cms-30083

building-games-with-python-3-and-pygame-part-2--cms-30082

building-games-with-python-3-and-pygame-part-1--cms-30081

mastering-the-react-lifecycle-methods--cms-29849

testing-data-intensive-code-with-go-part-5--cms-29852

testing-data-intensive-code-with-go-part-4--cms-29851

testing-data-intensive-code-with-go-part-3--cms-29850

testing-data-intensive-code-with-go-part-2--cms-29848

testing-data-intensive-code-with-go-part-1--cms-29847

make-your-go-programs-lightning-fast-with-profiling--cms-29809

使用 Selenium 动态爬取

静态爬取很适合一系列的文章，但正如我们前面看到的，Disqus 的评论是由 JavaScript 写在一个 iframe 中的。为了获取这些评论，我们需要让浏览器自动与DOM 交互。做这种事情最好的工具之一就是 Selenium。

Selenium 主要用于 Web 应用自动化测试，但它也是一个不错的通用浏览器自动化工具。

安装 Selenium

用这个命令安装 Selenium：pipenv install selenium

选择你的 Web 驱动

Selenium 需要一个 Web 驱动（自动化用的浏览器）。对于网页爬取来说，一般不需要在意选用哪个驱动。我建议使用 Chrome 驱动。Selenium 手册中有相关的介绍。

对比 Chrome 和 PhantomJS

某些情况下你可能想用没有用户界面的（headless）浏览器。理论上来说，PhantomJS 正好就是那款 Web 驱动。但是实际上有人报告一些只会在 PhantomJS 中出现的问题，这些问题在 Selenium 使用 Chrome 或 Firefox 时并不会出现。我喜欢从等式中删除这一变量，使用实际的 Web 浏览器驱动。

统计 Disqus 评论数量

我们来搞点动态抓取，使用 Selenium 统计 Tuts+ 手机的 Disqus 评论数量。下面需要导入的内容。

1

2

3

4

5

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support.expected_conditions import (

presence_of_element_located)

from selenium.webdriver.support.wait import WebDriverWait

get_comment_count() 函数需要传入 Selenium 驱动和 URL 作为参数。它使用驱动的 get() 方法从 URL 获取内容。这和requests.get()相似，其不同之处在于使用驱动对象管理 DOM 的实时呈现。

然后，它获取教程的标题，并使用 iframe 的父级 id，disqus_thread，和 iframe 标签来定位 iframe：

1

2

3

4

5

6

7

def get_comment_count(driver, url):

driver.get(url)

class_name = 'content-banner__title'

name = driver.find_element_by_class_name(class_name).text

e = driver.find_element_by_id('disqus_thread')

disqus_iframe = e.find_element_by_tag_name('iframe')

iframe_url = disqus_iframe.get_attribute('src')

接下来获取 iframe 的内容。注意我们要等到 comment-count 元素出现，因为评论是动态加载的，不一定可用。

1

2

3

4

5

6

7

8

9

driver.get(iframe_url)

wait = WebDriverWait(driver, 5)

commentCountPresent = presence_of_element_located(

(By.CLASS_NAME, 'comment-count'))

wait.until(commentCountPresent)

comment_count_span = driver.find_element_by_class_name(

'comment-count')

comment_count = int(comment_count_span.text.split()[0])

最后部分是返回最新的评论, 当然不包括我自己的评论. 方法是检查我还没有回复的评论.

01

02

03

04

05

06

07

08

09

10

11

12

13

last_comment = {}

if comment_count > 0:

e = driver.find_elements_by_class_name('author')[-1]

last_author = e.find_element_by_tag_name('a')

last_author = e.get_attribute('data-username')

if last_author != 'the_gigi':

e = driver.find_elements_by_class_name('post-meta')

meta = e[-1].find_element_by_tag_name('a')

last_comment = dict(

author=last_author,

title=meta.get_attribute('title'),

when=meta.text)

return name, comment_count, last_comment

结论

网页爬取是一个非常实用的技术, 尤其当你需要处理的信息浏览器并不提供有用的API支持的时候. 它通常需要一些技巧来从现代web应用中提取信息, 不过一些成熟的、设计良好的工具, 比如: requests、BeautifulSoup、Selenium 都会减轻你的工作并提高效率.

本文来自云栖社区合作伙伴“开源中国”

本文作者：局长

原文链接

微信关注我们

原文链接：https://yq.aliyun.com/articles/648372

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Dubbo 源码分析 - SPI 机制

1.简介 SPI 全称为 Service Provider Interface，是 Java 提供的一种服务发现机制。SPI 的本质是将接口实现类的全限定名配置在文件中，并由服务加载器读取配置文件，加载实现类。这样可以在运行时，动态为接口替换实现类。正因此特性，我们可以很容易的通过 SPI 机制为我们的程序提供拓展功能。SPI 机制在第三方框架中也有所应用，比如 Dubbo 就是通过 SPI 机制加载所有的组件。不过，Dubbo 并未使用 Java 原生的 SPI 机制，而是对其进行了增强，使其能够更好的满足需求。在 Dubbo 中，SPI 是一个非常重要的模块。如果大家想要学习 Dubbo 的源码，SPI 机制务必弄懂。下面，我们先来了解一下 Java SPI 与 Dubbo SPI 的使用方法，然后再来分析 Dubbo SPI 的源码。 2.SPI 示例 2.1 Java SPI 示例前面简单介绍了 SPI 机制的原理，本节通过一个示例来演示 JAVA SPI 的使用方法。首先，我们定义一个接口，名称为 Robot。 public interface Robot { void s...

2018-10-09

482

机器学习工程师的职位并不只是为 AI 博士准备的：通过网络上公开的课程和视频，人们可以学习人工智能领域的基础知识、培养写代码的能力，最终找到 AI 领域的相关工作——只要你不轻言放弃。本文中，这位名为 Daniel Bourke 的小哥介绍了自己从零开始的心路历程。我曾经在苹果商店工作，我想要改变，那么就从自己服务的技术入手吧。我开始学习机器学习和人工智能——这个领域非常热门，每一周，谷歌、Facebook 这样的科技公司都在推出新的 AI 技术，不断改善我们的体验。现在也有数不清的自动驾驶汽车公司，虽然这项技术很好，但我并不喜欢驾驶，而且道路很危险。即使看到了今天正在发生的一切，我们仍然无法给出「人工智能」一词的明确定义。一些人认为深度学习可以被称为 AI；另一些人则认为除非完全通过图灵测试，否则就不算 AI。缺乏定义这一问题确实给我入门人工智能前期造成了很多麻烦，如果你在学的东西有很多种不同的定义，那么学习它真的很难起步。所以我们先抛开定义。我是如何起步的？我和朋友想创建一家互联网创业公司，结果失败了。我们觉得做这件事没有意义，所以就放弃了。但在这个过程中，我对 ML ...

2018-10-09

546

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。