听说这样学习古诗词才是正确的！

2020-11-04 556

一文带你爬取传统古诗词(超级简单！)

2.7.1 拼接URL
2.7.2 内容解析
1. xpath解析
2. 代码实现
3. 运行结果
2.1 确定要爬取的内容对应的url
2.2 分析抓取的主要内容
2.3 获取所有的一级类型(错误版本)
2.4 获取所有的一级类型(修改版本)
2.5 获取二级标题
2.6 获取二级类型下诗词的名称和url
2.7 查询数据

三、完整代码
四、保存结果

一、小小课堂

中国文学源远流长，早在远古时代，虽然文字还没有产生，但在人民中间已经流传着神话传说和民间歌谣等口头文学。随着时间线的推移，先后出现了：诗经(西周)——楚辞(战国)——乐府(汉)——赋(晋)——唐诗——宋词——元曲——明清小说。

现在一提，不知各位想到的是什么。但是本人首先想到的诗歌是《阿房宫赋》、《水调歌头·明月几时有》、《念奴娇·赤壁怀古》、《茅屋为秋风所破歌》等等。可能是因为这些个别的诗歌贼长，在高中时期折磨过我的原因吧-。-

现在有一个新的职业——网络文学作家，他们写小说发布在网上，通过其有趣的故事情节及其丰富的主分线并行等特点吸引大批作者，从而达到挣钱的目的。但是，不知你知道与否，早在我国古代的明清时期，白话小说就已经蓬勃发展了。在那是，出现了“章回体小说”。一提到“章回体小说”，我们就不得不提到四大名著。名著之所以能够成为名著，是与其特点分不开的。它们的特点是分回标目，常取一个或两个中心事件为一回，每回篇幅大致相等，情节前后衔接，开头、结尾常用“话说”“且听下回分解”等口头语，中间穿插诗词韵文，结尾故设悬念吸引读者。除了四大名著之外，还有博主最喜欢的两本书：《儒林外史》、《聊斋志异》。哈哈，博主在此声明，我不是推销小说的啊。只是单纯的有感而发而已。如果各位想要看看博主推荐的书的话，也是可以的。总之你看了也没有任何坏处。

我国古典文学如此之多，在整个世界上也是实属罕见的。那么，作为新世纪国家的创造者，我们因该的做的就是传承好古典文学。古为今用，弘扬社会主义价值观，好让中国文学能够继续更好的继承下去。

现在因该会有读者会说，改进入正题了。🆗，从现在开始进入正题。

上面说了那么多，虽然看似与本文无关，但是其实是有关系的。想象一下，既然我们要更多的品味古典文学，我们是不是要专门的查看借鉴。但是又由于现在我们的时间都是零碎化的时间快，单独看书又不太现实。现如今网络如此之发达，我们每个人基本上都已经离不开电脑、手机了。那么我们可不可以通过Python爬虫的方式，把这些内容全不爬取出来，然后通过电子设备进行阅读呢？

下面就开始实现此设想。

二、网页分析

从理想到现实的第一步，当然是先找到网站了。

古诗文网：https://www.gushiwen.org/

我们打开网址之后，发现网页如下：

2.1 确定要爬取的内容对应的url

我们先查看网页的结构

1. 先点击更多查看多有的类型

2. 我们可以看到下图已经把所有的类型显示出来

3. 通过开发者选项确定起始URL

通过查看，我们可以判定我们的起始URL为：https://so.gushiwen.cn/shiwen/

代码：

start_url = "https://so.gushiwen.cn/shiwen/"base_url = "https://so.gushiwen.cn"

2.2 分析抓取的主要内容

根据上述两图我们先确定爬取的内容：一级类型，二级类型，诗词名称，诗词作者，诗词内容，诗词译文及注释

2.3 获取所有的一级类型(错误版本)

1.分析

2. 尝试xpath解析

3.代码实现

import requestsfrom lxml import etree
start_url = "https://so.gushiwen.cn/shiwen/"base_url = "https://so.gushiwen.cn"
headers = {    "user-agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",}
items = []

def parse_url(url):    """解析url，得到响应内容"""    # time.sleep(random.random())    response = requests.get(url=url, headers=headers)    return response.content.decode("utf-8")

def parse_html(html):    """使用xpath解析html，返回xpath对象"""    etree_obj = etree.HTML(html)    return etree_obj

html = parse_url(start_url)etree_obj = parse_html(html)first_type_name_list = etree_obj.xpath('//div[@class="cont"]/a/text()')first_type_url_list = etree_obj.xpath('//div[@class="cont"]/a/@href')print(first_type_name_list)print(first_type_url_list)

4. 结果

不知道，同学们有没有发现此处有问题呢？

2.4 获取所有的一级类型(修改版本)

我们上述的解析式其实是有问题的，它是吧所有的包括作者也解析出来了，看下图：

正确的写法是这样的

first_type_name_list = etree_obj.xpath('(//a[contains(@href,"/gushi/")]|//a[contains(@href,"/wenyan/")])/text()')first_type_url_list = etree_obj.xpath('(//a[contains(@href,"/gushi/")]|//a[contains(@href,"/wenyan/")])/@href')

2.5 获取二级标题

1. 解析

2. 代码

    #二级类型类型数据div    for div in div_list:        #二级类型名称        second_type_name = div.xpath(".//strong/text()")        if second_type_name:  # 有的没有二级类型            second_type_name = second_type_name[0]        else:            second_type_name = ""        print(second_type_name)

3. 结果

2.6 获取二级类型下诗词的名称和url

1. xpath解析

2. 代码

        #二级类型下诗词的名称和url        poetry_name_list = div.xpath(".//span/a/text()")        poetry_url_list = div.xpath(".//span/a/@href")        data_zip = zip(poetry_name_list,poetry_url_list)

2.7 查询数据

2.7.1 拼接URL

1. 拼接一级标题的URL

查询数据的话，首先我们先拼接一级URL

    #一级类型url    url = base_url + first_type["url"]    print(url)    first_type_name = first_type["name"]    print(first_type_name)

2. 拼接二级标题的URL

        for data in data_zip:            #item是一个诗词数据            item = {}            item["first_type_name"] = first_type_name            item["second_type_name"] = second_type_name            item["poetry_name"] = data[0]            #诗词url            poetry_url = base_url+data[1]            print(poetry_url)

2.7.2 内容解析

1. xpath解析

1.诗词名称

2.诗词作者

3.诗词内容

4.诗词译文及注释

2. 代码实现

            #诗词作者            poetry_author = etree_obj.xpath('//p[@class="source"]')[0].xpath(".//text()")            item["poetry_author"] = "".join(poetry_author).strip()            #诗词内容            poetry_content = etree_obj.xpath('//*[@id="contson45c396367f59"]/text()')            item["poetry_content"] = "".join(poetry_content).strip()            #诗词译文和注释            if etree_obj.xpath('//div[@class="contyishang"]'):#有的没有注释                poetry_explain = etree_obj.xpath('//div[@class="contyishang"]')[0].xpath(".//text()")                item["poetry_explain"] = "".join(poetry_explain).strip()            else:                item["poetry_explain"] = ""            print(item)

为什么会加上判断语句，是因为网站有反爬机制，通过加上判断机制，才能够正常的循环爬取。

3. 运行结果

三、完整代码

# encoding: utf-8'''  @software: Pycharm  @file: 古诗词.py  @Version：1.0  '''"""https://www.gushiwen.cn/https://so.gushiwen.cn/shiwen/"""import requestsimport timeimport randomimport csvfrom lxml import etree
start_url = "https://so.gushiwen.cn/shiwen/"base_url = "https://so.gushiwen.cn"
headers = {    "user-agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",}
items = []

def parse_url(url):    """解析url，得到响应内容"""    # time.sleep(random.random())    response = requests.get(url=url, headers=headers)    return response.content.decode("utf-8")

def parse_html(html):    """使用xpath解析html，返回xpath对象"""    etree_obj = etree.HTML(html)    return etree_obj

def get_first_type():    """获取所有的一级类型"""    first_type_list = []
    html = parse_url(start_url)    etree_obj = parse_html(html)
    first_type_name_list = etree_obj.xpath('(//a[contains(@href,"/gushi/")]|//a[contains(@href,"/wenyan/")])/text()')    first_type_url_list = etree_obj.xpath('(//a[contains(@href,"/gushi/")]|//a[contains(@href,"/wenyan/")])/@href')    data_zip = zip(first_type_name_list, first_type_url_list)
    for data in data_zip:        first_type = {}        first_type["name"] = data[0]        first_type["url"] = data[1]        first_type_list.append(first_type)
    return first_type_list

def get_data(first_type):    """查询数据"""
    #一级类型url    url = base_url + first_type["url"]    first_type_name = first_type["name"]
    #向一级类型url发送请求获取二级类型数据    html = parse_url(url)    etree_obj = parse_html(html)    div_list = etree_obj.xpath('//div[@class="typecont"]')    #二级类型类型数据div    for div in div_list:        #二级类型名称        second_type_name = div.xpath(".//strong/text()")        if second_type_name:  # 有的没有二级类型            second_type_name = second_type_name[0]        else:            second_type_name = ""        #二级类型下诗词的名称和url        poetry_name_list = div.xpath(".//span/a/text()")        poetry_url_list = div.xpath(".//span/a/@href")        data_zip = zip(poetry_name_list,poetry_url_list)        for data in data_zip:            #item是一个诗词数据            item = {}            item["first_type_name"] = first_type_name            item["second_type_name"] = second_type_name            item["poetry_name"] = data[0]            #诗词url            poetry_url = base_url+data[1]            html = parse_url(poetry_url)            etree_obj = parse_html(html)            #诗词作者            poetry_author = etree_obj.xpath('//p[@class="source"]')[0].xpath(".//text()")            item["poetry_author"] = "".join(poetry_author).strip()            #诗词内容            poetry_content = etree_obj.xpath('//*[@id="contson45c396367f59"]/text()')            item["poetry_content"] = "".join(poetry_content).strip()            #诗词译文和注释            if etree_obj.xpath('//div[@class="contyishang"]'):#有的没有注释                poetry_explain = etree_obj.xpath('//div[@class="contyishang"]')[0].xpath(".//text()")                item["poetry_explain"] = "".join(poetry_explain).strip()            else:                item["poetry_explain"] = ""            print(item)            # 保存            save(item)

def save(item):    """将数据保存到csv中"""    with open("./古诗词.csv", "a", encoding="utf-8") as file:        writer = csv.writer(file)        writer.writerow(item.values())
def start():    first_type_list = get_first_type()    for first_type in first_type_list:        get_data(first_type)

if __name__ == '__main__':    start()

四、保存结果

此程序还有一点小问题，就是由于网站存在有JS加密。有一部分无法正常保存下来。不过没关系，后期再进行改进！

正文结束！！！！

欢迎关注公众号：Python爬虫数据分析挖掘

记录学习python的点点滴滴；

回复【开源源码】免费获取更多开源项目源码；

公众号每日更新python知识和【免费】工具；

本文已同步到【开源中国】、【腾讯云社区】、【CSDN】；

本文分享自微信公众号 - Python爬虫数据分析挖掘（zyzx3344）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/u/4638454/blog/4702304

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

ELK是个啥？看完就懂了！

思维导图文章已收录Github精选，欢迎Star：https://github.com/yehongzhi/learningSummary 概述我们都知道，在生产环境中经常会遇到很多异常，报错信息，需要查看日志信息排查错误。现在的系统大多比较复杂，即使是一个服务背后也是一个集群的机器在运行，如果逐台机器去查看日志显然是很费力的，也不现实。如果能把日志全部收集到一个平台，然后像百度，谷歌一样通过关键字搜索出相关的日志，岂不快哉。于是就有了集中式日志系统。ELK就是其中一款使用最多的开源产品。一、什么是ELK ELK其实是Elasticsearch，Logstash 和 Kibana三个产品的首字母缩写，这三款都是开源产品。 ElasticSearch(简称ES)，是一个实时的分布式搜索和分析引擎，它可以用于全文搜索，结构化搜索以及分析。 Logstash，是一个数据收集引擎，主要用于进行数据收集、解析，并将数据发送给ES。支持的数据源包括本地文件、ElasticSearch、MySQL、Kafka等等。 Kibana，为 Elasticsearch 提供了分析和 Web 可视化界...

2020-11-03

725

第九篇|Spark的五种JOIN策略解析

JOIN操作是非常常见的数据处理操作，Spark作为一个统一的大数据处理引擎，提供了非常丰富的JOIN场景。本文分享将介绍Spark所提供的5种JOIN策略，希望对你有所帮助。本文主要包括以下内容：影响JOIN操作的因素 Spark中JOIN执行的5种策略 Spark是如何选择JOIN策略的影响JOIN操作的因素数据集的大小参与JOIN的数据集的大小会直接影响Join操作的执行效率。同样，也会影响JOIN机制的选择和JOIN的执行效率。 JOIN的条件 JOIN的条件会涉及字段之间的逻辑比较。根据JOIN的条件，JOIN可分为两大类：等值连接和非等值连接。等值连接会涉及一个或多个需要同时满足的相等条件。在两个输入数据集的属性之间应用每个等值条件。当使用其他运算符(运算连接符不为=)时，称之为非等值连接。 JOIN的类型在输入数据集的记录之间应用连接条件之后，JOIN类型会影响JOIN操作的结果。主要有以下几种JOIN类型：内连接( Inner Join)：仅从输入数据集中输出匹配连接条件的记录。外连接( Outer Join)：又分为左外连接、右外链接和全外连接。半连接...

2020-11-04

536

发表评论

资源下载

更多资源

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

听说这样学习古诗词才是正确的！

一文带你爬取传统古诗词(超级简单！)

目录

一、小小课堂

二、网页分析

2.1 确定要爬取的内容对应的url

2.2 分析抓取的主要内容

2.3 获取所有的一级类型(错误版本)

2.4 获取所有的一级类型(修改版本)

2.5 获取二级标题

2.6 获取二级类型下诗词的名称和url

2.7 查询数据

2.7.1 拼接URL

2.7.2 内容解析

1. xpath解析

2. 代码实现

3. 运行结果

三、完整代码

四、保存结果

ELK是个啥？看完就懂了！

第九篇|Spark的五种JOIN策略解析

相关文章

发表评论

资源下载

Spring

Rocky Linux

Sublime Text

WebStorm

欢迎您来访！