Python---20行代码爬取斗鱼平台房间数据（上）-低调大师

Python---20行代码爬取斗鱼平台房间数据（上）

2018-05-20 746

本期用到json,requests库来爬取网页信息，这次爬的是一个特殊多页式网站，普通多页式网站只需分析不同页面的url,找出其中的不同点，用for in来循环即可，但是斗鱼的https://www.douyu.com/directory/game/LOL中不同页面都是相同的url,这就需要去“F12”来寻找其中的区别。
工具.环境：Python3.6.5，Pycharm，windows10，Firefox

img_663f966a44fe308eed2eabe03a9c440d.jpe

douyuTV

1.首先来寻找不同页面的区别

以斗鱼的LOL板块为例：https://www.douyu.com/directory/game/LOL
尝试切换不同页面都是相同的url，那怎么办呢？？？？？？？？？？
按F12呼出开发者工具（在这推荐使用Firefox或chrome浏览器，我用的是Firefox）

开发者工具

要详细学习开发者工具的请自行百度，这里直接选择 网络，会看到很多数据，数据发送方法分两种，为“post”and“get”。再选择 XHR，点击左上角的删除键，再重新载入网页，就会看到电脑又向服务器发送了多个请求。

网络-XHR

再重复多换几个页面，发现每次换的页码都与其中一个请求名相同

发现不同

点击该条信息，在右边显示该条信息的 消息头，有一个请求网址 https://www.douyu.com/gapi/rkc/directory/2_1/3，把它复制下来，发现末尾的3就是对应的页数。 OK 第一步结束！

2.get页面信息

打开1中get到的网址https://www.douyu.com/gapi/rkc/directory/2_1/3

JSON

发现里面有我想要爬取的斗鱼房间信息，那么就是它了，接下来要对它进行解剖。

(1)运用`requests`来get该网页的信息

import requests
import json

urls = ['https://www.douyu.com/gapi/rkc/directory/2_1/{}'.format(page) for page in range(1, 5)]
for url in urls:
    res = requests.get(url)
    print(res.text)   # 可以想先看看get到的是个什么东西

这里运用for in循环来get到1-5页的网页信息for page in range(1, 5),具体见上面代码

(2)运用`json`库来将已编码的 JSON 字符串解码为 Python 对象

import requests
import json

urls = ['https://www.douyu.com/gapi/rkc/directory/2_1/{}'.format(page) for page in range(1, 5)]
for url in urls:
    res = requests.get(url)
    j = json.loads(res.text)
    print(j)  # 可以看到已解码的对象

json.dumps：将 Python 对象编码成 JSON 字符串
json.loads：将已编码的 JSON 字符串解码为 Python 对象

3.处理对象数据

对象数据

看到了一堆糊糊，这时Firefox的优势就体现出来了

json

可以看到各层的所属关系，便于接下来的提取数据，下面是完整代码：

import requests
import json

urls = ['https://www.douyu.com/gapi/rkc/directory/2_1/{}'.format(page) for page in range(1, 5)]
for url in urls:
    res = requests.get(url)
    j = json.loads(res.text)
    l1 = j['data']     # 通过观察可以发现要的数据在data下
    l2 = l1['rl']     #在观察发现在data的rl中
    tplt = '{0:{4}<20}\t{1:<12}\t{2:{4}<25}\t{3:<12}'
    print(tplt.format('主播', '房间号', '房间名', '热度', chr(12288)))

    for i in range(len(l2)):   # 这里用到for循环来处理一个列表下多个字典的数据
        Anchor = l2[i]['nn']              # 获取主播名字
        RoomNumber = l2[i]['rid']         # 获取房间号
        Heat = l2[i]['ol']                # 获取热度
        RoomName = l2[i]['rn']            # 获取房间名
        print(tplt.format(Anchor, RoomNumber, RoomName, Heat, chr(12288)))

4.结果

运行程序

斗鱼LOL板块房间数据

下篇：如何将数据导入Excel教程
遇到的问题：在名字中出现中英文混合的字符，会出现对不了齐的问题，有解决方法的可以在评论区分享！谢谢

发现错误的可以大力提出，一起交流学习

微信关注我们

原文链接：https://yq.aliyun.com/articles/637532

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

当我们聊技术实力的时候，我们到底在聊什么

技术实力的迷思俗话说“文无第一，武无第二”，技术就是一种“文”的能力，很多时候我们很难直观看出一个技术人员的实力，但不管是公司招聘的面试，还是公司内部的晋升面评，都需要在较短时间内快速判断一个技术人员的实力。正因为技术实力评价本身没有绝对客观的标准，很多时候都会听到类似的吐槽： “我们组内的 XX 技术实力不如我，竟然他晋升通过了，我却被刷掉了，评委真的是~！@#￥”…… “面试官问的都是什么鬼问题，我知道的基本没问，我感觉他根本不会考察我的技术实力”…… “听说算法和数据结构最能体现程序员的实力，我要好好啃啃《算法导论》”（然而啃完又忘记了）…… …… 还有很多类似的问题和吐槽，背后都可以归纳为一个问题：当我们聊技术实力的时候，我们到底在聊什么？有的人认为：技术实力就是指算法和数据结构很厉害…… 有的人认为：研究过 Linux 内核源码和看懂《深入浅出 MFC》的才是技术牛逼的人…… 有的人认为：会写 C++ 的才是真正的技术高手，因为 C++ 的对象初始化有 N 种写法…… 有的人认为：技术高手必须对业务很熟悉…… 有的人认为：贡献了开源项目代码的才是技术牛人…… 有的人认为：...

2018-05-20

647

自从有了纸莎草纸以来，出版人们一直在努力以吸引读者的方式来格式化数据。尤其是在数学、科学、和编程领域，设计良好的图表、插图和方程式可以成为帮助人们理解技术信息的关键。 Jupyter Notebook 通过重新构想我们如何制作教学文本来解决这个问题。Jupyter （我在 2017 年 10 月在 All Things Open 上首次了解到）是一款开源应用程序，它使用户能够创建包含实时代码、方程式、可视化和文本的交互式共享笔记本。 Jupyter 从 IPython 项目发展而来，它是个具有交互式 shell 和基于浏览器的笔记本，支持代码、文本和数学表达式。Jupyter 支持超过 40 种编程语言，包括 Python、R 和 Julia，其代码可以导出为 HTML、LaTeX、PDF、图像和视频，或者作为 IPyhton 笔记本与其他用户共享。一个有趣的事实是：“Jupyter” 是 “Julia、Python 和 R” 的缩写。根据 Jupyter 项目网站介绍，它的一些用途包括“数据清理和转换，数值模拟，统计建模，数据可视化，机器学习等等”。科学机构正在使用 Jupyte...

2018-05-20

748

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。