Python---20行代码爬取斗鱼平台房间数据(上)
本期用到
json,requests
库来爬取网页信息,这次爬的是一个特殊多页式网站,普通多页式网站只需分析不同页面的url,找出其中的不同点,用for in
来循环即可,但是斗鱼的https://www.douyu.com/directory/game/LOL中不同页面都是相同的url,这就需要去“F12”来寻找其中的区别。
工具.环境:Python3.6.5,Pycharm,windows10,Firefox
1.首先来寻找不同页面的区别
以斗鱼的LOL板块为例:https://www.douyu.com/directory/game/LOL
尝试切换不同页面都是相同的url,那怎么办呢??????????
按F12呼出开发者工具(在这推荐使用Firefox或chrome浏览器,我用的是Firefox)
要详细学习开发者工具的请自行百度,这里直接选择
网络
,会看到很多数据,数据发送方法分两种,为“post”and“get”。再选择 XHR
,点击左上角的删除键,再重新载入网页,就会看到电脑又向服务器发送了多个请求。 再重复多换几个页面,发现每次换的页码都与其中一个请求名相同
点击该条信息,在右边显示该条信息的
消息头
,有一个请求网址 https://www.douyu.com/gapi/rkc/directory/2_1/3,把它复制下来,发现末尾的3就是对应的页数。 OK 第一步结束! 2.get页面信息
打开1中get到的网址https://www.douyu.com/gapi/rkc/directory/2_1/3
发现里面有我想要爬取的斗鱼房间信息,那么就是它了,接下来要对它进行解剖。
(1)运用requests
来get该网页的信息
import requests import json urls = ['https://www.douyu.com/gapi/rkc/directory/2_1/{}'.format(page) for page in range(1, 5)] for url in urls: res = requests.get(url) print(res.text) # 可以想先看看get到的是个什么东西
这里运用for in
循环来get到1-5页的网页信息for page in range(1, 5)
,具体见上面代码
(2)运用json
库来将已编码的 JSON 字符串解码为 Python 对象
import requests import json urls = ['https://www.douyu.com/gapi/rkc/directory/2_1/{}'.format(page) for page in range(1, 5)] for url in urls: res = requests.get(url) j = json.loads(res.text) print(j) # 可以看到已解码的对象
json.dumps
:将 Python 对象编码成 JSON 字符串json.loads
:将已编码的 JSON 字符串解码为 Python 对象
3.处理对象数据
看到了一堆糊糊,这时Firefox的优势就体现出来了
可以看到各层的所属关系,便于接下来的提取数据,下面是完整代码:
import requests import json urls = ['https://www.douyu.com/gapi/rkc/directory/2_1/{}'.format(page) for page in range(1, 5)] for url in urls: res = requests.get(url) j = json.loads(res.text) l1 = j['data'] # 通过观察可以发现要的数据在data下 l2 = l1['rl'] #在观察发现在data的rl中 tplt = '{0:{4}<20}\t{1:<12}\t{2:{4}<25}\t{3:<12}' print(tplt.format('主播', '房间号', '房间名', '热度', chr(12288))) for i in range(len(l2)): # 这里用到for循环来处理一个列表下多个字典的数据 Anchor = l2[i]['nn'] # 获取主播名字 RoomNumber = l2[i]['rid'] # 获取房间号 Heat = l2[i]['ol'] # 获取热度 RoomName = l2[i]['rn'] # 获取房间名 print(tplt.format(Anchor, RoomNumber, RoomName, Heat, chr(12288)))
4.结果
运行程序
下篇:如何将数据导入Excel教程
遇到的问题:在名字中出现中英文混合的字符,会出现对不了齐的问题,有解决方法的可以在评论区分享!谢谢
发现错误的可以大力提出,一起交流学习

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
当我们聊技术实力的时候,我们到底在聊什么
技术实力的迷思 俗话说“文无第一,武无第二”,技术就是一种“文”的能力,很多时候我们很难直观看出一个技术人员的实力,但不管是公司招聘的面试,还是公司内部的晋升面评,都需要在较短时间内快速判断一个技术人员的实力。正因为技术实力评价本身没有绝对客观的标准,很多时候都会听到类似的吐槽: “我们组内的 XX 技术实力不如我,竟然他晋升通过了,我却被刷掉了,评委真的是~!@#¥”…… “面试官问的都是什么鬼问题,我知道的基本没问,我感觉他根本不会考察我的技术实力”…… “听说算法和数据结构最能体现程序员的实力,我要好好啃啃《算法导论》”(然而啃完又忘记了)…… …… 还有很多类似的问题和吐槽,背后都可以归纳为一个问题:当我们聊技术实力的时候,我们到底在聊什么? 有的人认为:技术实力就是指算法和数据结构很厉害…… 有的人认为:研究过 Linux 内核源码和看懂《深入浅出 MFC》的才是技术牛逼的人…… 有的人认为:会写 C++ 的才是真正的技术高手,因为 C++ 的对象初始化有 N 种写法…… 有的人认为:技术高手必须对业务很熟悉…… 有的人认为:贡献了开源项目代码的才是技术牛人…… 有的人认为:...
- 下一篇
Jupyter Notebooks 入门
自从有了纸莎草纸以来,出版人们一直在努力以吸引读者的方式来格式化数据。尤其是在数学、科学、和编程领域,设计良好的图表、插图和方程式可以成为帮助人们理解技术信息的关键。 Jupyter Notebook 通过重新构想我们如何制作教学文本来解决这个问题。Jupyter (我在 2017 年 10 月在 All Things Open 上首次了解到)是一款开源应用程序,它使用户能够创建包含实时代码、方程式、可视化和文本的交互式共享笔记本。 Jupyter 从 IPython 项目发展而来,它是个具有交互式 shell 和基于浏览器的笔记本,支持代码、文本和数学表达式。Jupyter 支持超过 40 种编程语言,包括 Python、R 和 Julia,其代码可以导出为 HTML、LaTeX、PDF、图像和视频,或者作为 IPyhton 笔记本与其他用户共享。 一个有趣的事实是:“Jupyter” 是 “Julia、Python 和 R” 的缩写。 根据 Jupyter 项目网站介绍,它的一些用途包括“数据清理和转换,数值模拟,统计建模,数据可视化,机器学习等等”。科学机构正在使用 Jupyte...
相关文章
文章评论
共有0条评论来说两句吧...