30 行 Python 代码爬取英雄联盟全英雄皮肤-低调大师

30 行 Python 代码爬取英雄联盟全英雄皮肤

2020-11-24 567

距离上次写爬虫文章已经过了许久了，之前写过一篇20行Python代码爬取王者荣耀全英雄皮肤 ^[1]，反响强烈，其中有很多同学希望我再写一篇针对英雄联盟官网的皮肤爬取，但苦于事情繁多，便一拖再拖，一直拖到了现在，那么本篇文章我们就一起来学习一下如何爬取英雄联盟全英雄皮肤。

爬取代码非常简单，从上到下可能只需要写30行左右就能完成，但重要的是分析过程，在此之前，我们先来了解一下本篇文章需要用到的模块。

requests模块介绍

首先是requests模块，这是一个模拟浏览器请求的模块，我们可以通过它来获取网页上的信息，比如百度：

import requests
url = 'http://www.baidu.com'response = requests.get(url)print(response.text)

运行结果：通过get函数就能够向指定参数的url发送请求，得到的response对象中封装了很多响应的信息，其中的text即为响应内容，注意到获取的内容里有乱码，这是编解码不一致造成的，只需先获取二进制数据，然后重新解码即可：

import requests
url = 'http://www.baidu.com'response = requests.get(url)print(response.content.decode())

运行结果：

json模块

json模块可以对json字符串和Python数据类型进行相互转换，比如将json转换为Python对象：

import json
json_str = '{"name":"zhangsan","age":"20"}'rs = json.loads(json_str)print(type(rs))print(rs)

使用loads函数即可将json字符串转为字典类型，运行结果：

<class 'dict'>{'name': 'zhangsan', 'age': '20'}

而若是想将Python数据转为json字符串，也非常简单：

import json
str_dict = {'name': 'zhangsan', 'age': '20'}json_str = json.dumps(str_dict)print(type(json_str))print(json_str)

通过dumps函数即可将Python数据转为json字符串，运行结果：

<class 'str'>{"name": "zhangsan", "age": "20"}

准备工作

前面介绍了两个模块，通过这两个模块我们就能够完成这个程序了。在正式开始编写代码之前，我们首先需要分析数据来源，来到官网：https://lol.qq.com/main.shtml，往下拉找到英雄列表：我们随意点击一个英雄进去查看：在皮肤图片上右键点击检查：这样就找到了这个皮肤的url，我们再选择第二个皮肤，看看它的url：我们将安妮所有皮肤的url全部拿出来看看：

https://game.gtimg.cn/images/lol/act/img/skin/big1000.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1001.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1002.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1003.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1004.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1005.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1006.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1007.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1008.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1009.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1010.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1011.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1012.jpg

从这些url中能发现什么规律呢？其实规律非常明显，url前面的内容都是一样的，唯一不同的是big1000.jpg，而每个皮肤图片就是在该url的基础上加1。

那么问题来了，它是如何区分这张图片所属的英雄的呢？我们观察浏览器上方的地址：地址上有一个属性值id为1，那么我们可以猜测一下，皮肤图片url中的big1000.jpg是不是由英雄id和皮肤id共同组成的呢？

要想证明我们的猜想，就必须再去看看其它英雄皮肤是不是也满足这一条件：打开烬的详情页面，其id为202，由此，烬的皮肤图片url最后部分应为：big ' + 202 + ' 皮肤编号.jpg，所以其url应为：

https://game.gtimg.cn/images/lol/act/img/skin/big202000.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big202001.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big202002.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big202003.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big202004.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big202005.jpg

事实是不是如此呢？检查一下便知：规律已经找到，但是我们还面临着诸多问题，比如每个英雄对应的id是多少呢？每个英雄又分别有多少个皮肤呢？

查询英雄id

先来解决第一个问题，每个英雄对应的id是多少？我们只能从官网首页中找找线索，在首页位置打开网络调试台：点击Network，并选中XHR，XHR是浏览器与服务器请求数据所依赖的对象，所以通过它便能筛选出一些服务器的响应数据。此时我们刷新页面，在筛选出的内容发现了这么一个东西：hero_list，英雄列表？这里面会不会存储着所有英雄的信息呢？点击右侧的Response，得到了一串json字符串，我们将其解析一下：这些数据里果然存储的是英雄的信息，包括名字、id、介绍等等，那么接下来我们的任务就是将英雄名字和id单独提取出来，过滤掉其它信息。

忘了告诉你们了，这个文件的url在这里可以找到：接下来开始写代码：

import jsonimport requests
# 定义一个列表，用于存放英雄名称和对应的idhero_id = []url = 'https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js?v=20'response = requests.get(url)text = response.text# 将json字符串转为列表hero_list = json.loads(text)['hero']# 遍历列表for hero in hero_list:    # 定义一个字典    hero_dict = {'name': hero['name'], 'id': hero['heroId']}    # 将列表加入字典    hero_id.append(hero_dict)
print(hero_id)

首先通过requests模块请求该url，就能够获取到一个json字符串，然后使用json模块将该字符串转为Python中的列表，最后循环取出每个英雄的name和heroid属性，放入新定义的列表中，这个程序就完成了英雄id的提取。

查询皮肤个数

接下来解决第二个问题，如何知晓某个英雄究竟有多少个皮肤，按照刚才的思路，我们可以猜测一下，对于皮肤也应该会有一个文件存储着皮肤信息，在某个英雄的皮肤页面打开网络调试台，并选中XHR，刷新页面，找找线索：找来找去确实找不到有哪个文件是跟皮肤有关系的，但是这里发现了一个31.js文件，而当前英雄的id也为31，这真的是巧合吗？我们将右边的json字符串解析一下：该json数据中有一个skins属性，该属性值即为当前英雄的皮肤信息，既然找到了数据，那接下来就好办了，开始写代码：

import jsonimport requests
url = 'https://game.gtimg.cn/images/lol/act/img/js/hero/31.js'response = requests.get(url)text = response.text# 将json字符串转为列表skins_list = json.loads(text)['skins']skin_num = len(skins_list)

源程序实现

准备工作已经完成了我们所有的前置任务，接下来就是在此基础上编写代码了：

import requestsimport jsonimport osfrom tqdm import tqdm
try:    # 定义一个列表，用于存放英雄名称和对应的id    hero_id = []    skins = []    url = 'https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js?v=20'    response = requests.get(url)    text = response.text    # 将json字符串转为列表    hero_list = json.loads(text)['hero']    # 遍历列表    for hero in hero_list:        # 定义一个字典        hero_dict = {'name': hero['name'], 'id': hero['heroId']}        # 将列表加入字典        hero_id.append(hero_dict)    # 得到每个英雄对应的id后，即可获得英雄对应皮肤的url    # 英雄id + 001    # 遍历列表    for hero in hero_id:        # 得到英雄名字        hero_name = hero['name']        # 得到英雄id        hero_id = hero['id']        # 创建文件夹        os.mkdir('C:/Users/Administrator/Desktop/lol/' + hero_name)        # 进入文件夹        os.chdir('C:/Users/Administrator/Desktop/lol/' + hero_name)        # 得到id后即可拼接存储该英雄信息的url        hero_info_url = 'https://game.gtimg.cn/images/lol/act/img/js/hero/' + hero_id + '.js'        # 通过访问该url获取英雄的皮肤数量        text = requests.get(hero_info_url).text        info_list = json.loads(text)        # 得到皮肤名称        skin_info_list = info_list['skins']        skins.clear()        for skin in skin_info_list:            skins.append(skin['name'])        # 获得皮肤数量        skin_info_list = len(info_list)        # 获得皮肤数量后，即可拼接皮肤的url，如：安妮的皮肤url为：        # https://game.gtimg.cn/images/lol/act/img/skin/big1000.jpg ~ https://game.gtimg.cn/images/lol/act/img/skin/big1012        s = ''        for i in tqdm(range(skins_num), '正在爬取' + hero_name + '的皮肤'):            if len(str(i)) == 1:                s = '00' + str(i)            elif len(str(i)) == 2:                s = '0' + str(i)            elif len(str(i)) == 3:                pass            # 拼接皮肤url            skin_url = 'https://game.gtimg.cn/images/lol/act/img/skin/big' + hero_id + '' + s + '.jpg'            # 访问当前皮肤url            im = requests.get(skin_url)            # 保存图片            if im.status_code == 200:                # 判断图片名称中是否带有'/'、'\'                if '/' in skins[i] or '\\' in skins[i]:                    skins[i] = skins[i].replace('/', '')                    skins[i] = skins[i].replace('\\', '')                with open(skins[i] + '.jpg', 'wb') as f:                    f.write(im.content)except:    print('网络异常')

运行效果：运行之前记得在桌面上创建一个lol文件夹，如果想改动的话也可以修改程序：程序中还考虑到了一些其它情况，比如在爬取这个皮肤的时候会出现问题：因为图片路径是以皮肤名字命名的，然而这个皮肤的名字中竟然有个/,它是会影响到我们的图片保存操作的，所以在保存前将斜杠替换成空字符即可。

还有一个问题就是即使是第一个皮肤，其编号也应该为000而不是0，所以还需要对其进行一个转化，让其始终是三位数。

最后

本篇文章同样继承了上篇文章精简的特点，抛去注释的话总共30行代码左右，程序当然还有一些其它地方可以进一步优化，这就交给大家自由发挥了。

文章代码已上传至GitHub：https://github.com/blizzawang/Spider_LOL，有什么好的建议，欢迎Issues。

References

[1] 20行Python代码爬取王者荣耀全英雄皮肤 : https://blizzawang.blog.csdn.net/article/details/103190981

本文分享自微信公众号 - ZackSock（ZackSock）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/u/4579628/blog/4750668

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

容器底层 --- 超细节的 Namespace 机制讲解

Namespace Linux Namespace 是 Linux 提供的一种内核级别环境隔离的方法。这种隔离机制和 chroot 很类似，chroot 是把某个目录修改为根目录，从而无法访问外部的内容。Linux Namesapce 在此基础之上，提供了对 UTS、IPC、Mount、PID、Network、User 等的隔离机制，如下所示。分类系统调用参数相关内核版本 Mount Namespaces CLONE_NEWNS Linux 2.4.19 UTS Namespaces CLONE_NEWUTS Linux 2.6.19 IPC Namespaces CLONE_NEWIPC Linux 2.6.19 PID Namespaces CLONE_NEWPID Linux 2.6.19 Network Namespaces CLONE_NEWNET 始于Linux 2.6.24 完成于 Linux 2.6.29 User Namespaces CLONE_NEWUSER 始于 Linux 2.6.23 完成于 Linux 3.8) ★ Linux Namespace 官...

2020-11-26

726

测试与开发的爱恨情仇

大家好，我是安酱。今天我们用一个小故事来聊一聊测试与开发之间的那些事儿。 1 小美到公司的时候已经九点半了，但是偌大的办公室室却还没几个人。早来的几位同事还都是跟自己同属一个组的QA同学。互联网黑话： QA：QUALITY ASSURANCE质量保障工程师，俗称测试。 RD：Research & Develop研发工程师，俗称开发。「早呀各位！」小美热情的对身边的同事打起了招呼。小美对自己目前的工作还是挺满意的，她不太喜欢编程，但是又热爱着互联网行业，所以软件测试对于她来说是两全其美的岗位。「不早了，都快十点啦。不过那群RD估计都还没出门呢。」一位同事抬起头打趣道，目光还朝旁边的区域瞅了一眼，那儿还是空荡荡的。小美耸耸肩，努了努嘴，似乎在表示这不是很正常的情况嘛。随后从背包中掏出笔记本，开始整理一下今天要测试的需求。过了一会，小美旁边那片区域慢慢的来人了，整个办公室开始变得嘈杂起来。「卧槽，我昨晚两点才下班！本来十点就打算走了，没想到一个JIRA就过来了，跑都没跑掉！」「别说了，我这还有几个历史遗留bug，你这么有空来帮我看看吧。」「别别，那还是算了。」两位R...

2020-11-24

697

发表评论

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。