几个非常适合新手练习python爬虫的网页,总有一款能搞定!
几个非常适合新手练习python爬虫的网页,总有一款能搞定!
话不多说,直接干货了!
头条图集:抓包获取json数据
打开今日头条主页,搜索小姐姐,或者其他你感兴趣的内容,然后点击图集
动态加载的json数据就出来了,没有反爬,注意的是,如果不想去内容里面抓图片的话,可以只抓缩略图,就是这个页面显示的图片,它在json数据中的image_list中,注意,将url中的list换成origin,就是大图哦!代码如下
所有的图片地址都出来了!
全书网:直接源码匹配重点内容相关内容
直接搜索全书网,打开主页,随便找一篇小说,比如《盗墓笔记》,点击后跳转到网页,在点击开始阅读,出现了所有章节,在进入章节就出现了小说内容,网页内容和代码如下:
80电子书:匹配到地址直接下载压缩文件
80电子书网和上面的全书网比较类似,但是它本身提供有下载功能,可以直接用小说Id和名字直接构建下载文件,页面截图和代码:
python学习交流群542110741
其他类似网站
类似的网站还有:妹子图网、美桌网、笔趣阁、久久等等甚至百度图片也可以用抓包获取数据的!
以上代码都是随手写的,没有排版,大家有兴趣可以自己排下版,或者比如小说网站,可以先抓取大类别,然后在每一个类别中获取所有小说,最后在把所有小说的内容抓出来,这样就是全站爬虫了!!!
如果大家还有什么适合的网站,希望能在评论区里共享下哦!大家一起交流下!
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
kafka 0.11x 启动30秒后自动停止,报【另一个程序正在使用此文件,进程无法访问】
环境:kafka_2.11-1.1.0,win7_64,java8 现象: 启动30秒后自动停止,报【另一个程序正在使用此文件,进程无法访问】 [2018-06-06 14:32:46,784] INFO [Log partition=myTopic-0, dir=D:\kafka_2.11-1.1.0\kafka-logs] Scheduling log segment [bas eOffset 0, size 1599] for deletion. (kafka.log.Log) [2018-06-06 14:32:46,800] ERROR Error while deleting segments for myTopic-0 in dir D:\kafka_2.11-1.1.0\kafka-logs (kafka .server.LogDirFailureChannel) java.nio.file.FileSystemException: D:\kafka_2.11-1.1.0\kafka-logs\myTopic-0\00000000000000000000.log -&g...
- 下一篇
Java获取Window和Linux系统的项目ClassPath路径
不啰嗦,直接复制工具类 /** * 在windows和linux系统下均可正常使用 * Create by yster@foxmail.com 2018/6/6/006 14:51 */ public class ProjectPath { //获取项目的根路径 public final static String classPath; static { //获取的是classpath路径,适用于读取resources下资源 classPath = Thread.currentThread().getContextClassLoader().getResource("").getPath(); } /** * 项目根目录 */ public static String getRootPath() { return RootPath(""); } /** * 自定义追加路径 */ public static String getRootPath(String u_path) { return RootPath("/" + u_path); } /** * 私有处理方法 */ privat...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8安装Docker,最新的服务器搭配容器使用
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- 设置Eclipse缩进为4个空格,增强代码规范
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2配置默认Tomcat设置,开启更多高级功能