Python爬虫入门教程 20-100 慕课网免费课程抓取
1. 慕课网免费课程-写在前面
美好的一天又开始了,今天咱继续爬取IT在线教育类网站,慕课网
,这个平台的数据量并不是很多,所以爬取起来还是比较简单的
2. 慕课网免费课程准备爬取
打开我们要爬取的页面,寻找分页点和查看是否是异步加载的数据。
进行了一些相应的分析,发现并没有异步数据,只需要模拟翻页就,在进行HTML的解析就可以获取数据了,
翻页数据如下,合计32页,在数据量上属于非常小的了。
https://www.imooc.com/course/list?page=1
https://www.imooc.com/course/list?page=2
....
https://www.imooc.com/course/list?page=32
3. 慕课网免费课程编写代码
代码分为自动拼接URL,解析HTML,存储到mongodb三个部分组成

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
阿里云AMQP Spring集成
概述 本文主要演示如何使用Spring集成开发阿里云的AMQP。 主要配置及步骤 1、pom.xml <dependencies> <dependency> <groupId>org.springframework.amqp</groupId> <artifactId>spring-rabbit</artifactId> <version>1.6.1.RELEASE</version> </dependency> <dependency> <groupId>
-
下一篇
2018-06-29 "西游记"主题Python入门示例尝试-数据结构
基于Python官方入门文档 5. Data Structures - More on Lists 列表详述 >>> 人物 = ['佛', '妖', '凡人', '菩萨', '妖', '凡人'] >>> 人物.count('妖') 2 >>> 人物.count('圣人') 0 >>> 人物.index('凡人') 2 >>> 人物.index('凡人', 4) # 从位置4开始搜索下一个凡人 5 >>> 人物.reverse() >>> 人物 ['凡人', '妖', '菩萨', '凡人', '妖', '佛'] >>> 人物.append('仙') >>> 人物 ['凡人', '妖', '菩萨', '凡人', '妖', '佛', '仙'] >>> 人物.sort() # 按照编码排序, 详见5.8 >>> 人物 ['仙', '佛', '凡人', '凡人', '妖', '妖', '菩萨'] &g...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- MySQL数据库在高并发下的优化方案
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8编译安装MySQL8.0.19
- Dcoker安装(在线仓库),最新的服务器搭配容器使用