您现在的位置是:首页 > 文章详情

Python爬虫入门教程 20-100 慕课网免费课程抓取

日期:2019-04-30点击:433

1. 慕课网免费课程-写在前面

美好的一天又开始了,今天咱继续爬取IT在线教育类网站,慕课网,这个平台的数据量并不是很多,所以爬取起来还是比较简单的
image

2. 慕课网免费课程准备爬取

打开我们要爬取的页面,寻找分页点和查看是否是异步加载的数据。
image

进行了一些相应的分析,发现并没有异步数据,只需要模拟翻页就,在进行HTML的解析就可以获取数据了,
翻页数据如下,合计32页,在数据量上属于非常小的了。

https://www.imooc.com/course/list?page=1 https://www.imooc.com/course/list?page=2 .... https://www.imooc.com/course/list?page=32

3. 慕课网免费课程编写代码

代码分为自动拼接URL,解析HTML,存储到mongodb三个部分组成

原文链接:https://yq.aliyun.com/articles/700939
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章