您现在的位置是:首页 > 文章详情

Python爬虫入门教程 17-100 CSDN博客抓取数据

日期:2019-04-29点击:372

1.写在前面

写了一段时间的博客了,忽然间忘记了,其实博客频道的博客也是可以抓取的


70

其实这事情挺简单的,打开CSDN博客首页,他不是有个最新文章么,这个里面都是最新发布的文章。

image

打开F12抓取一下数据API,很容易就获取到了他的接口

image

提取链接长成这个样子

https://blog.csdn.net/api/articles?type=more&category=newarticles&shown_offset=1540381234000000

发现博客最新文章是一个瀑布流页面,不断下拉,只有一个参数shown_offset 在变化,按照我多年的行医经验,这个参数是个时间戳,而且肯定是上一次数据最后一条的时间戳。

基于这个理论,看一下数据,咦,猜对了~

image

博客返回的数据看一下,是否对味

image

2.CSDN博客撸代码

这个步骤就非常简单了,就

原文链接:https://yq.aliyun.com/articles/700754
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章