您现在的位置是:首页 > 文章详情

Python爬虫如-何爬取ajax网页之爬取雪球网文章

日期:2019-04-29点击:447

公众号:pythonislover

1.效果图

在这里插入图片描述

2.传送门点击传送门

3.发工具之后,往下滑时会出现一个接口(当然滑的越多接口越多)

在这里插入图片描述

4.我们通过对比两个及以上的接口进行分析它们的不同之处(这叫找规律)
可以发现max_id是在变化的,其他都是不变的,而且count是返回的文章数目有15个,所以max_id只要自增15就可以实现翻页了,是不是很简单
在这里插入图片描述

5.我们可以这么写代码实现翻页(这代码只是举例子怎么写翻页,不代表最终的代码),这里我取max_id开始的地方是20333000(小伙伴们可以自己去找一下max_id的有效范围),如下

max_id = 20333000 while True: # 请求的url url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id={}&count=15&category=-1'.format(max_id) # 返回来的数据是json格式 resp = requests.get(url, headers=headers).json() max_id += 15

6.接下来分析一下返回来的数据,以便我们进行抓取,通过下图我们可以发现每一篇文章都是存储在列表这个键当中的,所以我们先取出list这个键在这里插入图片描述

代码如下:

# 我们需要的数据存在一个列表之中,先取出这个列表 lists = resp.get('list')

7.再看每一篇文章的信息,将data的信息复制粘贴到json.cn这个网站去查看json的信息,可以发在data中取出我们需要的信息

在这里插入图片描述

for temp in lists: # 数据在每一个元素中的data键中,取出data data = temp.get('data') # 取出来的data是一个str类型,我们需要将其转换成dict的类型方可操作 data = json.loads(data) # 判断data是否存在 if data: # 获取文章的题目 title = data.get('title') # 如果没有题目,就continue,因为通过我的观察,没有title的一般是广告之类的 if not title: continue # 获取摘要 description = data.get('description') # 数据清洗,使用正则表达式的sub方法 description = re.sub(r'<a.*?>|</a>|<img.*?/>', '', description) # 获取用户的信息,用户的信息在data里边的user键中 user_name = data.get('user').get('screen_name') # 获取是什么类型的文章 column = temp.get('column') # 获取发表的时间戳 created_at = data.get('created_at') # 获取阅读人数 view_count = data.get('view_count') # 声明一个字典存储数据 data_dict = {} data_dict['title'] = title data_dict['description'] = description data_dict['user_name'] = user_name data_dict['column'] = column data_dict['created_at'] = created_at data_dict['view_count'] = view_count print(data_dict)

8.最后就是将数据保存到文件中,其中data_list是我在前面一开始就声明的了

# 将数据写入json文件 with open('data_json.json', 'a+', encoding='utf-8-sig') as f: json.dump(data_list, f, ensure_ascii=False, indent=4) print('json文件写入完成') # 将数据写入csv文件 with open('data_csv.csv', 'w', encoding='utf-8-sig', newline='') as f: # 表头 title = data_list[0].keys() # 声明writer writer = csv.DictWriter(f, title) # 写入表头 writer.writeheader() # 批量写入数据 writer.writerows(data_list) print('csv文件写入完成')

9.完整代码

完整代码公众号回复'雪球网'关键字即可

公众号:pythonislover

记得要设置延迟噢,我们是一只文明的爬虫~~~ 忘了说了,cookie会过期,需要及时更新cookie

好文推荐:
requests+pyquery爬取csdn博客信息 - https://mp.weixin.qq.com/s/yHV_wI8a1BS-SuDnersGfA
爬一爬那些年你硬盘存过的老师 - https://mp.weixin.qq.com/s/A3rLHXWnwarfFhUkj66TpQ
爬取某东600多本书籍,用数据帮你分析哪些Python书籍值得选择(上) - https://mp.weixin.qq.com/s/3wonWPQtm5xPYjIiM-JcZg
让弹幕飞一会儿——腾讯视频弹幕(39W+)爬取实战 - https://mp.weixin.qq.com/s/qUBFPQo-WITUcCWz0vcYhQ
Python采集微博热评进行情感分析祝你狗年脱单 - https://mp.weixin.qq.com/s/YuN8qW47i2QmIQ27zjFVRw
Python爬虫使用selenium爬取qq群的成员信息(全自动实现自动登陆) - https://mp.weixin.qq.com/s/i5XMeSQjIOlMeqVJuoutjA
python爬虫—selenium爬取京东商品信息 - https://mp.weixin.qq.com/s/1kZ4F5mp2gFALj3uKTiMqQ
python爬虫—爬取b站APP视频信息(通过fiddler抓包工具) - https://mp.weixin.qq.com/s/wtBEj-PI4crpcRVxLzofSg
某坤学学吴亦凡,Python可视化分析「大碗宽面」b站弹幕和网易云音乐评论 - https://mp.weixin.qq.com/s/czi4CKjJk1-Bf87Tviw0YA
听说你的爬虫被封了? - https://mp.weixin.qq.com/s/f9bqRCXhgTGNsjdvcK6AvA
python爬虫—使用bs4爬取链家网的房源信息 - https://mp.weixin.qq.com/s/zjVhCs0wKZpBkUA8WZYIeg
新手爬虫之创建第一个完整的scrapy项目 - https://mp.weixin.qq.com/s/u0TVq-jFZ-8UQGCYENSFBw
python爬虫—爬取taptap游戏的评论信息(通过fiddler抓包) - https://mp.weixin.qq.com/s/wDjzyzKmQQ8HQmlad71IyA
如何爬取ajax网页之爬取雪球网文章 - https://mp.weixin.qq.com/s/A6Q4GF4UbhX8Z5TT3d9byw

原文链接:https://yq.aliyun.com/articles/700858
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章