Python爬取新浪微博用户信息及微博内容-低调大师

Python爬取新浪微博用户信息及微博内容

2018-11-06 702

大数据时代，对于研究领域来说，数据已经成为必不可少的一部分。新浪微博作为新时代火爆的新媒体社交平台，拥有许多用户行为及商户数据，因此需要研究人员都想要得到新浪微博数据，But新浪微博数据量极大，获取的最好方法无疑就是使用Python爬虫来得到。网上有一些关于使用Python爬虫来爬取新浪微博数据的教程，但是完整的介绍以及爬取用户所有数据信息比较少，因此这里分享一篇主要通过selenium包来爬取新浪微博用户数据的文章。

目标
爬取新浪微博用户数据，包括以下字段：id，昵称，粉丝数，关注数，微博数，每一篇微博的内容，转发数，评论数，点赞数，发布时间，来源，以及是原创还是转发。（本文以GUCCI（古驰）为例）
方法
+使用selenium模拟爬虫
+使用BeautifulSoup解析HTML
结果展示

297d42a85321ae72330fe0afdd96fbf1c8100716

步骤分解

1.选取爬取目标网址

首先，在准备开始爬虫之前，得想好要爬取哪个网址。新浪微博的网址分为网页端和手机端两个，大部分爬取微博数据都会选择爬取手机端，因为对比起来，手机端基本上包括了所有你要的数据，并且手机端相对于PC端是轻量级的。
下面是GUCCI的手机端和PC端的网页展示。

41a554e377fc1d754f5569069a0316fd31fdcf39

2.模拟登陆
定好爬取微博手机端数据之后，接下来就该模拟登陆了。
模拟登陆的网址
登陆的网页下面的样子

c1e336ebae7156f66c320da3fee7fc83bfa15131

模拟登陆代码

63993a04d6ffcf034e6d2cff2ec9b45432a538eb

3.获取用户微博页码

在登录之后可以进入想要爬取的商户信息，因为每个商户的微博量不一样，因此对应的微博页码也不一样，这里首先将商户的微博页码爬下来。与此同时，将那些公用信息爬取下来，比如用户uid，用户名称，微博数量，关注人数，粉丝数目。

b2552f1d4cc83f53e6f56d63a7254834e4cab02e

4.根据爬取的最大页码，循环爬取所有数据
在得到最大页码之后，直接通过循环来爬取每一页数据。抓取的数据包括，微博内容，转发数量，评论数量，点赞数量，发微博的时间，微博来源，以及是原创还是转发。

4d49539dd5db9ee29d844a1e1a99827c8333aba2

4.在得到所有数据之后，可以写到csv文件，或者excel
最后的结果显示在上面展示啦！！！！
到这里完整的微博爬虫就解决啦！！！

原文发布时间为： 2018-11-06
本文作者：Python数据之道
本文来自云栖社区合作伙伴“Python数据之道”，了解相关信息可以关注“Python数据之道”。

微信关注我们

原文链接：https://yq.aliyun.com/articles/665358

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

应用JMH测试大型HashMap的性能

PolarDB初赛进展写这篇是因为PolarDB比赛很重要的一点是控制内存。C++只有2G，Java也只有3G，而6400W的键值对，即使只是Long类型，也需要16 * 64 * 10e6 ≈ 1G的内存，这还不包括其他对象引用的相关开销，所以内存控制在这里是非常重要的，因为稍不小心就会被CGroup无情地kill掉。因此在比赛开始没多久的时候我就研究了一下使用怎样的HashMap可以达到内存最简的状况。在这个过程中，顺便使用了JMH来分析了一下几个侯选库的性能。因为初赛相对来说比较简单，而且HashMap实际上在复赛时候的Range操作上没有发挥余地，所以我决定将这篇写下来分享给大家，希望能帮助更多对比赛有兴趣的同学找到一个比较好的入手点。之前的初赛简单思路可以看这里。侯选的集合库我们能第一时间想到的最朴素最直接的候选者就是Java自带的HashMap了，这是我们平时使用最多也是最熟悉的实现。只不过在这里因为性能和内存消耗的原因，它稍微有点不合适。其实市面上有很多其他优秀的集合库实现的，我在这里大致列一下我这边会测试的几个： FastUtil: 一个意大利的计算机博士开发的...

2018-11-06

827

目录条件判断语句： if语句： if...else语句 switch语句 while语句 do...while语句 for循环语句跳转语句： continue语句 break语句条件判断语句： if语句： if条件判断语句是最基本、最常用的流程控制语句，可以根据条件表达式的值执行相应的处理。简单的if语句的语法格式如下： if(expression){ statement 1 } expression:必选项，用于指定条件表达式，可以使用逻辑运算符。 statement 1：用于指定要执行的语句序列。当expression的值为true时，执行该语句序列，简单if语句的执行流程如下图。 if...else语句 if...else语句是if语句的标准形式，在if语句简单形式的基础之上增加一个else从句，当expression的值是false时则执行else从句中的内容。 if...else语句格式如下： if(expression){ statement 1 } else{ statement2 } 在if语句的标准形式中，首先对expression的值进行判断，如果它的值...

2018-11-06

619

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。