python爬虫项目实战,爬取用户的信息,让你更好的筛选
1.导入模块
import urllib.request from bs4 import BeautifulSoup
2.添加头文件,防止爬取过程被拒绝链接
def qiuShi(url,page): ################### 模拟成高仿度浏览器的行为 ############## # 设置多个头文件参数,模拟成高仿度浏览器去爬取网页 heads ={ 'Connection':'keep-alive', 'Accept-Language':'zh-CN,zh;q=0.9', 'Accept':'text/html,application/xhtml+xml,application/xml; q=0.9,image/webp,image/apng,*/*;q=0.8', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36', } headall = [] for key,value in heads.items(): items = (key,value) # 将多个头文件参数一个一个添加到headall列表中 headall.append(items) # print(headall) # print('测试1--') # 创建opener对象 opener = urllib.request.build_opener() # 添加头文件到opener对象 opener.addheaders = headall # 将opener对象设置成全局模式 urllib.request.install_opener(opener) # 爬取网页并读取数据到data data = opener.open(url).read().decode() # data1 = urllib.request.urlopen(url).read().decode('utf-8') # print(data1) # print('测试2--') ################## end ########################################
3.创建soup解析器对象
soup = BeautifulSoup(data,'lxml') x = 0 4.开始使用BeautifulSoup4解析器提取用户名信息 ############### 获取用户名 ######################## name = [] # 使用bs4解析器提取用户名 unames = soup.find_all('h2') # print('测试3--',unames) for uname in unames: # print(uname.get_text(),'第',page,'-',str(x)+'用户名:',end='') # 将用户名一个一个添加到name列表中 name.append(uname.get_text()) # print(name) # print('测试4--') #################end############################# 5.提取发表的内容信息
发表的内容
cont = []
data4 = soup.find_all('div',class_='content')
# print(data4)
# 记住二次筛选一点要转换成字符串形式,否则报错
data4 = str(data4)
# 使用bs4解析器提取内容
soup3 = BeautifulSoup(data4,'lxml')
contents = soup3.find_all('span')
for content in contents:
# print('第',x,'篇糗事的内容:',content.get_text())
# 将内容一个一个添加到cont列表中
cont.append(content.get_text())
# print(cont)
# print('测试5--')
##############end####################################
**6.提取搞笑指数** #################搞笑指数########################## happy = [] # 获取搞笑指数 # 第一次筛选 data2 = soup.find_all('span',class_="stats-vote") # 获取搞笑指数 # 第二次筛选 data2 = str(data2) # 将列表转换成字符串形式才可以使用 # print(data2) # print('测试6--') soup1 = BeautifulSoup(data2,'lxml') happynumbers = soup1.find_all('i',class_="number") for happynumber in happynumbers: # print(happynumber.get_text()) # 将将搞笑数一个一个添加到happy列表中 happy.append(happynumber.get_text()) # print(happy) # print('测试7--') ##################end#############################
如果你跟我一样都喜欢python,想成为一名优秀的程序员,也在学习python的道路上奔跑,欢迎你加入python学习群:python群号:491308659 验证码:南烛
群内每天都会分享最新业内资料,分享python免费课程,共同交流学习,让学习变(编)成(程)一种习惯!
7.提取评论数
############## 评论数 ############################ comm = [] data3 = soup.find_all('a',class_='qiushi_comments') data3 = str(data3) # print(data3) soup2 = BeautifulSoup(data3,'lxml') comments = soup2.find_all('i',class_="number") for comment in comments: # print(comment.get_text()) # 将评论数一个一个添加到comm列表中 comm.append(comment.get_text()) ############end#####################################
8.使用正则表达式提取性别和年龄
######## 获取性别和年龄 ########################## # 使用正则表达式匹配性别和年龄 pattern1 = '<div class="articleGender (w*?)Icon">(d*?)</div>' sexages = re.compile(pattern1).findall(data) # print(sexages)
9.设置用户所有信息输出的格局设置
################## 批量输出用户的所以个人信息 ################# print() for sexage in sexages: sa = sexage print('*'*17, '=_= 第', page, '页-第', str(x+1) + '个用户 =_= ','*'*17) # 输出用户名 print('【用户名】:',name[x],end='') # 输出性别和年龄 print('【性别】:',sa[0],' 【年龄】:',sa[1]) # 输出内容 print('【内容】:',cont[x]) # 输出搞笑数和评论数 print('【搞笑指数】:',happy[x],' 【评论数】:',comm[x]) print('*'*25,' 三八分割线 ','*'*25) x += 1 ###################end##########################
10.设置循环遍历爬取13页的用户信息
for i in range(1,14): # 糗事百科的网址 url = 'https://www.qiushibaike.com/8hr/page/'+str(i)+'/' qiuShi(url,i)
运行结果,部分截图:

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
记一次JVM调优
记一次JVM调优 高级程序员必不可少的技能,这个也是高薪必问的问题 能够有效通过 JVM 调优提升系统性能的人往往被人们冠以”大牛”、”大师”之类的称呼。 过程 在项目启动时加上必要的参数 -XX:+PrintGC -XX:+PrintGCCause -XX:+PrintGCDateStamps -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc:/Users/aihe/idea/idea_gc.txt -XX:+DisableExplicitGC -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/home/issue_error 这一步gceasy.io网站上,直接就给了提示,增加metaspace的大小,在参数设置中,我们没有看到设置me
- 下一篇
JAVA学习day11
1、接口概述接口只描述所应该具备的方法,并没有具体实现,具体的实现由接口的实现类(相当于接口的子类)来完成。这样将功能的定义与实现分离,优化了程序设计。请记住:一切事物均有功能,即一切事物均有接口。 2、接口定义接口定义时需要使用interface关键字定义格式:public interface 接口名 {抽象方法1;抽象方法2;抽象方法3;}使用interface代替了原来的class,其他步骤与定义类相同:l 接口中的方法均为公共访问public的抽象方法l 接口中无法定义普通的成员变量 3、接口中成员变量的定义要求:必须定义为常量固定格式:Public static final 数据类型 变量名 = 值; 4、类与接口的关系实现关系定义类:实现接口,重写接口中的抽象方法类实现接口,可以理解为继承 关键字 implements 称为接口的实现类Class 类 implements 接口{ 重写接口中的抽象方法 } PS:只能创建接口的实现类的对象,不能创建接口的对象 /* 定义接口 使用关键字interface 接口名字 接口定义: 成员方法,全抽象 不能定义带有方法体的方法 定义...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Linux系统CentOS6、CentOS7手动修改IP地址
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS关闭SELinux安全模块
- 2048小游戏-低调大师作品
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Docker快速安装Oracle11G,搭建oracle11g学习环境