欢迎使用CSDN-markdown编辑器Python爬虫初接触,学会爬虫不抓美女图片干啥!
学习编程语言是很枯燥的,尤其是对一个编程零基础的人来说,更为枯燥!所以我们要从枯燥的学习中找点乐趣和动力!比如,抓点小姐姐的图片
我们的目标选择唯一图库,url自己去找【人工呲牙笑】
这个网站没有反爬,特别好爬,打开主页后,找到美女图片分类
上面分类没有这个分类,自己想办法进入哦。。。
然后往下拉,就会发现N多的图集,我们先去找找翻页,记得先打开F12开发者工具,然后选择翻页,查看源代码中位置!
可以看到这里就是控制页面翻页的源代码了,我们直接拿到a标签的href属性,这个是最后一页的地址,将属性中的“789”切出来,就拿到了最大页码,然后循环拿到所有页面的url,如下图
这样就拿到所有页面的url了,然后我们取图集的url,同样的方式,找到源码中url的位置
img_urls = etree.HTML(requests.get(url_i).text).xpath('//div[@class="ABox"]/a/@href') #url_i 是页面的url,也就是上个代码截图中那个列表,循环遍历出来的
一行代码就取到了所有a标签下的图集地址,一页有24个图集!这里我们用一个函数来获取所有图集内图片地址并返回图集名字和图片地址
这样,主要内容就写完了,然后就是构建整个代码,写入本地,我还将之前做的进度条也加进去了,整体代码和效果发出来看看!
import os import time import requests from lxml import etree def get_img_url(url): ''' :param url: 图集url :return: 图集名字和图片地址所构成的字典 ''' img = {}#空字典,用于放图片url和对应的编号 html = requests.get(url)#获取页面源码 html.encoding = 'gb2312' data = etree.HTML(html.text)#解析 title = data.xpath('//div[@class="wrapper clearfix imgtitle"]/h1/text()')[0]#图集名 page = data.xpath('//div[@class="wrapper clearfix imgtitle"]/h1/span/span[2]/text()')[0]#图集图片数 img['1'] = data.xpath('//a[@class="down-btn"]/@href')[0]#第一张的图片地址 for i in range(2,int(page)+1): #其余的图片地址 img_url = etree.HTML(requests.get(url.replace('.html','_%s.html'%str(i))).text).xpath('//a[@class="down-btn"]/@href')[0] img['%s'%str(i)] = img_url#写入字典 return title,img def downloader(url,path,name,header={}): start = time.time()#开始时间 if os.path.exists(path): # 判断路径及文件夹是否存在,不存在即创建 pass else: os.mkdir(path) size = 0 if header is None: response = requests.get(url, stream=True)#stream属性必须带上 else: response = requests.get(url, stream=True,headers=header)#stream属性必须带上 chunk_size = 1024#每次下载的数据大小 content_size = int(response.headers['content-length'])#总大小 if response.status_code == 200: print('[文件大小]:%0.2f MB' % (content_size / chunk_size / 1024))#换算单位并print with open(path+'\\%s'%name, "ab") as file: for data in response.iter_content(chunk_size=chunk_size): file.write(data) file.flush()#清空缓存 size += len(data)#已下载文件大小 #\r指定行第一个字符开始,搭配end属性完成覆盖进度条 print('\r'+'[下载进度]:%s%.2f%%' % ('>'*int(size*50/ content_size),float(size / content_size * 100)),end='') end = time.time()#结束时间 print('\n'+"%s下载完成!用时%.2f秒"%(name,(end-start))) if __name__ == '__main__': url_list=[]#放入所有页面url url = 'http://www.mmonly.cc/mmtp/' url_list.append(url)#先放入第一页 html = requests.get(url) html.encoding = 'gb2312' page = etree.HTML(html.text).xpath('//a[text()="末页"]/@href')[0].split('_')[-1].split('.')[0] for i in range(2,int(page)+1): url_list.append(url+'list_9_{}.html'.format(str(i)))#其余页面url,注意第一页和其他页不一样 for url_i in url_list: img_urls = etree.HTML(requests.get(url_i).text).xpath('//div[@class="ABox"]/a/@href') for img_url in img_urls: title,imgs = get_img_url(img_url) for img in imgs.keys(): path = 'E:\\python\\mn\\%s' % title downloader(url= imgs[img],path=path,name='%s.jpg'%(title+img))
其实这里我想说的是,整个网站很标题党。。。完全不符合标题的。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
JavaScript最后学习总结
上一篇文章 主要介绍了JavaScript中非常重要的AJAX,那么关于JavaScript的基础到这里就告一段落了。 记得今年3月22号开始写第一篇JavaScript学习笔记,边学边用转眼已经到了六月中旬。可能是因为技术栈是Java的缘故,JavaScript这门脚本多少觉得有点像远房姊妹的特殊意义,虽然第一篇说到了Java和JavaScript两门语言并没有什么太大关系。但是在学习使用的这个几个月,也体验到了这门脚本语言是如此的短小精悍。有些老司机可能会说你还没有学JQuery等一些非常出名的 JavaScript 第三方库,无可厚非这点我也承认,奈何时间精力有限等种种原因,接下来的时间还是会回到Java以及Android中。当然也不排除在未来的某一天继续回归到优秀JavaScript第三方库的学习。 深处移动互联浪潮之巅的时代,我想,作为一名开发人员,紧跟时代的脚步虽然是幸运的但是也充满了挑战。或许只有当潮水退去,你才知道谁一直在裸泳。 因此,一切的准备都是为了未来捍卫自己荣誉那一天的厉兵秣马所作出的努力。 最后感谢 W3CSchool、廖雪峰的官方网站 给我们提供...
- 下一篇
Myeclipse中java web.xml报错cvc-complex-type.2.3: Element 'web-app' cannot...
web.xml文件添加servlet访问限制后出现如下错误: cvc-complex-type.2.3: Element 'web-app' cannot have character [children], because the type's content type is element- only. 翻译: cvc-complex-type.2.3:元素'web-app'不能包含character [children],因为该类型的内容类型是仅包含元素的。 错误截图如下: 解决办法一: 出错原因为xml头文件中第三行: xmlns="http://java.sun.com/xml/ns/javaee" 改成javaee改为j2ee后解决问题。 解决办法二: 由于是粘贴过来的编码可能有问题,将xml中的文本重新手打输入一遍,一般就会解决这种问题。 我的GitHub地址: https://github.com/heizemingjun 我的博客园地址: http://www.cnblogs.com/chenmingjun 我的蚂蚁笔记博客地址: http://blog.lean...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Hadoop3单机部署,实现最简伪集群
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果