欢迎使用CSDN-markdown编辑器Python爬虫初接触，学会爬虫不抓美女图片干啥！-低调大师

欢迎使用CSDN-markdown编辑器Python爬虫初接触，学会爬虫不抓美女图片干啥！

2018-06-12 604

学习编程语言是很枯燥的，尤其是对一个编程零基础的人来说，更为枯燥！所以我们要从枯燥的学习中找点乐趣和动力！比如，抓点小姐姐的图片

我们的目标选择唯一图库，url自己去找【人工呲牙笑】

这个网站没有反爬，特别好爬，打开主页后，找到美女图片分类

上面分类没有这个分类，自己想办法进入哦。。。

然后往下拉，就会发现N多的图集，我们先去找找翻页，记得先打开F12开发者工具，然后选择翻页，查看源代码中位置！

可以看到这里就是控制页面翻页的源代码了，我们直接拿到a标签的href属性，这个是最后一页的地址，将属性中的“789”切出来，就拿到了最大页码，然后循环拿到所有页面的url，如下图

这样就拿到所有页面的url了，然后我们取图集的url，同样的方式，找到源码中url的位置

img_urls = etree.HTML(requests.get(url_i).text).xpath('//div[@class="ABox"]/a/@href')
#url_i 是页面的url，也就是上个代码截图中那个列表，循环遍历出来的

一行代码就取到了所有a标签下的图集地址，一页有24个图集！这里我们用一个函数来获取所有图集内图片地址并返回图集名字和图片地址

这样，主要内容就写完了，然后就是构建整个代码，写入本地，我还将之前做的进度条也加进去了，整体代码和效果发出来看看！

import os
import time
import requests
from lxml import etree

def get_img_url(url):
    '''
    :param url: 图集url
    :return: 图集名字和图片地址所构成的字典
    '''
    img = {}#空字典，用于放图片url和对应的编号
    html = requests.get(url)#获取页面源码
    html.encoding = 'gb2312'
    data = etree.HTML(html.text)#解析
    title = data.xpath('//div[@class="wrapper clearfix imgtitle"]/h1/text()')[0]#图集名
    page = data.xpath('//div[@class="wrapper clearfix imgtitle"]/h1/span/span[2]/text()')[0]#图集图片数
    img['1'] = data.xpath('//a[@class="down-btn"]/@href')[0]#第一张的图片地址
    for i in range(2,int(page)+1):
        #其余的图片地址
        img_url = etree.HTML(requests.get(url.replace('.html','_%s.html'%str(i))).text).xpath('//a[@class="down-btn"]/@href')[0]
        img['%s'%str(i)] = img_url#写入字典
    return title,img


def downloader(url,path,name,header={}):
    start = time.time()#开始时间
    if os.path.exists(path):  # 判断路径及文件夹是否存在，不存在即创建
        pass
    else:
        os.mkdir(path)
    size = 0
    if header is None:
        response = requests.get(url, stream=True)#stream属性必须带上
    else:
        response = requests.get(url, stream=True,headers=header)#stream属性必须带上
    chunk_size = 1024#每次下载的数据大小
    content_size = int(response.headers['content-length'])#总大小
    if response.status_code == 200:
        print('[文件大小]:%0.2f MB' % (content_size / chunk_size / 1024))#换算单位并print
        with open(path+'\\%s'%name, "ab") as file:
            for data in response.iter_content(chunk_size=chunk_size):
                file.write(data)
                file.flush()#清空缓存
                size += len(data)#已下载文件大小
                #\r指定行第一个字符开始，搭配end属性完成覆盖进度条
                print('\r'+'[下载进度]:%s%.2f%%' % ('>'*int(size*50/ content_size),float(size / content_size * 100)),end='')
    end = time.time()#结束时间
    print('\n'+"%s下载完成！用时%.2f秒"%(name,(end-start)))

if __name__ == '__main__':
    url_list=[]#放入所有页面url
    url = 'http://www.mmonly.cc/mmtp/'
    url_list.append(url)#先放入第一页
    html = requests.get(url)
    html.encoding = 'gb2312'
    page = etree.HTML(html.text).xpath('//a[text()="末页"]/@href')[0].split('_')[-1].split('.')[0]
    for i in range(2,int(page)+1):
        url_list.append(url+'list_9_{}.html'.format(str(i)))#其余页面url，注意第一页和其他页不一样
    for url_i in url_list:
        img_urls = etree.HTML(requests.get(url_i).text).xpath('//div[@class="ABox"]/a/@href')
        for img_url in img_urls:
            title,imgs = get_img_url(img_url)
            for img in imgs.keys():
                path = 'E:\\python\\mn\\%s' % title
                downloader(url= imgs[img],path=path,name='%s.jpg'%(title+img))

其实这里我想说的是，整个网站很标题党。。。完全不符合标题的。

微信关注我们

原文链接：https://yq.aliyun.com/articles/639546

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

JavaScript最后学习总结

上一篇文章主要介绍了JavaScript中非常重要的AJAX，那么关于JavaScript的基础到这里就告一段落了。记得今年3月22号开始写第一篇JavaScript学习笔记，边学边用转眼已经到了六月中旬。可能是因为技术栈是Java的缘故，JavaScript这门脚本多少觉得有点像远房姊妹的特殊意义，虽然第一篇说到了Java和JavaScript两门语言并没有什么太大关系。但是在学习使用的这个几个月，也体验到了这门脚本语言是如此的短小精悍。有些老司机可能会说你还没有学JQuery等一些非常出名的 JavaScript 第三方库，无可厚非这点我也承认，奈何时间精力有限等种种原因，接下来的时间还是会回到Java以及Android中。当然也不排除在未来的某一天继续回归到优秀JavaScript第三方库的学习。深处移动互联浪潮之巅的时代，我想，作为一名开发人员，紧跟时代的脚步虽然是幸运的但是也充满了挑战。或许只有当潮水退去，你才知道谁一直在裸泳。因此，一切的准备都是为了未来捍卫自己荣誉那一天的厉兵秣马所作出的努力。最后感谢 W3CSchool、廖雪峰的官方网站给我们提供...

2018-06-13

613

web.xml文件添加servlet访问限制后出现如下错误： cvc-complex-type.2.3: Element 'web-app' cannot have character [children], because the type's content type is element- only. 翻译： cvc-complex-type.2.3：元素'web-app'不能包含character [children]，因为该类型的内容类型是仅包含元素的。错误截图如下：解决办法一：出错原因为xml头文件中第三行： xmlns="http://java.sun.com/xml/ns/javaee" 改成javaee改为j2ee后解决问题。解决办法二：由于是粘贴过来的编码可能有问题，将xml中的文本重新手打输入一遍，一般就会解决这种问题。我的GitHub地址： https://github.com/heizemingjun 我的博客园地址： http://www.cnblogs.com/chenmingjun 我的蚂蚁笔记博客地址： http://blog.lean...

2018-06-13

574

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。