python简单应用！用爬虫来采集天猫所有优惠券信息，写入本地文件

2018-07-23 561

今天给大家分享一个小网站的数据采集，并写到excel里面！

分析网站

目标网站是“小咪购”，这里有天猫所有的含有购物券的商品信息，我们今天就来抓它吧！

随便找一段文字，然后点击右键查看网页源代码，看看是否存在该文字，如果存在，那么这个网页就是静态网站了！很幸运，这个网站居然是静态的。

那就简单了，不需要去分析ajax加载数据或者找json包了，直接获取网页源代码==>>匹配相关内容==>>保存数据即可！

工具和库

Windows+python3.6

import random

import time

import requests

from lxml import etree

import xlwt

用这几个库就可以搞定了！注意xlwt和xlrd这2个库都是操作excel的，一个是保存数据，一个是读取数据，不要搞混了。

开始写代码

首先写一个函数，将所有的爬虫工作写到函数里，如下图

这个网站需要写上headers，不写是抓不到数据的！新建一个列表，将爬到的相关数据写入列表，它的形式大概是这样的：【【产品信息A1，2，3……】，【产品信息B1，2，3……】……】，这么写列表是因为我们最后要将他们写如excel表格，那么列表中的每一个元素（还是列表形式）都是一行数据，方便写入！

注意第33行，列表构成的时候，用+连接会将所有列表中的元素放入一个列表，比如：【1，2，3】+【4，5】=【1，2，3，4，5】，而用append()函数则会将后面的内容作为一个元素加入列表中，比如：[1,2,3].append([4,5])=[1,2,3,[4,5]]

下来就是写入excel了，首先是新建excel表格，并写入第一行数据

wb = xlwt.Workbook(encoding='utf-8')
    ws = wb.add_sheet('优惠券')
    path = 'E://python//优惠券.xls'
    head = ['序号','商品类型','商品名称','优惠券','券后价','在售价','销量','推荐理由','商品链接']
    for i in range(9):
        ws.write(0,i,head[i])

后面的数据，依次按格式写入并最后用wb.save(路径)的方式保存即可！完整代码及效果如下

import random
import time
import requests
from lxml import etree
import xlwt

def main(line = 1):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0'}
    url = 'http://www.hlxns.com'
    html = requests.get(url, headers=headers)
    html.encoding = 'utf-8'
    page = etree.HTML(html.text).xpath('//a[@class="item"]/text()')[-1]
    for i in range(int(line/100)+1, int(page) + 1):
        k = 1
        lis = []
        print('【开始下载】第%d页数据'%i)
        htm = requests.get(url + '/index.php?r=l&page={}'.format(str(i)), headers=headers)
        htm.encoding = 'utf-8'
        data = etree.HTML(htm.text)
        url_sps = data.xpath('//div[@class="title"]/a/@href')
        for url_sp in url_sps:#一页100条
            time.sleep(random.random()*2)
            print('      【正在下载】第%03d页第%03d条商品数据'%(i,k),end='')
            k += 1
            html_sp = requests.get(url + url_sp, headers=headers)
            html_sp.encoding = 'utf-8'
            info = etree.HTML(html_sp.text)
            title = info.xpath('//span[@class="title"]/text()')  # 产品
            summary = [x.replace('推荐理由：','') for x in  info.xpath('//span[@class="theme-color-3"]/text()')]  # 推荐理由
            category = info.xpath('//div[@class="nav-wrap"]/div/a[3]/text()')  # 类别
            now_price = info.xpath('//span[@class="now-price"]/b[2]/i/text()')  # 券后价
            old_price = info.xpath('//span[@class="org-price"]/i/text()')  # 在售价
            nums = info.xpath('//div[@class="text-wrap"]/span[2]/i/text()')  # 销量
            coupon = info.xpath('//div[@class="buy-coupon theme-color-8"]/span/b/text()')  # 优惠券
            sp_url = info.xpath('//a[@class="theme-bg-color-8"]/@href')  # 链接
            lis.append(category+title+coupon+now_price+old_price+nums+summary+sp_url)
            print('................................【下载完成】')
        print('######第%d页数据   【下载完成】'%i)
        for ii in range(len(lis)):
            lis[ii].insert(0, line)  # 添加序号
            for j in range(9):  # 列
                ws.write(line, j, lis[ii][j])
            line += 1
        print('>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>【写入本页数据完成】<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<')
        wb.save(path)
if __name__ == '__main__':
    wb = xlwt.Workbook(encoding='utf-8')
    ws = wb.add_sheet('优惠券')
    path = 'E://python//优惠券.xls'
    head = ['序号','商品类型','商品名称','优惠券','券后价','在售价','销量','推荐理由','商品链接']
    for i in range(9):
        ws.write(0,i,head[i])
    main()

由于网站更新的很快（官方说是10分钟。。。），所以也没有抓取那么多，所有的页面有大约600多页，一页100条信息，也就是说一共有6万多条商品信息，如果不用多线程的话会很慢！

微信关注我们

原文链接：https://yq.aliyun.com/articles/639531

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Java高级——缓存的使用场景

当你的应用扛不住，知道要使用缓存了，应该怎么做呢？场景1：和数据库中的数据结构保持一致，原样缓存这种场景是最常见的场景，也是很多架构使用缓存的适合，最先涉及到的场景。基本就是数据库里面啥样，我缓存也啥样，数据库里面有商品信息，缓存里面也放商品信息，唯一不同的是，数据库里面是全量的商品信息，缓存里面是最热的商品信息。每当应用要查询商品信息的时候，先查缓存，缓存没有就查数据库，查出来的结果放入缓存，从而下次就查到了。这个是缓存最最经典的更新流程。这种方式简单，直观，很多缓存的库都默认支持这种方式。场景2：列表排序分页场景的缓存有时候我们需要获得一些列表数据，并对这些数据进行排序和分页。例如我们想获取点赞最多的评论，或者最新的评论，然后列出来，一页一页的翻下去。在这种情况下，缓存里面的数据结构和数据库里面完全不一样。如果完全使用数据库进行实现，则按照某种条件将所有的行查询出来，然后按照某个字段进行排序，然后进行分页，一页一页的展示。但是当数据量比较大的时候，这种方式往往成为瓶颈，首先涉及的数据库行数比较多，而且排序也...

2018-07-24

554

实现Chrome Devtools调试JavaScript V8引擎

最近开发小程序JavaScript的运行时，通过在客户端嵌入JavaScript V8引擎来实现。前端同学需要调试JavaScript代码，正好Chrome浏览器的Devtools是与V8的Inspector调试协议是一脉相承的，理论上是可以使用Chrome Devtools调试JavaScript V8引擎。 V8的文档里提到可以把Chrome Devtools作为调试器的前端来调试JavaScript。d8工程里虽然有个例子，但是无法run起来。写一下我实现。 InspectorAgent创建一个Websocket服务，假设打开一个9224端口等待调试器前端连接。Chrome浏览器打开chrome-devtools://devtools/bundled/inspector.html?ws=127.0.0.1:9224就会呈现一个D

2018-07-24

878

资源下载

更多资源

优质分享Android(本站安卓app)

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario，低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Apache Tomcat7、8、9（Java Web服务器）

Tomcat是Apache 软件基金会（Apache Software Foundation）的Jakarta 项目中的一个核心项目，由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定，而且免费，因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可，成为目前比较流行的Web 应用服务器。

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包，主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心，它包含了JAVA的运行环境（JVM+Java系统类库）和JAVA工具。