Python程序设计思维练习---股票数据定向爬虫-低调大师

Python程序设计思维练习---股票数据定向爬虫

2018-06-01 723

本次练习是一个定向爬虫，爬取股票的相关数据，用到beautifulsoup,re,requests等库。

爬前分析：先分析比较不同网站提供的股票数据，在这里比较的是新浪股票和百度股票。因为百度股票的相关数据直接在html页面中爬取相对方便，而新浪股票的数据是通过js来传递的，获取比较麻烦，所以选择百度股票作为数据来源。

爬取流程：通过东方财富网得到上交所和深交所的所有股票代码，将股票代码依次导入百度股票的url中，即可访问各股的数据，再来分析百度股票的HTML页面爬取相关数据。

工具环境：python3.6.5，pycharm，win10。

img_6a5f4caefc27d30ad6eccaca0e112d86.jpe

图片来自拍信

0.网页分析

想必大家应该不是第一次爬取数据了，对于F12开发者工具有了一定了解，所以这里就不再赘述了。对于数据来源，别执着于一个网站，可以多分析几个网站来选择相对爬取简单的网站来进行数据的爬取。

1.流程分析

东方财富网源代码

百度股票的URL： http://gupiao.baidu.com/stock/sh502036.html
分析可得：只需将东方财富网中的 .html前的股票代码提取出来并加入到 https://gupiao.baidu.com/stock/的后面，便可以得到所有股票源数据。

百度股票源代码数据部分

2.函数设定

依据流程设定函数

3.完整代码

import requests
from bs4 import BeautifulSoup
import traceback
import re
 
def getHTMLText(url, code="utf-8"):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = code
        return r.text
    except:
        return ""
 
def getStockList(lst, stockURL):
    html = getHTMLText(stockURL, "GB2312")
    soup = BeautifulSoup(html, 'html.parser') 
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(re.findall(r"[s][hz]\d{6}", href)[0])   # 匹配类似sh000001的股票代码
        except:
            continue
 
def getStockInfo(lst, stockURL, fpath):
    count = 0
    for stock in lst:
        url = stockURL + stock + ".html"
        html = getHTMLText(url)
        try:
            if html=="":
                continue
            infoDict = {}
            soup = BeautifulSoup(html, 'html.parser')
            stockInfo = soup.find('div',attrs={'class':'stock-bets'})
 
            name = stockInfo.find_all(attrs={'class':'bets-name'})[0]
            infoDict.update({'股票名称': name.text.split()[0]})
             
            keyList = stockInfo.find_all('dt')
            valueList = stockInfo.find_all('dd')
            for i in range(len(keyList)):
                key = keyList[i].text
                val = valueList[i].text
                infoDict[key] = val
             
            with open(fpath, 'a', encoding='utf-8') as f:
                f.write( str(infoDict) + '\n' )
                count = count + 1
                print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="")   # \r:能让输出比例时不自动换行
        except:
            count = count + 1
            print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="")
            continue
 
def main():
    stock_list_url = 'http://quote.eastmoney.com/stocklist.html'
    stock_info_url = 'https://gupiao.baidu.com/stock/'
    output_file = 'D:/BaiduStockInfo.txt'
    slist=[]
    getStockList(slist, stock_list_url)
    getStockInfo(slist, stock_info_url, output_file)
 
main()

运行

本练习来自中国大学MOOC

微信关注我们

原文链接：https://yq.aliyun.com/articles/637526

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

python itchat 爬取微信好友信息

原文链接：https://mp.weixin.qq.com/s/4EXgR4GkriTnAzVxluJxmg 「itchat」一个开源的微信个人接口，今天我们就用itchat爬取微信好友信息，无图言虚空三张图分别是「微信好友头像拼接图」、「性别统计图」、「个性签名统计图」「微信好友头像拼接图」 image 「性别统计图」 image 「个性签名统计图」 image 安装 pip3 install itchat 主要用到的方法：itchat.login() 微信扫描二维码登录itchat.get_friends() 返回完整的好友列表，每个好友为一个字典, 其中第一项为本人的账号信息，传入update=True, 将更新好友列表并返回, get_friends(update=True) itchat.get_head_img(userName="") 根据userName获取好友头像微信好友头像拼接图获取好友信息，get_head_img拿到每个好友的头像，保存文件，将头像缩小拼接至一张大图。先获取好友头像： def headImg(): itchat.login() frie...

2018-06-01

703

Variables:变量使用有意义的可发音的变量名 Bad: var yyyymmdstr = moment().format('YYYY/MM/DD'); Good: var yearMonthDay = moment().format('YYYY/MM/DD'); 使用可搜索的命名在开发过程中，我们阅读代码的时间会远远超过编写代码的时间，因此保证代码的可读性与可搜索会非常重要。切记，没事不要坑自己。 Bad: //525600到底啥意思？ for (var i = 0; i < 525600; i++) { runCronJob(); } Good: // 声明为全局变量 var MINUTES_IN_A_YEAR = 525600; for (var i = 0; i < MINUTES_IN_A_YEAR; i++) { runCronJob(); } 使用说明性质的临时变量 Bad: let cityStateRegex = /^(.+)[,\\s]+(.+?)\s*(\d{5})?$/; saveCityState(cityStateRegex.match(...

2018-06-01

606

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。