您现在的位置是:首页 > 文章详情

Python程序设计思维练习---股票数据定向爬虫

日期:2018-06-01点击:392
  • 本次练习是一个定向爬虫,爬取股票的相关数据,用到beautifulsoup,re,requests等库。
  • 爬前分析:先分析比较不同网站提供的股票数据,在这里比较的是新浪股票百度股票。因为百度股票的相关数据直接在html页面中爬取相对方便,而新浪股票的数据是通过js来传递的,获取比较麻烦,所以选择百度股票作为数据来源。
  • 爬取流程:通过东方财富网得到上交所和深交所的所有股票代码,将股票代码依次导入百度股票的url中,即可访问各股的数据,再来分析百度股票的HTML页面爬取相关数据。
  • 工具环境:python3.6.5,pycharm,win10。

img_6a5f4caefc27d30ad6eccaca0e112d86.jpe
图片来自拍信

0.网页分析

想必大家应该不是第一次爬取数据了,对于F12开发者工具有了一定了解,所以这里就不再赘述了。对于数据来源,别执着于一个网站,可以多分析几个网站来选择相对爬取简单的网站来进行数据的爬取。


1.流程分析

img_68f2a26b53cf4d3843e3e2671733a8e0.png
东方财富网源代码

百度股票的URL: http://gupiao.baidu.com/stock/sh502036.html
分析可得:只需将东方财富网中的 .html前的股票代码提取出来并加入到 https://gupiao.baidu.com/stock/的后面,便可以得到所有股票源数据。
img_fc55db15a4b95c7c4e7ca08b6ab23407.png
百度股票源代码数据部分


2.函数设定

img_374f35451569a02796ffd8da8fc264b4.png
依据流程设定函数

3.完整代码

import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url, code="utf-8"): try: r = requests.get(url) r.raise_for_status() r.encoding = code return r.text except: return "" def getStockList(lst, stockURL): html = getHTMLText(stockURL, "GB2312") soup = BeautifulSoup(html, 'html.parser') a = soup.find_all('a') for i in a: try: href = i.attrs['href'] lst.append(re.findall(r"[s][hz]\d{6}", href)[0]) # 匹配类似sh000001的股票代码 except: continue def getStockInfo(lst, stockURL, fpath): count = 0 for stock in lst: url = stockURL + stock + ".html" html = getHTMLText(url) try: if html=="": continue infoDict = {} soup = BeautifulSoup(html, 'html.parser') stockInfo = soup.find('div',attrs={'class':'stock-bets'}) name = stockInfo.find_all(attrs={'class':'bets-name'})[0] infoDict.update({'股票名称': name.text.split()[0]}) keyList = stockInfo.find_all('dt') valueList = stockInfo.find_all('dd') for i in range(len(keyList)): key = keyList[i].text val = valueList[i].text infoDict[key] = val with open(fpath, 'a', encoding='utf-8') as f: f.write( str(infoDict) + '\n' ) count = count + 1 print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="") # \r:能让输出比例时不自动换行 except: count = count + 1 print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="") continue def main(): stock_list_url = 'http://quote.eastmoney.com/stocklist.html' stock_info_url = 'https://gupiao.baidu.com/stock/' output_file = 'D:/BaiduStockInfo.txt' slist=[] getStockList(slist, stock_list_url) getStockInfo(slist, stock_info_url, output_file) main() 
img_cb27b90b2c76a8fc56d2c1ca0e9e4aba.gif
运行

本练习来自中国大学MOOC

原文链接:https://yq.aliyun.com/articles/637526
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章