您现在的位置是:首页 > 文章详情

5.简单python爬虫——爬取新闻页

日期:2018-02-07点击:602
#python爬虫实例 爬取新闻 #爬取新浪新闻首页中所有的新闻,爬到本地(http://news.sina.com.cn/) #实现过程,先爬首页,通过正则表达式获取所有新闻链接,然后依次爬各新闻,并存储到本地 import urllib.request import re data=urllib.request.urlopen("http://news.sina.com.cn/").read() data2=data.decode("utf-8","ignore") pat='href="(http://news.sina.com.cn/.*?)"' allurl=re.compile(pat).findall(data2) for i in range(0,10): try: print("第"+str(i)+"次爬取") thisurl=allurl[i] file="/Users/xubin/myapp/pythonfile/sina/"+str(i)+".html" urllib.request.urlretrieve(thisurl,file) print("------成功-------") except urllib.error.URLError as e: if hasattr(e,"code"): print(e.code) if hasattr(e,"reason"): print(e.reason)
原文链接:https://yq.aliyun.com/articles/625528
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章