一步步教你利用Github开源项目实现网络爬虫:以抓取证券日报新闻为例
在学习编程的过程中,初学者(特别是想转行互联网的来自其它专业的初学者)往往因为缺乏实际项目的操作而陷入基础学习的环境中无法自拔,在学习Python的过程中,笔者最初也是一直停留在不断地print、列表、数组、各种数据结构的学习里,当然基础知识的学习很重要,但是没有项目的实际操作,往往无法得到提高并会心生厌倦,为了应对这个问题,接下来专栏将从Github开源项目选取一些比较有意思的项目,来为大家说明如何开展项目,如何安装环境,如何debug,如何找到解决问题的方法......
我们以抓取财经新闻的爬虫为例,默认centos系统、Python2.7环境,并且已经安装pyenv,如未安装pyenv请参考:
基于pyenv和virtualenv搭建python多版本虚拟环境
项目作者:
Hailong Zhang
项目地址:
Scrapy Sp