您现在的位置是:首页 > 文章详情

常见python爬虫框架

日期:2018-05-28点击:434
一、python爬虫框架

   一些爬虫项目的半成品

二、常见python爬虫框架

  (1) Scrapy :很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。
想学习可以加Python学习q-u-n -227-435-450 即可获取,内附:开发工具和安装包,以及系统学习路线图

  (2) Crawley : 高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等


  (3) Portia :可视化爬取网页内容


  (4) newspaper :提取新闻、文章以及内容分析


  (5) python-goose :java写的文章提取工具


  (6) Beautiful Soup :名气大,整合了一些常用爬虫需求。缺点:不能加载JS。


  (7) mechanize :优点:可以加载JS。缺点:文档严重缺失。不过通过官方的example以及人肉尝试的方法,还是勉强能用的。


  (8) selenium :这是一个调用浏览器的driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。


  (9) cola :一个分布式爬虫框架。项目整体设计有点糟,模块间耦合度较高。
原文链接:https://yq.aliyun.com/articles/597609
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章