156个Python网络爬虫资源,GitHub上awesome系列之Python爬虫工具
项目地址:lorien/awesome-web-scraping GitHub上awesome系列之Python的爬虫工具。 本列表包含Python网页抓取和数据处理相关的库。 网络相关 通用 urllib- 网络库(标准库) requests- 网络库 grab- 网络库(基于pycurl) pycurl- 网络库 (与libcurl绑定) urllib3- 具有线程安全连接池、文件psot支持、高可用的Python HTTP库 httplib2- 网络库 RoboBrowser- 一个无需独立浏览器即可访问网页的简单、pythonic的库 MechanicalSoup- 能完成自动网站交互的Python库 mechanize- 有状态、可编程的网页浏览库。 socket- 底层网络接口(标准库) Unirest for Python- 一套支持多种语言的轻量级HTTP库 hyper- Python HTTP/2客户端 PySocks- SocksiPy持续更新并维护的版本,指出bug修复和一些其他功能,可以作为socket模块的替代品 异步 treq- 基于twisted、与req...