转] Python 爬虫的工具列表 附Github代码下载链接
转自http://www.36dsj.com/archives/36417 这个列表包含与网页抓取和数据处理的Python库 网络 通用 urllib-网络库(stdlib)。 requests-网络库。 grab–网络库(基于pycurl)。 pycurl–网络库(绑定libcurl)。 urllib3–Python HTTP库,安全连接池、支持文件post、可用性高。 httplib2–网络库。 RoboBrowser–一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页。 MechanicalSoup-一个与网站自动交互Python库。 mechanize-有状态、可编程的Web浏览库。 socket–底层网络接口(stdlib)。 Unirest for Python–Unirest是一套可用于多种语言的轻量级的HTTP库。 hyper–Python的HTTP/2客户端。 PySocks–SocksiPy更新并积极维护的版本,包括错误修复和一些其他的特征。作为socket模块的直接替换。 异步 treq–类似于requests的API(基于twiste...
