156个Python网络爬虫资源，妈妈再也不用担心你找不到资源了-低调大师

156个Python网络爬虫资源，妈妈再也不用担心你找不到资源了

2018-05-01 748

   本列表包含Python网页抓取和数据处理相关的库。
  

   前几天有私信小编要Python的学习资料，小编整理了一些有深度的Python教程和参考资料，从入门到高级的都有，文件已经打包好了，正在学习Python的同学可以下载学习学习。文件下载方式：在群文件中下载：719139688。首先把代码撸起来！首先把代码撸起来！首先把代码撸起来！重要的事说三遍，哈哈。“编程是门手艺活”。什么意思？得练啊。
  

   网络相关
  

通用
urllib – 网络库(标准库)
requests – 网络库
grab – 网络库(基于pycurl)
pycurl – 网络库 (与libcurl绑定)
urllib3 – 具有线程安全连接池、文件psot支持、高可用的Python HTTP库
httplib2 – 网络库
RoboBrowser – 一个无需独立浏览器即可访问网页的简单、pythonic的库
MechanicalSoup – 能完成自动网站交互的Python库
mechanize – 有状态、可编程的网页浏览库。
socket – 底层网络接口(标准库)
Unirest for Python – 一套支持多种语言的轻量级HTTP库
hyper – Python HTTP/2客户端
PySocks – SocksiPy持续更新并维护的版本，指出bug修复和一些其他功能，可以作为socket模块的替代品
异步
treq – 基于twisted、与requests类似的API
aiohttp – asyncio的HTTP客户端/服务器 (PEP-3156)

   网络爬虫框架
  

全能型爬虫
grab – 网络爬虫框架(基于pycurl/multicurl)
scrapy – 网络爬虫框架(基于twisted)
pyspider – 一个强力的爬虫系统
cola – 一个分布式爬虫框架
其他
portia – 基于Scrapy的可视化爬虫
restkit – Python的HTTP资源库。允许影虎简单的访问HTTP资源并用来创建项目
demiurge – 基于PyQuery的微型爬虫框架

   HTML/XML解析
  

通用
lxml – 高效的HTML/XML处理库。支持XPATH，用C语言写成
cssselect – 解析DOM树和css选择器
pyquery – 解析DOM树和jQuery选择器
BeautifulSoup – Python写成的低效HTML/XMl处理库
html5lib – 根据WHATWG规范生成HTML/ XML文档的DOM。WHATWG规范是现在浏览器的通行规范
feedparser – 解析RSS/ATOM信息流
MarkupSafe – Python的XML/HTML/XHTML安全转义字符串工具
xmltodict – 让你处理XML如同处理JSON一样
xhtml2pdf – HTML/CSS to PDF转化器
untangle – 讲XML文档转化为Python项目以简化处理难度
hodor – 支持lxml and cssselect的配置驱动包装工具
清理
Bleach – 清理HTML (需求html5lib)
sanitize – 将混乱的数据世界恢复清楚

   文本处理
  

   解析及操作文本的库
  

通用
difflib – 差异化计算工具(Python标准库)
Levenshtein – 快速计算编辑距离及字符串相似度
fuzzywuzzy – 模糊字符串比匹配
esmre – 正则表达式加速器.
ftfy – 将Unicode文本自动整理减少碎片化
转换
unidecode – Unicode转化为ASCII文本
字符编码
uniout – 将转移字符串输出为可读形式
chardet – Python 2/3兼容字符编码检测器
xpinyin – 讲汉字转为拼音的库
pangu.py – CJK及字母数字文本间距格式化
Slug化
awesome-slugify – 可保留Unicode的Python slugify库
python-slugify – 讲Unicode转为ASCII的Python slugify库
unicode-slugify – unicode slugs生成工具
pytils – 处理俄语字符串的小工具(包含pytils.translit.slugify)
通用解析器
PLY – Python lex和yacc解析工具
pyparsing – 用于生成解析器的通用框架
人名
python-nameparser – 姓名解析组件
电话号码
phonenumbers – 处理、格式化、存储、验证全球电话号码
用户代理字符串
python-user-agents – 浏览器用户代理解析器
HTTP Agent Parser – Python HTTP代理解析器
fake-useragent – 基于全球浏览器统计的Python用户代理欺骗器
user_agent – 用户代理数据生成器

   特殊格式处理
  

   处理特编辑特殊字符格式的库
  

通用
tablib – 处理XLS, CSV, JSON, YAML等表格数据的库
textract – 从任何文档中提取文本，支持Word, PowerPoint, PDF等
messytables – 杂乱的表格数据解析
rows – 支持多种格式的通用且美观的表格数据处理器(现有CSV, HTML, XLS, TXT — 即将支持更多)
Office
python-docx – 阅读，查询和修改Microsoft Word 2007/2008 docx文件
xlwt / xlrd – 从Excel读取及写入数据和格式化信息
XlsxWriter – 用于穿件Excel .xlsx文件的Python模块
xlwings – 一个BSD许可的库，是Excel与Python互相调用更加简单
openpyxl – 可读取、编辑Excel 2010xlsx/xlsm/xltx/xltm文件的库
Marmir – 提取Python数据结构并将其转化为表格的库
PDF
PDFMiner – 从PDF文档中提取信息的工具
PyPDF2 – 一个分割、合并、转换PDF文件的库
ReportLab – 可以快速创建大量PDF文档
pdftables – 从PDF文件中精准提取表格
Markdown
Python-Markdown – 一个用Python实现的John Gruber的Markdown
Mistune – 速度最快，功能全面的Markdown纯Python解析器
markdown2 – 一个完全用Python实现的快速的Markdown
YAML
PyYAML – 一个Python的YAML解析器
CSS
cssutils – 一个Python的CSS库
ATOM/RSS
feedparser – 通用的feed解析器
SQL
sqlparse – 一个无验证的SQL语句分析器
HTTP
http-parser – C语言实现的HTTP请求/响应消息解析器
Microformats
opengraph – 一个用来解析Open Graph协议标签的Python模块
可移植的执行体
pefile – 一个多平台的用于解析和处理可移植执行体（即PE）文件的模块
PSD
psd-tools – 将Adobe Photoshop PSD（即PE）文件读取到Python数据结构

   自然语言处理
  

   自然语言处理库
  

NLTK – Python自然语言处理领先者
Pattern – Python的网络挖掘模块。他有自然语言处理工具，机器学习以及其它
TextBlob – 为深入处理自然语言的项目提供API，参考了NLTK及其他
jieba – 中文分词
SnowNLP – 汉字文本处理库
loso – 中文分词库
genius -基于条件随机域的中文分词
langid.py – 独立的语言识别系统
Korean – 韩文形态库
pymorphy2 – 俄语形态分析器（词性标注+词形变化引擎）
PyPLN – 用Python编写的分布式自然语言处理通道。这个项目的目标是创建一种简单的方法使用NLTK通过网络接口处理大语言库
langdetect – Python的谷歌语言检测库端口

   浏览器自动化与仿真
  

浏览器
selenium – 自动化真实浏览器(Chrome, Firefox, Opera, IE)
Ghost.py – QtWebKit封装(需求PyQT)
Spynner – 具备AJAX支持的程序化网页浏览模块
Splinter – 通用API浏览器模拟器（selenium web驱动，Django客户端，Zope）
Headless工具
xvfbwrapper – 用于在X虚拟帧缓冲区（Xvfb）中运行显示的Python包装器

   多进程并发
  

threading – Python标准库的多线程运行。因为python GIL限制，对于I/O密集型任务很有效，对于CPU绑定的任务没用
multiprocessing – 多进程标准库
celery – 基于分布式消息传递的异步任务队列/作业队列
concurrent-futures – concurrent.futures模块提供用于异步执行callable的高级接口

   异步
  

   异步网络编程库
  

asyncio – 异步I/O，时间循环，协同程序和任务(Python 3.4以上版本的Python标准库)
Twisted – 基于事件驱动的网络引擎框架
Tornado – 一个Web框架及异步网络库
pulsar – Python事件驱动的并发框架
diesel – Python的基于Greenlet的I/O框架
gevent – 一个基于协同程序的Python网络库，使用greenlet
eventlet – 有WSGI支持的异步框架
Tomorrow – 异步代码的魔法

   队列
  

celery – 基于分布式消息传递的异步任务队列/作业队列
huey – 小型多线程任务队列
mrq – Mr. Queue – 使用redis & Gevent 的Python分布式工作任务队列
RQ – 基于Redis的轻量级任务队列管理器
simpleq – 一个简单的，可无限扩展，基于Amazon SQS的队列
python-gearman – Gearman的Python API

   云计算
  

picloud – 在云端执行Python
dominoup.com – 在云端执行R, Python及matlab代码

   电子邮件
  

   电子邮件处理库
  

flanker – 电子邮件及MIME处理库
Talon – Mailgun库用于提取消息的报价和签名

   URL和网络地址操作
  

   URL和网络地址操作库
  

URL
furl – 一个小的Python库，使得操纵URL简单化
purl – 一个简单的不可改变的URL以及一个干净的用于调试和操作的API
urllib.parse – 用于打破统一资源定位器（URL）的字符串在组件（寻址方案，网络位置，路径等）之间的隔断，为了结合组件到一个URL字符串，并将“相对URL”转化为一个绝对URL，称之为“基本URL”（标准库）
tldextract – 使用公共后缀列表从URL的注册域和子域中准确分离TLD
网络地址
netaddr – 用于显示和操纵网络地址的Python库

   网页内容提取
  

   网页内容提取库
  

HTML页面的文本和元数据
newspaper – 用Python进行新闻提取、文章提取和内容策展
html2text – 将HTML转为Markdown格式文本
python-goose – HTML内容/文章提取器
lassie – 人性化的网页内容检索工具
micawber – 一个从网址中提取丰富内容的小型库
sumy -一个自动汇总文本文件和HTML网页的模块
Haul – 一个可扩展的图像爬虫
python-readability – arc90 readability工具的快速Python接口
scrapely – 从HTML网页中提取结构化数据的库。给出了一些Web页面和数据提取的示例，scrapely为所有类似的网页构建一个分析器
libextract – 从网站提取数据
视频
youtube-dl – 一个从YouTube下载视频的小型命令行工具
you-get – Python3写成的YouTube/Youku/Niconico视频下载工具
Wiki
WikiTeam – 下载并保存wkiks的工具

   WebSocket
  

   用于WebSocket的库
  

Crossbar – 开源的应用消息传递路由器（Python实现的用于Autobahn的WebSocket和WAMP）
AutobahnPython – 提供了WebSocket协议和WAMP协议的Python实现并且开源
WebSocket-for-Python – Python 2和3以及PyPy的WebSocket客户端和服务器库

   DNS解析
  

dnsyo – 在全球超过1500个的DNS服务器上检查你的DNS
pycares – ic-ares的接口。c-ares是进行DNS请求和异步名称决议的C语言库

   计算机视觉
  

OpenCV – 开源计算机视觉库
SimpleCV – 用于照相机、图像处理、特征提取、格式转换的简介，可读性强的接口（基于OpenCV）
mahotas – 快速计算机图像处理算法（完全使用 C++ 实现），完全基于 numpy 的数组作为它的数据类型

   代理服务器
  

shadowsocks – 一个快速隧道代理，可帮你穿透防火墙（支持TCP和UDP，TFO，多用户和平滑重启，目的IP黑名单）
tproxy – tproxy是一个简单的TCP路由代理（第7层），基于Gevent，用Python进行配置

   杂项
  

user_agent – 此模块用于生成随机，有效的Web导航器的配置和用户代理HTTP header

   其他
  

awesome-python
pycrumbs
python-github-projects
python_reference
pythonidae

v2-b4b73f565d662a5832f9517dc411c3ba_hd.j

微信关注我们

原文链接：https://yq.aliyun.com/articles/586798

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Net和Java基于zipkin的全链路追踪

在各大厂分布式链路跟踪系统架构对比中已经介绍了几大框架的对比，如果想用免费的可以用zipkin和pinpoint还有一个忘了介绍：SkyWalking，具体介绍可参考：https://github.com/apache/incubator-skywalking/blob/master/README_ZH.md 由于追踪的要求是Net平台和Java平台都要支持，对于java平台各组件都是天生的支持的，但对于net的支持找了些开源组件，发现Pinpoint和SkyWalking给出的Demo都是基于NetCore（SkyWalking可以在github上搜skywalking-netcore，Pinpoint没有好的推荐），版本要求比较高，但不可能更改现有平台的FW框架，Zipkin有开源项目 Medidata.zipkinTracerModule 、zipkin.net、zipkin-csharp，网上依次推荐是从前到后，经过测试发现Medidata.zipkinTracerModule、zipkin.net也是用于Net Core的，在NuGet上安装报错。最后测试zipkin-csh...

2018-05-01

688

图片来源于网络 IBM Research宣布了新的奖项，目的在于鼓励开发人员，教师和学生使用IBM QISKit开发平台和IBM云量子环境IBM Q Experience。虽然三个奖项是针对教师和学生的，但也直接针对开发者。 IBM Q Experience于2016年推出。这是一款基于云计算的量子计算机，任何人都可以免费使用网络浏览器和互联网连接。IBM表示，Q Experience拥有近6万名用户，拥有170万个量子实验和35多个第三方研究出版物。图片来源于网络 QISKit让开发人员利用Python界面对IBM的Quantum Experience进行“探索”。该接口让您可以使用量子电路，并通过大量的实验来执行多个电路。 QISKit项目由一下组成 QISKit API：围绕Quantum Experience HTTP API的精简

2018-05-01

800

资源下载

更多资源

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。