-
通用
-
lxml – 高效的HTML/XML处理库。支持XPATH,用C语言写成
-
cssselect – 解析DOM树和css选择器
-
pyquery – 解析DOM树和jQuery选择器
-
BeautifulSoup – Python写成的低效HTML/XMl处理库
-
html5lib – 根据WHATWG规范生成HTML/ XML文档的DOM。WHATWG规范是现在浏览器的通行规范
-
feedparser – 解析RSS/ATOM信息流
-
MarkupSafe – Python的XML/HTML/XHTML安全转义字符串工具
-
xmltodict – 让你处理XML如同处理JSON一样
-
xhtml2pdf – HTML/CSS to PDF转化器
-
untangle – 讲XML文档转化为Python项目以简化处理难度
-
hodor – 支持lxml and cssselect的配置驱动包装工具
-
清理
-
Bleach – 清理HTML (需求html5lib)
-
sanitize – 将混乱的数据世界恢复清楚
-
通用
-
difflib – 差异化计算工具(Python标准库)
-
Levenshtein – 快速计算编辑距离及字符串相似度
-
fuzzywuzzy – 模糊字符串比匹配
-
esmre – 正则表达式加速器.
-
ftfy – 将Unicode文本自动整理减少碎片化
-
转换
-
unidecode – Unicode转化为ASCII文本
-
字符编码
-
uniout – 将转移字符串输出为可读形式
-
chardet – Python 2/3兼容字符编码检测器
-
xpinyin – 讲汉字转为拼音的库
-
pangu.py – CJK及字母数字文本间距格式化
-
Slug化
-
awesome-slugify – 可保留Unicode的Python slugify库
-
python-slugify – 讲Unicode转为ASCII的Python slugify库
-
unicode-slugify – unicode slugs生成工具
-
pytils – 处理俄语字符串的小工具(包含pytils.translit.slugify)
-
通用解析器
-
PLY – Python lex和yacc解析工具
-
pyparsing – 用于生成解析器的通用框架
-
人名
-
python-nameparser – 姓名解析组件
-
电话号码
-
phonenumbers – 处理、格式化、存储、验证全球电话号码
-
用户代理字符串
-
python-user-agents – 浏览器用户代理解析器
-
HTTP Agent Parser – Python HTTP代理解析器
-
fake-useragent – 基于全球浏览器统计的Python用户代理欺骗器
-
user_agent – 用户代理数据生成器
-
通用
-
tablib – 处理XLS, CSV, JSON, YAML等表格数据的库
-
textract – 从任何文档中提取文本,支持Word, PowerPoint, PDF等
-
messytables – 杂乱的表格数据解析
-
rows – 支持多种格式的通用且美观的表格数据处理器(现有CSV, HTML, XLS, TXT — 即将支持更多)
-
Office
-
python-docx – 阅读,查询和修改Microsoft Word 2007/2008 docx文件
-
xlwt / xlrd – 从Excel读取及写入数据和格式化信息
-
XlsxWriter – 用于穿件Excel .xlsx文件的Python模块
-
xlwings – 一个BSD许可的库,是Excel与Python互相调用更加简单
-
openpyxl – 可读取、编辑Excel 2010xlsx/xlsm/xltx/xltm文件的库
-
Marmir – 提取Python数据结构并将其转化为表格的库
-
PDF
-
PDFMiner – 从PDF文档中提取信息的工具
-
PyPDF2 – 一个分割、合并、转换PDF文件的库
-
ReportLab – 可以快速创建大量PDF文档
-
pdftables – 从PDF文件中精准提取表格
-
Markdown
-
Python-Markdown – 一个用Python实现的John Gruber的Markdown
-
Mistune – 速度最快,功能全面的Markdown纯Python解析器
-
markdown2 – 一个完全用Python实现的快速的Markdown
-
YAML
-
PyYAML – 一个Python的YAML解析器
-
CSS
-
cssutils – 一个Python的CSS库
-
ATOM/RSS
-
feedparser – 通用的feed解析器
-
SQL
-
sqlparse – 一个无验证的SQL语句分析器
-
HTTP
-
http-parser – C语言实现的HTTP请求/响应消息解析器
-
Microformats
-
opengraph – 一个用来解析Open Graph协议标签的Python模块
-
可移植的执行体
-
pefile – 一个多平台的用于解析和处理可移植执行体(即PE)文件的模块
-
PSD
-
psd-tools – 将Adobe Photoshop PSD(即PE)文件读取到Python数据结构