IBM 开源的文档转化利器「GitHub 热点速览」
上周的热门开源项目,Star 数增长犹如坐上了火箭,一飞冲天。短短一周就飙升了 6k Star 的多格式文档解析和导出神器 Docling,支持库和命令行的使用方式。全新的可视化爬虫平台 Maxun,则在刚开源时便轻松斩获了 4k Star。而本地优先的个人理财工具 Actual,支持 Docker 自托管,让用户可以将数据掌握在自己手里。如果你在寻找机器学习的 Python 库,可以去 best-of-ml-python 看一看,它涵盖了 34 个分类,共计 920 个优秀的机器学习 Python 库。
最后,免费的 Windows 应用卸载利器(Bulk-Crap-Uninstaller)和 B 站视频空降助手(BilibiliSponsorBlock),凭借着简单实用、开箱即用的特点,迅速赢得了广大用户的青睐。
- 本文目录
-
- 热门开源项目
- 1.1 多格式文档解析和导出工具:Docling
- 1.2 本地优先的个人理财工具:Actual
- 1.3 简单干净的 Hugo 主题:hugo-PaperMod
- 1.4 开源的无代码网页数据提取平台:Maxun
- 1.5 顶级的机器学习 Python 库列表:best-of-ml-python
-
- HelloGitHub 热评
- 2.1 B 站视频空降助手:BilibiliSponsorBlock
- 2.2 免费的 Windows 应用卸载神器:Bulk-Crap-Uninstaller
-
- 结尾
-
- 热门开源项目
1.1 多格式文档解析和导出工具:Docling
主语言:Python ,Star:7.9k ,周增长:6k
这是一个由 IBM 开源的 Python 工具,专门用于将各类文档转化为适合生成式 AI 使用的工具。它能够将 PDF、DOCX、PPTX、图片、HTML、Markdown 等多种流行文档格式,导出为 Markdown 和 JSON 格式,支持多种 OCR 引擎(PDF)、统一的文档对象(DoclingDocument),轻松集成检索增强生成(RAG)和问答应用,适用于需要将文档作为生成式 AI 模型输入的场景。
from docling.document_converter import DocumentConverter source = "url" # document per local path or URL converter = DocumentConverter() result = converter.convert(source) print(result.document.export_to_markdown()) # output: "## Docling Technical Report[...]"
GitHub 地址→github.com/DS4SD/docling
1.2 本地优先的个人理财工具:Actual
主语言:TypeScript ,Star:15k ,周增长:600
这是一款完全免费开源、本地优先的个人理财工具。它采用 Node.js 编写,拥有简洁的界面和直观的现金流报告,支持 Docker 自建、导入交易数据和多设备同步,以及可选的端到端加密功能,注重保护用户隐私和数据安全。
GitHub 地址→github.com/actualbudget/actual
1.3 简单干净的 Hugo 主题:hugo-PaperMod
主语言:HTML ,Star:10k
这是一个快速、简洁、响应式的 Hugo 主题。它基于 hugo-paper 开发,并在此基础上增加了更多功能和自定义选项,支持多语言、自动切换明暗主题、SEO 友好、社交媒体分享按钮、封面图片、导航栏等功能。此外,它还提供了常规、主页信息和个人资料三种模式,可用于快速构建不同风格的个人博客。
GitHub 地址→github.com/adityatelange/hugo-PaperMod
1.4 开源的无代码网页数据提取平台:Maxun
主语言:TypeScript ,Star:4k ,周增长:3k
这是一款全新的无代码网页数据提取平台,无需编程即可轻松抓取网站的数据,支持列表/文本抓取、截图、自定义代理、自动处理分页和滚动等功能。作为一个新的开源项目,它的功能还在不停迭代,计划推比如适应网站布局变化和登录后数据提取等新功能。
GitHub 地址→github.com/getmaxun/maxun
1.5 顶级的机器学习 Python 库列表:best-of-ml-python
主语言:Other ,Star:17k ,周增长:1.2k
该项目提供了一个高质量的机器学习 Python 库列表,包含超过 900 个开源项目,并按照项目质量评分进行排名,每周更新一次。所有开源项目被分成了 30 多个分类,包括机器学习框架、数据可视化、自然语言处理、OCR、模型序部署等,便于不同应用领域的开发者快速找到所需的机器学习工具和资源。
GitHub 地址→github.com/ml-tooling/best-of-ml-python
- HelloGitHub 热评
在此章节中,我们将为大家介绍本周 HelloGitHub 网站上的热门开源项目,我们不仅希望您能从中收获开源神器和编程知识,更渴望"听"到您的声音。欢迎您与我们分享使用这些开源项目的亲身体验和评价,用最真实反馈为开源项目的作者注入动力。
2.1 B 站视频空降助手:BilibiliSponsorBlock
主语言:TypeScript
这是一款能够自动跳过 B 站视频中恰饭片段和开场、结尾动画的浏览器插件,所有标注数据均由网友贡献,支持 Chrome、Edge 和 FireFox 浏览器。
项目详情→hellogithub.com/repository/298fa9ba909c49428c1dc7f8c401bbbd
2.2 免费的 Windows 应用卸载神器:Bulk-Crap-Uninstaller
主语言:C#
这是一个用 C# 开发的 Windows 软件卸载工具,能够快速删除大量不需要的应用程序。它完全免费、开箱即用,支持批量和强制卸载、清理残留文件、检测隐藏或受保护的已注册应用等功能。虽然面向 IT 专业人员设计,但其简单的默认设置,让任何人都能轻松上手。
项目详情→hellogithub.com/repository/e5745984014e47f1a33648c0425256a0
- 结尾
以上就是本期「GitHub 热点速览」的全部内容,希望你能够在这里找到自己感兴趣的开源项目,如果你有其他好玩、有趣的 GitHub 开源项目想要分享,欢迎来 HelloGitHub 与我们交流和讨论。
往期回顾

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
SpringBoot 实战:文件上传之秒传、断点续传、分片上传
文件上传功能几乎是每个 Web 应用不可或缺的一部分。无论是个人博客中的图片上传,还是企业级应用中的文档管理,文件上传都扮演着至关重要的角色。今天,松哥和大家来聊聊文件上传中的几个高级玩法——秒传、断点续传和分片上传。 一 文件上传的常见场景 在日常开发中,文件上传的场景多种多样。比如,在线教育平台上的视频资源上传,社交平台上的图片分享,以及企业内部的知识文档管理等。这些场景对文件上传的要求也各不相同,有的追求速度,有的注重稳定性,还有的需要考虑文件大小和安全性。因此,针对不同需求,我们有了秒传、断点续传和分片上传等解决方案。 二 秒传、断点上传与分片上传 秒传 秒传,顾名思义,就是几乎瞬间完成文件上传的过程。其实现原理是通过计算文件的哈希值(如 MD5 或 SHA-1),然后将这个唯一的标识符发送给服务器。如果服务器上已经存在相同的文件,则直接返回成功信息,避免了重复上传。这种方式不仅节省了带宽,也大大提高了用户体验。 断点续传 断点续传是指在网络不稳定或者用户主动中断上传后,能够从上次中断的地方继续上传,而不需要重新开始整个过程。这对于大文件上传尤为重要,因为它可以有效防止因网络问...
- 下一篇
深度解析 DeepFlow 如何采集大模型服务的业务指标
为高质量支撑 2024 年客服大模型商用,中国移动构建了客服大模型“混合云”生产环境,确保大模型应用安全稳定运行、智算资源高效利用。面对当前跨云调用拓扑的复杂性,以及运维保障与业务运营中服务质量观测指标的缺失问题,多团队共同合作基于 eBPF 与 Wasm 技术构建客服大模型生产运行态可观测能力。 01|大模型服务的观测需求 在基于基础大模型构建的客服大模型中,虽然这些基础模型在自然语言处理方面表现出强大的计算能力,但其训练、微调和推理的细节仍难以完全理解和控制。尤其是在行业应用中,这些模型在响应性能、准确性和数据安全性方面常常表现为“黑盒”。因此,亟需开发针对大型语言模型的可观测性解决方案,以实现模型的可感知、可维护、可评估和可信任,从而提升平台能力和服务质量。 当前,大模型的应用面临一些挑战。在业务稳定性方面,为避免对流量的影响,业务团队严格禁止安装 APM 探针。此外,由于不同团队负责多个大模型,统一拓扑和指标的协调难度较大。因此,在构建可观测性解决方案时,必须做到对业务的零侵扰。近年中国移动磐基 PaaS 平台已经携手 DeepFlow 借助 eBPF 技术实现了全栈且无侵扰的...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS关闭SELinux安全模块
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Thymeleaf,官方推荐html解决方案