开源多媒体框架 FFmpeg 集成 Whisper.cpp，增加 AI 语音转写功能-低调大师

开源多媒体框架 FFmpeg 集成 Whisper.cpp，增加 AI 语音转写功能

2025-08-15 286

开源多媒体框架 FFmpeg 在即将发布的 8.0 版本中新增了 af_whisper 音频工具，可在 FFmpeg 生态系统内直接实现自动语音识别（ASR）。

https://git.ffmpeg.org/gitweb/ffmpeg.git/commit/13ce36fef98a3f4e6d8360c24d6b8434cbb8869b

该工具基于 whisper.cpp 库，为媒体处理流程引入 AI 模型，支持灵活的音频转写功能，包括选择 AI 模型、指定语言和设置输出格式（文本、SRT、JSON 等）。

它既可处理预录制文件，也可处理实时音频流，并提供语音激活检测（VAD）以提升转写的准确性与效率。同时，该工具支持 GPU 加速，能够显著缩短转写时间。

社区用户对这一新功能发表了许多看法，有用户表示，“添加 --enable-whisper 到自定义的 FFmpeg 构建配置中”很令人期待；当然也有人质疑：“为什么要将其整合入 FFmpeg？最可能的用途是实时生成并将字幕嵌入视频，但这看起来还是很小众”。还有人写道：“我希望这个功能可以用来从音频中隔离语音内容，这样就能更好地重制 TV 节目音轨，而不只是依赖字幕”。

FFmpeg 8.0 预计将在接下来几周内正式发布，届时还将包含 Vulkan 加速、CPU 性能优化等其他改进。

微信关注我们

原文链接：https://www.oschina.net/news/366314/ffmpeg-lands-whisper

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

腾讯披露：有足够芯片做 AI 训练，不会过度依赖现有 GPU 资源

8月14日消息，发布2025年第二季度财报后，腾讯8月13日晚间召开业绩交流会。最新财报中，AI是一大关键词。业绩交流会上，腾讯管理层也重点谈到AI。腾讯管理层表示，公司密切关注AI开发进度，关注大模型性能演进，通过理解用户需求和习惯改进AI产品，同时也着眼让AI提高现有业务的效率，例如广告、游戏、金融科技。对于AI运算依托的芯片，腾讯管理层表示，芯片进口的情况还需要观察。腾讯目前有足够的芯片来做训练，并升级现有模型，推理方面则有不同的芯片选择。在软件方面，公司也会进一步改进，以提高推理效率，从而减少对芯片能力的依赖，腾讯会尝试在相同数量的芯片上运行更多工作负载。腾讯此前计划增加今年的资本开支，用于支持AI相关的业务等。在第一季度资本开支同比增长91%的基础上，第二季度资本开支同比增长119%至191亿元。腾讯管理层在业绩交流会上表示，对于资本支出目标，公司尚未进行新的修改。更早前，国家网信办就美国英伟达算力芯片H20漏洞后门安全风险约谈该公司，也算是变相给国内公司采购时敲响警钟。

2025-08-15

228

谷歌发布了专为任务特定微调设计的 2.7 亿参数紧凑模型 Gemma 3 270M，该模型具备高能效和内置指令遵循能力，并支持 INT4 精度运行。Gemma 3 270M 包含 1.7 亿嵌入参数、1 亿 Transformer 参数以及 25.6 万词汇量，为特定领域和语言的微调提供了坚实的基础。 Gemma 3 270M 具有很高的能效。它提供了生产就绪的量化感知训练（QAT）检查点，支持在 INT4 精度下运行，性能损失极小，非常适用于资源受限的设备。模型还附带了指令微调版本，可实现开箱即用。该模型的核心价值在于通过微调释放其潜力，能够高精度、高速度且经济高效地执行文本分类、数据提取等任务。它适用于情感分析、实体提取、查询路由等高吞吐量、定义明确的任务。其小巧的尺寸支持快速微调迭代和设备上运行，确保了用户隐私。开发者可以通过 Hugging Face、Ollama、Kaggle、LM Studio 和 Docker 下载 Gemma 3 270M。它支持在 Vertex AI、llama.cpp、Gemma.cpp、LiteRT、Keras 和 MLX 等多种推理工具上运行...

2025-08-15

226

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。