您现在的位置是:首页 > 文章详情

开源多媒体框架 FFmpeg 集成 Whisper.cpp,增加 AI 语音转写功能

日期:2025-08-15点击:35

开源多媒体框架 FFmpeg 在即将发布的 8.0 版本中新增了 af_whisper 音频工具,可在 FFmpeg 生态系统内直接实现自动语音识别(ASR)。

https://git.ffmpeg.org/gitweb/ffmpeg.git/commit/13ce36fef98a3f4e6d8360c24d6b8434cbb8869b

该工具基于 whisper.cpp 库,为媒体处理流程引入 AI 模型,支持灵活的音频转写功能,包括选择 AI 模型、指定语言和设置输出格式(文本、SRT、JSON 等)。

它既可处理预录制文件,也可处理实时音频流,并提供语音激活检测(VAD)以提升转写的准确性与效率。同时,该工具支持 GPU 加速,能够显著缩短转写时间。

社区用户对这一新功能发表了许多看法,有用户表示,“添加 --enable-whisper 到自定义的 FFmpeg 构建配置中”很令人期待;当然也有人质疑:“为什么要将其整合入 FFmpeg?最可能的用途是实时生成并将字幕嵌入视频,但这看起来还是很小众”。还有人写道:“我希望这个功能可以用来从音频中隔离语音内容,这样就能更好地重制 TV 节目音轨,而不只是依赖字幕”。

FFmpeg 8.0 预计将在接下来几周内正式发布,届时还将包含 Vulkan 加速、CPU 性能优化等其他改进。

原文链接:https://www.oschina.net/news/366314/ffmpeg-lands-whisper
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章