开源多媒体框架 FFmpeg 集成 Whisper.cpp,增加 AI 语音转写功能
开源多媒体框架 FFmpeg 在即将发布的 8.0 版本中新增了 af_whisper 音频工具,可在 FFmpeg 生态系统内直接实现自动语音识别(ASR)。
https://git.ffmpeg.org/gitweb/ffmpeg.git/commit/13ce36fef98a3f4e6d8360c24d6b8434cbb8869b
该工具基于 whisper.cpp 库,为媒体处理流程引入 AI 模型,支持灵活的音频转写功能,包括选择 AI 模型、指定语言和设置输出格式(文本、SRT、JSON 等)。
它既可处理预录制文件,也可处理实时音频流,并提供语音激活检测(VAD)以提升转写的准确性与效率。同时,该工具支持 GPU 加速,能够显著缩短转写时间。
社区用户对这一新功能发表了许多看法,有用户表示,“添加 --enable-whisper 到自定义的 FFmpeg 构建配置中”很令人期待;当然也有人质疑:“为什么要将其整合入 FFmpeg?最可能的用途是实时生成并将字幕嵌入视频,但这看起来还是很小众”。还有人写道:“我希望这个功能可以用来从音频中隔离语音内容,这样就能更好地重制 TV 节目音轨,而不只是依赖字幕”。
FFmpeg 8.0 预计将在接下来几周内正式发布,届时还将包含 Vulkan 加速、CPU 性能优化等其他改进。

