开源多媒体框架 FFmpeg 集成 Whisper.cpp,增加 AI 语音转写功能
开源多媒体框架FFmpeg 在即将发布的8.0 版本中新增了 af_whisper 音频工具,可在 FFmpeg 生态系统内直接实现自动语音识别(ASR)。 https://git.ffmpeg.org/gitweb/ffmpeg.git/commit/13ce36fef98a3f4e6d8360c24d6b8434cbb8869b 该工具基于 whisper.cpp 库,为媒体处理流程引入 AI 模型,支持灵活的音频转写功能,包括选择 AI 模型、指定语言和设置输出格式(文本、SRT、JSON 等)。 它既可处理预录制文件,也可处理实时音频流,并提供语音激活检测(VAD)以提升转写的准确性与效率。同时,该工具支持 GPU 加速,能够显著缩短转写时间。 社区用户对这一新功能发表了许多看法,有用户表示,“添加 --enable-whisper 到自定义的 FFmpeg 构建配置中”很令人期待;当然也有人质疑:“为什么要将其整合入 FFmpeg?最可能的用途是实时生成并将字幕嵌入视频,但这看起来还是很小众”。还有人写道:“我希望这个功能可以用来从音频中隔离语音内容,这样就能更好地重制 TV...

