开源多媒体框架 FFmpeg 集成 Whisper.cpp,增加 AI 语音转写功能
开源多媒体框架 FFmpeg 在即将发布的 8.0 版本中新增了 af_whisper 音频工具,可在 FFmpeg 生态系统内直接实现自动语音识别(ASR)。
https://git.ffmpeg.org/gitweb/ffmpeg.git/commit/13ce36fef98a3f4e6d8360c24d6b8434cbb8869b
该工具基于 whisper.cpp 库,为媒体处理流程引入 AI 模型,支持灵活的音频转写功能,包括选择 AI 模型、指定语言和设置输出格式(文本、SRT、JSON 等)。
它既可处理预录制文件,也可处理实时音频流,并提供语音激活检测(VAD)以提升转写的准确性与效率。同时,该工具支持 GPU 加速,能够显著缩短转写时间。
社区用户对这一新功能发表了许多看法,有用户表示,“添加 --enable-whisper
到自定义的 FFmpeg 构建配置中”很令人期待;当然也有人质疑:“为什么要将其整合入 FFmpeg?最可能的用途是实时生成并将字幕嵌入视频,但这看起来还是很小众”。还有人写道:“我希望这个功能可以用来从音频中隔离语音内容,这样就能更好地重制 TV 节目音轨,而不只是依赖字幕”。
FFmpeg 8.0 预计将在接下来几周内正式发布,届时还将包含 Vulkan 加速、CPU 性能优化等其他改进。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
腾讯披露:有足够芯片做 AI 训练,不会过度依赖现有 GPU 资源
8月14日消息,发布2025年第二季度财报后,腾讯8月13日晚间召开业绩交流会。最新财报中,AI是一大关键词。业绩交流会上,腾讯管理层也重点谈到AI。 腾讯管理层表示,公司密切关注AI开发进度,关注大模型性能演进,通过理解用户需求和习惯改进AI产品,同时也着眼让AI提高现有业务的效率,例如广告、游戏、金融科技。 对于AI运算依托的芯片,腾讯管理层表示,芯片进口的情况还需要观察。腾讯目前有足够的芯片来做训练,并升级现有模型,推理方面则有不同的芯片选择。在软件方面,公司也会进一步改进,以提高推理效率,从而减少对芯片能力的依赖,腾讯会尝试在相同数量的芯片上运行更多工作负载。 腾讯此前计划增加今年的资本开支,用于支持AI相关的业务等。在第一季度资本开支同比增长91%的基础上,第二季度资本开支同比增长119%至191亿元。 腾讯管理层在业绩交流会上表示,对于资本支出目标,公司尚未进行新的修改。更早前,国家网信办就美国英伟达算力芯片H20漏洞后门安全风险约谈该公司,也算是变相给国内公司采购时敲响警钟。
- 下一篇
谷歌发布 2.7 亿参数的多模态模型:Gemma 3 270M
谷歌发布了专为任务特定微调设计的 2.7 亿参数紧凑模型 Gemma 3 270M,该模型具备高能效和内置指令遵循能力,并支持 INT4 精度运行。Gemma 3 270M 包含 1.7 亿嵌入参数、1 亿 Transformer 参数以及 25.6 万词汇量,为特定领域和语言的微调提供了坚实的基础。 Gemma 3 270M 具有很高的能效。它提供了生产就绪的量化感知训练(QAT)检查点,支持在 INT4 精度下运行,性能损失极小,非常适用于资源受限的设备。模型还附带了指令微调版本,可实现开箱即用。该模型的核心价值在于通过微调释放其潜力,能够高精度、高速度且经济高效地执行文本分类、数据提取等任务。 它适用于情感分析、实体提取、查询路由等高吞吐量、定义明确的任务。其小巧的尺寸支持快速微调迭代和设备上运行,确保了用户隐私。开发者可以通过 Hugging Face、Ollama、Kaggle、LM Studio 和 Docker 下载 Gemma 3 270M。 它支持在 Vertex AI、llama.cpp、Gemma.cpp、LiteRT、Keras 和 MLX 等多种推理工具上运行...
相关文章
文章评论
共有0条评论来说两句吧...