您现在的位置是:首页 > 文章详情

Kimi 发布全新通用音频基础模型 Kimi-Audio

日期:2025-04-27点击:7

Kimi 发布新的开源项目 — 全新通用音频基础模型 Kimi-Audio。

根据介绍,Kimi-Audio-7B-Instruct基于Qwen2.5-7B架构,并结合Whisper技术,展现了强大的多功能性。该模型支持多种音频相关任务,包括但不限于:语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件/场景分类(SEC/ASC)、文本到语音(TTS)、语音转换(VC)以及端到端语音对话。

Kimi-Audio采用创新的混合音频输入机制,以12.5Hz的采样率处理音频数据,显著提升了模型对复杂音频信号的理解能力。

官方披露,该模型在超过1300万小时的多样化音频数据上进行训练,涵盖语音、音乐、环境音等多种类型。Moonshot AI还开源了Kimi-Audio的训练代码、模型权重以及评估工具包。

Kimi-Audio在多项基准测试中展现了领先的性能,超越了现有的开源和部分闭源模型。其在语音识别、情感分析和音频问答等任务中的表现尤为突出,展现了强大的泛化能力。Kimi-Audio的开源评估工具包为行业提供了一个标准化的测试平台。

原文链接:https://www.oschina.net/news/346859
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章