Kimi 发布全新通用音频基础模型 Kimi-Audio-低调大师

Kimi 发布全新通用音频基础模型 Kimi-Audio

2025-04-27 219

Kimi 发布新的开源项目 — 全新通用音频基础模型 Kimi-Audio。

根据介绍，Kimi-Audio-7B-Instruct基于Qwen2.5-7B架构，并结合Whisper技术，展现了强大的多功能性。该模型支持多种音频相关任务，包括但不限于：语音识别（ASR）、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件/场景分类(SEC/ASC)、文本到语音(TTS)、语音转换(VC)以及端到端语音对话。

Kimi-Audio采用创新的混合音频输入机制，以12.5Hz的采样率处理音频数据，显著提升了模型对复杂音频信号的理解能力。

官方披露，该模型在超过1300万小时的多样化音频数据上进行训练，涵盖语音、音乐、环境音等多种类型。Moonshot AI还开源了Kimi-Audio的训练代码、模型权重以及评估工具包。

Kimi-Audio在多项基准测试中展现了领先的性能，超越了现有的开源和部分闭源模型。其在语音识别、情感分析和音频问答等任务中的表现尤为突出，展现了强大的泛化能力。Kimi-Audio的开源评估工具包为行业提供了一个标准化的测试平台。

微信关注我们

原文链接：https://www.oschina.net/news/346859

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

🔥 把 Java WebApi 快速转为 Mcp-Server（使用 Solon AI MCP）

solon-ai-mcp，提供了各种 mcp 相关能力，支持 java8, java11, java17, java21, java24 。是 solon-ai 项目的重要组成部分，也可以嵌入到 springboot2, springboot3, jfinal, vert.x 等项目中使用。依赖包： <dependency> <groupId>org.noear</groupId> <artifactId>solon-ai-mcp</artifactId> <version>最新版</version> </dependency> 1、看一个简单的 web 控制器此控制器有两个方法：get_weather，获取天气；get_rainfall，获取降雨量。后面基于它进行快速改造演示。 @Mapping("/web/api") @Controller public class McpServerTool { @Mapping("get_weather") public...

2025-04-27

331

阶跃星辰宣布开源图像编辑大模型Step1X-Edit，性能达到开源 SOTA。根据介绍，该模型总参数量为19B（7B MLLM + 12B DiT），具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力；支持11类高频图像编辑任务类型，如文字替换、风格迁移、材质变换、人物修图等。 “一句话总结：Step1X-Edit，不只能“改图”，更能“听得懂、改得准、保得住”。” 阶跃星辰方面表示，Step1X-Edit 首次在开源体系中实现 MLLM 与 DiT 的深度融合，在编辑精度与图像保真度上实现大幅提升。在最新发布的图像编辑基准 GEdit-Bench 中，Step1X-Edit 在语义一致性、图像质量与综合得分三项指标上全面领先现有开源模型，比肩 GPT-4o 与 Gemini 2.0 Flash。模型特点语义精准解析：支持自然语言描述的复杂组合指令，指令无需模板，能够灵活应对多轮、多任务编辑需求，同时支持对图像中文字进行识别、替换与重构；身份一致性保持：编辑后能稳定保留人脸、姿态与身份特征，适用于虚拟人、电商模特、社交图像等高一致性场景；高精度区域级控制：支持对指...

2025-04-27

526

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。