MOSS-Speech 发布:真正的语音到语音大模型
国内AI领域最知名的教授之一 ——复旦大学计算机学院教授邱锡鹏和他学生创立的公司近期发布了MOSS-Speech,声称是真正的语音到语音(Speech-to-Speech)大模型。 据官方介绍,这款模型标志着国产AI迈入了“真语音到语音交互”的新阶段。它与传统“语音识别—文本生成—语音合成”的级联方案不同,MOSS-Speech 实现了直接从语音理解到语音生成,无需文本中介。该模型可在生成回答的同时捕捉语调、情绪、笑声等非文字信号,使机器“说话”更自然、更具人性。 MOSS-Speech 核心特性如下: 真正的语音到语音建模:无需文本引导。 层拆分架构:在预训练文本 LLM 的基础上新增模态特定层。 冻结预训练策略:在保留原 LLM 的能力的同时引入语音理解和生成能力。 SOTA性能:在语音问答和语音到语音任务中表现出色。 MOSS-Speech 在语音到语音评测指标上取得了 SOTA 成绩。 预训练模型评测结果 指令微调模型评测结果 更多细节查看 Demo 和技术报告 视频 Demo:https://moss-speech.open-moss.com/ 在线 Demo:https:/...
