MOSS-Speech 发布:真正的语音到语音大模型
国内AI领域最知名的教授之一 —— 复旦大学计算机学院教授邱锡鹏和他学生创立的公司近期发布了MOSS-Speech,声称是真正的语音到语音(Speech-to-Speech)大模型。
据官方介绍,这款模型标志着国产AI迈入了“真语音到语音交互”的新阶段。它与传统“语音识别—文本生成—语音合成”的级联方案不同,MOSS-Speech 实现了直接从语音理解到语音生成,无需文本中介。该模型可在生成回答的同时捕捉语调、情绪、笑声等非文字信号,使机器“说话”更自然、更具人性。
MOSS-Speech 核心特性如下:
- 真正的语音到语音建模:无需文本引导。
- 层拆分架构:在预训练文本 LLM 的基础上新增模态特定层。
- 冻结预训练策略:在保留原 LLM 的能力的同时引入语音理解和生成能力。
- SOTA性能:在语音问答和语音到语音任务中表现出色。
MOSS-Speech 在语音到语音评测指标上取得了 SOTA 成绩。
- 预训练模型评测结果
- 指令微调模型评测结果
更多细节查看 Demo 和技术报告
- 视频 Demo:https://moss-speech.open-moss.com/
- 在线 Demo:https://huggingface.co/spaces/fnlp/MOSS-Speech
- GitHub 主页:https://github.com/OpenMOSS/MOSS-Speech
- 技术报告:https://github.com/OpenMOSS/MOSS-Speech/blob/main/papers/MOSS-Speech Technical Report.pdf



