英伟达发布 PersonaPlex-7B-v1
英伟达研究团队近日正式发布了名为PersonaPlex-7B-v1的全双工语音对语音对话模型。打破传统 AI 语音助手“听一句、回一句”的呆板模式,旨在实现更接近真人的自然对话体验。 与过去需要通过 ASR(语音转文本)、LLM(大语言模型)、TTS(文本转语音)多个环节串联的架构不同,PersonaPlex采用了一个单一的 Transformer 架构,直接完成语音理解与生成的全过程。 这种“端到端”的设计极大降低了响应延迟,并赋予了 AI 处理自然中断、语音重叠以及即时反馈的能力。简单来说,就像真人聊天一样,AI 在说话的同时也在持续倾听,即便用户突然打断,它也能迅速做出反应。 此外,通过“语音+文本”的双重引导,用户不仅能定义 AI 的角色背景,还能精确控制其音色和语调。 英伟达在训练中结合了海量真实通话数据与合成场景,使模型既具备自然的语言习惯,又能严格遵守特定行业的业务规则。目前的评估结果显示,PersonaPlex-7B-v1在对话流畅度和任务达成率上均优于多数开源及闭源系统。

