您现在的位置是：首页 > 文章详情

11Labs 发布对话式 AI 2.0，集成话轮转换和知识库，多语言多角色多模态

日期：2025-06-03点击：37收藏

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01 有话题的技术

1、通义实验室语音团队推出 OmniAudio 技术，可直接从 360° 视频生成 FOA 空间音频

5 月 29 日，阿里通义大模型公布了「空间音频生成」模型——OmniAudio。据通义团队介绍，OmniAudio 能够直接从 360° 视频生成空间音频。

为了解决「如何利用全景视频生成与之匹配的空间音频」这一问题，通义实验室语音团队提出了 360V2SA（360-degree Video to Spatial Audio）任务，旨在直接从 360° 视频生成 FOA（First-order Ambisonics）音频。

据悉，FOA 是一种标准的 3D 空间音频格式，能够捕捉声音的方向性，实现真实的 3D 音频再现。

受限于现有的配对 360° 视频和空间音频数据极为稀缺，通义团队还为此精心设计并构建了 Sphere360 数据集。该数据集包含大量高质量的 360° 视频和相应的 FOA 空间音频。这是一个包含超过 10.3 万个真实世界视频片段的数据集，涵盖 288 种音频事件，总时长达到 288 小时。

另外，OmniAudio 的训练方法分为了「自监督的 coarse-to-fine 流匹配预训练」以及「基于双分支视频表示的有监督微调」两个阶段。

目前，OmniAudio 已上架 GitHub 并同步公布了代码、数据开源仓库，以及相关技术论文。

项目主页：https://omniaudio-360v2sa.github.io/

代码和数据开源仓库：https://github.com/liuhuadai/OmniAudio

论文地址：https://arxiv.org/abs/2504.14906 （@APPSO、@阿里语音 AI）

2、可灵 2.1 系列视频模型发布，拥有卓越的动态效果表现，更强的语义响应

快手可灵 AI 发布了其 KLING 2.1 系列视频模型。据悉，可灵 2.1 系列拥有标准版和大师版两个版本模型：

标准版支持标准（720P）和高品质（1080P）两种模式。价格方面，标准模式为 20 积分/5 秒，高品质模式为 35 积分/5 秒。

大师模式全面升级为 1080P 输出，拥有卓越的动态效果表现，更强的语义响应。可灵 2.1 标准版暂仅支持「图生视频」功能，「文生视频」功能将在近期上线。目前，可灵 AI 官网已可体验可灵 2.1 系列模型。

可灵 AI：https://app.klingai.com/cn/ （@APPSO）

02 有亮点的产品

1、PlayDiffusion：一种基于扩散的修补模型，具有修改现有语音的能力

PlayDiffusion 是一个让用户能够通过简单编辑文本来编辑音频/视频内容中语音的模型。该模型是一种基于扩散的修补模型，具有修改现有语音的能力，通过该模型可以像编辑文档一样编辑语音，无需重新录制。只需上传音频/视频，编辑自动生成的转录文本，即可获得更新后的语音。现已开源。

工作原理：

1、上传内容；

2、模型转录语音；

3、你编辑转录文本；

4、模型使用相同的声音进行更改。

并且 PlayDiffusion 不是像自回归模型那样逐个生成标记，而是能够一次性预测所有标记，并在大约 20 个去噪步骤中进行优化。这使得生成步骤的效率提高了最多 50 倍，同时没有任何损失。

GitHub: https://github.com/playht/PlayDiffusion

Demo: https://huggingface.co/spaces/PlayHT/PlayDiffusion

Fal: https://fal.ai/models/fal-ai/playai/inpaint/diffusion (@HammadH4@X、 @PlayAIOfficial@X)

2、ElevenLabs 发布对话式人工智能 2.0 ，具备新一代先进的轮流发言功能和全面支持企业级应用

ElevenLabs 发布 Conversational AI 2.0，实现了自然转换对话能力，能识别语气词判断用户意图，避免尴尬停顿和不当打断。ElevenLabs Conversational AI 现已支持多模态，用户可以创建能够通过文本、语音或同时通过两者进行交流的智能体。

ElevenLabs 开发了批量呼叫功能，使用户能够自动化并扩展外呼语音通信。批量呼叫允许使用用户的对话式 AI 智能体同时发起多个外呼，非常适合发送警报、进行调查或向庞大联系人列表传递个性化信息等用例，提升速度和一致性。新系统集成了多语言自动识别功能和检索增强生成（RAG）技术，支持多模态交互，一个 AI 助手可同时处理文本和语音。