11Labs 发布对话式 AI 2.0,集成话轮转换和知识库,多语言多角色多模态
开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01 有话题的技术
1、通义实验室语音团队推出 OmniAudio 技术,可直接从 360° 视频生成 FOA 空间音频
5 月 29 日,阿里通义大模型公布了「空间音频生成」模型——OmniAudio。据通义团队介绍,OmniAudio 能够直接从 360° 视频生成空间音频。
为了解决「如何利用全景视频生成与之匹配的空间音频」这一问题,通义实验室语音团队提出了 360V2SA(360-degree Video to Spatial Audio)任务,旨在直接从 360° 视频生成 FOA(First-order Ambisonics)音频。
据悉,FOA 是一种标准的 3D 空间音频格式,能够捕捉声音的方向性,实现真实的 3D 音频再现。
受限于现有的配对 360° 视频和空间音频数据极为稀缺,通义团队还为此精心设计并构建了 Sphere360 数据集。该数据集包含大量高质量的 360° 视频和相应的 FOA 空间音频。这是一个包含超过 10.3 万个真实世界视频片段的数据集,涵盖 288 种音频事件,总时长达到 288 小时。
另外,OmniAudio 的训练方法分为了「自监督的 coarse-to-fine 流匹配预训练」以及「基于双分支视频表示的有监督微调」两个阶段。
目前,OmniAudio 已上架 GitHub 并同步公布了代码、数据开源仓库,以及相关技术论文。
项目主页:https://omniaudio-360v2sa.github.io/
代码和数据开源仓库:https://github.com/liuhuadai/OmniAudio
论文地址:https://arxiv.org/abs/2504.14906 (@APPSO、@阿里语音 AI)
2、可灵 2.1 系列视频模型发布,拥有卓越的动态效果表现,更强的语义响应
快手可灵 AI 发布了其 KLING 2.1 系列视频模型。据悉,可灵 2.1 系列拥有标准版和大师版两个版本模型:
标准版支持标准(720P)和高品质(1080P)两种模式。价格方面,标准模式为 20 积分/5 秒,高品质模式为 35 积分/5 秒。
大师模式全面升级为 1080P 输出,拥有卓越的动态效果表现,更强的语义响应。可灵 2.1 标准版暂仅支持「图生视频」功能,「文生视频」功能将在近期上线。目前,可灵 AI 官网已可体验可灵 2.1 系列模型。
可灵 AI:https://app.klingai.com/cn/ (@APPSO)
02 有亮点的产品
1、PlayDiffusion:一种基于扩散的修补模型,具有修改现有语音的能力
PlayDiffusion 是一个让用户能够通过简单编辑文本来编辑音频/视频内容中语音的模型。该模型是一种基于扩散的修补模型,具有修改现有语音的能力,通过该模型可以像编辑文档一样编辑语音,无需重新录制。只需上传音频/视频,编辑自动生成的转录文本,即可获得更新后的语音。现已开源。
工作原理:
1、上传内容;
2、模型转录语音;
3、你编辑转录文本;
4、模型使用相同的声音进行更改。
并且 PlayDiffusion 不是像自回归模型那样逐个生成标记,而是能够一次性预测所有标记,并在大约 20 个去噪步骤中进行优化。这使得生成步骤的效率提高了最多 50 倍,同时没有任何损失。
GitHub: https://github.com/playht/PlayDiffusion
Demo: https://huggingface.co/spaces/PlayHT/PlayDiffusion
Fal: https://fal.ai/models/fal-ai/playai/inpaint/diffusion (@HammadH4@X、 @PlayAIOfficial@X)
2、ElevenLabs 发布对话式人工智能 2.0 ,具备新一代先进的轮流发言功能和全面支持企业级应用
ElevenLabs 发布 Conversational AI 2.0,实现了自然转换对话能力,能识别语气词判断用户意图,避免尴尬停顿和不当打断。ElevenLabs Conversational AI 现已支持多模态,用户可以创建能够通过文本、语音或同时通过两者进行交流的智能体。
ElevenLabs 开发了批量呼叫功能,使用户能够自动化并扩展外呼语音通信。批量呼叫允许使用用户的对话式 AI 智能体同时发起多个外呼,非常适合发送警报、进行调查或向庞大联系人列表传递个性化信息等用例,提升速度和一致性。 新系统集成了多语言自动识别功能和检索增强生成(RAG)技术,支持多模态交互,一个 AI 助手可同时处理文本和语音。
新功能概览:
-
新一代先进的轮流发言模型;
-
语言切换;
-
多角色模式;
-
多模态;
-
批量调用;
-
内置 RAG。(@elevenlabsio@X、@腾讯研究院、@海波学者聊 AI)
3、马斯克宣布推出 XChat,具备消息「阅后即焚」和无需电话号码即可使用的网络通话/视频功能
日前,马斯克宣布推出一款名为「XChat」的即时通信服务平台。据悉,该平台将具备消息「阅后即焚」和无需电话号码即可使用的网络通话/视频功能。
马斯克宣称 XChat 采用了「比特币风格的加密」,并用 Rust 语言开发,号称「全新架构」。
据 The Information 报道指出,XChat 本质上是为了与 WhatsApp、Telegram,甚至是微信展开竞争。
值得一提的是,Telegram 创始人 Pavel Durov 在一周前曾表示其与马斯克旗下的 xAI 签署了合作协议,并在 Telegram 中接入了 xAI 的 AI 聊天机器人 Grok。
-
端到端加密:消息、通话内容只有通信双方能看到,第三方(包括 X 平台)无法窥探;
-
阅后即焚:可以设置消息在一定时间后自动删除,比如 10 分钟后,保护隐私更彻底;
-
任意文件传输:支持发送任何类型的文件,包括照片、视频、文档等,不再受限于格式或大小;
-
跨平台音视频通话:无需手机号即可拨打,支持手机、电脑等多设备,通话内容同样加密。
(@APPSO、@Techub Info)
03 Real-Time AI Demo
1、使用手势和语音命令控制 3D 模型,包括移动、旋转、缩放、动画
来自 X 上的@measure_plan:你现在可以导入任何 3D 模型,并使用手势+语音来控制它
04 有态度的观点
1、Anthropic CEO:未来五年 AI 或取代一半白领工作
最近在旧金山总部接受采访时,Anthropic CEO Dario Amodei 发出严峻警告:AI 的迅猛发展可能在未来一到五年内淘汰多达一半的初级白领岗位,社会失业率或飙升至 10% 到 20%。
Amodei 表示,现在是时候停止对 AI 潜在影响的「美化」,技术、金融、法律、咨询等多个行业的初级职位将面临大规模消失,而多数普通人对此几乎一无所知,也缺乏足够的重视。
他希望通过公开发声,促使政策制定者与同行开始采取行动,为社会转型做准备。「大多数人并不知道这件事就要发生,听起来像疯话,但他们不信。」
Amodei 表示,虽然 AI 也带来医疗突破、经济增长等潜力,但其风险同样不可忽视。「癌症治好了,GDP 每年增长 10%,财政平衡……可有 20% 的人失去了工作。」他坦言,这样的情境极可能在技术爆发中同时发生。(@APPSO)
更多 Voice Agent 学习笔记:
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
腾讯跨端框架 Kuikly 鸿蒙版正式开源
Kuikly 是腾讯开源的跨端开发框架,基于 Kotlin Multiplatform 技术构建,为开发者提供了技术栈更统一的跨端开发体验。 在 Android、iOS 开源基础上,本次开源鸿蒙平台支持和 Compose DSL 支持,进一步提升业务多端适配和鸿蒙开发效率。 据介绍,目前 Kuikly 鸿蒙版已接入腾讯多款业务,开发并上架鸿蒙 App,如QQ浏览器、腾讯新闻、搜狗输入法、全民K歌、自选股等。 在鸿蒙平台上,Kuiky 打开页面速度比 RN 快 6 倍: Kuikly 基于 Kotlin MultiPlatform(KMP)技术,它利用了 KMP 逻辑跨平台的能力,并抽象出通用的跨平台 UI 渲染接口,复用平台的 UI 组件,从而达到 UI 跨平台,具有轻量、高性能、可动态化等优点; Kuikly 包括“KuiklyUI”和“KuiklyBase”两部分。其中,KuiklyUI 支持业务使用自研 DSL 和 Compose DSL 进行 UI 跨端开发,采用轻量、原生渲染方式,支持页面级动态化;KuiklyBase 支持 UI 和 KMP 逻辑全面跨端的基础能力和设施,包...
- 下一篇
字节跳动开源 Computer Use Agent:引领人机交互新革命
字节跳动开源Computer Use Agent:引领人机交互新革命 在人工智能技术日新月异的今天,字节跳动再次以创新者的姿态,宣布开源其自主研发的Computer Use Agent(以下简称CUA)。这一举措不仅标志着字节跳动在AI领域的又一重大突破,更为全球开发者提供了一个强大的工具,以前所未有的方式与计算机进行交互。 CUA:从对话到行动的跨越 传统的AI助手往往停留在“对话式人工智能”的层面,即通过自然语言处理理解用户意图,并给出相应的回答或建议。然而,CUA则实现了从“对话”到“行动”的跨越。它不仅能够理解用户的指令,更能通过自研的Doubao 1.5 UI-TARS模型,直接与计算机的图形用户界面(GUI)进行交互,执行复杂的任务。 Doubao 1.5 UI-TARS模型融合了视觉能力与高级推理,能够精准捕捉用户指令背后的场景意图。无论是视频剪辑、演示文稿制作,还是自媒体账号运维,CUA都能轻松应对,极大地提升了用户的工作效率。 强大的技术支撑 CUA的强大背后,是字节跳动在AI领域的深厚积累。其核心技术包括: 感知能力:CUA能够截取计...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker安装Oracle12C,快速搭建Oracle学习环境
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- CentOS7安装Docker,走上虚拟化容器引擎之路