OpenAudio S1 语音生成模型:语调情感标记,精确控制风格
开发者朋友们大家好:
这里是 **「RTE 开发者日报」** ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 **技术** 」、「有亮点的 **产品** 」、「有思考的 **文章** 」、「有态度的 **观点** 」、「有看点的 **活动** 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
## 01 有话题的技术
**1、OpenAI 宣布其 Agents SDK 新增 TypeScript 支持等四项功能更新**
OpenAI 宣布其 Agents SDK 新增 TypeScript 支持等四项功能更新,具体更新亮点如下:
- **Agents SDK 现支持 TypeScript** :Agents SDK 现支持 TypeScript,与 Python 版功能对齐,支持 handoffs、guardrails、tracing、MCP 等核心功能。新增 human-in-the-loop 审批机制,允许暂停工具执行、保存智能体状态、审批或拒绝特定调用,并继续运行;
- **新增 RealtimeAgent,支持语音智能体** :通过 RealtimeAgent 和 Realtime API,开发者可构建运行于客户端或服务器的语音智能体。支持工具调用、handoffs、guardrails,并自动处理音频和中断;
- **Traces 仪表板支持 Realtime API** :Traces 仪表 referenced in the Traces 仪表板支持 Realtime API 会话,可视化语音智能体运行,包括音频输入/输出、工具调用和中断处理;
- **语音到语音模型升级** :提升指令遵循可靠性、工具调用一致性和中断行为表现,新增 speed 参数控制会话中语音语速。具体模型版本为 gpt-4o-realtime-preview-2025-06-03(Realtime API)和 gpt-4o-audio-preview-2025-06-03(Chat Completions API)。
**实际应用场景**
- **语音助手:Perplexity iOS Voice Assistant**
- 场景:Perplexity AI 利用 Realtime API 开发语音模式,提供快速、准确的语音回答。
- 效果:新模型提升工具调用准确性,交互更可靠、更吸引人。
- **电话支持:Intercom Fin Voice**
- 场景:Intercom 使用 Realtime API 开发 AI 电话支持,提供 24/7 客户服务。
- 效果:新模型更准确遵循通话脚本,执行函数调用更一致,减少「幻觉」,提供人类水平的 AI 支持。
- **游戏开发:VolleyGames 奇幻 RPG**
- 场景:VolleyGames 开发 AI 龙与地下城游戏,玩家通过语音互动,AI 生成动态剧情。
- 效果:新模型在遵循游戏规则的同时提升叙事创造性,带来更流畅、更有吸引力的游戏体验。
(@OpenAIDevs@X、@时代 Java)
**2、Fish Audio 推出 OpenAudio S1 语音生成模型,支持情感语调标记,精确控制语音风格**
Fish Audio 推出 OpenAudio S1 语音生成模型,以高度自然的声音、丰富的语气控制和强大的指令跟随能力,达到专业配音演员表现力和自然度。采用双自回归架构和 RLHF 训练技术,在 TTS-Arena 排名第一。支持零样本和少样本语音克隆,提供 S1 和 S1-mini 两个版本,满足不同用户需求,未来将推出实时语音交互功能。
- 支持丰富的情感标记(如愤怒、悲伤、兴奋、讽刺等)、语调标记(如匆忙、喊叫、耳语等)和特殊标记(如笑声、抽泣、叹气等),能精确控制语音的情感和风格,媲美专业配音演员;
- 通过自研的语音转文本模型(即将发布),对 10 万小时音频进行情感、语调等标注,提升模型对复杂指令的理解;
- 原生支持英语、中文、日语、德语、法语、西班牙语、韩语、阿拉伯语、俄语、荷兰语、意大利语、波兰语、葡萄牙语等多种语言,适合全球应用;
- OpenAudio S1 是市场上最实惠的 TTS 模型,定价为每百万字节 15 美元(约 0.8 美元/小时),远低于其他 TTS
模型。
相关链接:
https://fish.audio
官方 blog:
https://openaudio.com/blogs/s1
(@FishAudio@X、@shao__meng@X、@OneThingAI Lab)
**3、京东推出音频驱动 3D 人脸视频模型 JoyGen**
JoyGen 是京东与香港大学团队提出的音频驱动 3D 深度感知说话人脸视频编辑模型。
**亮点:**
- 它采用两阶段框架,先用 3D 重建和音频驱动的动作预测实现精准的嘴型-音频同步;
- 融合音频特征和人脸深度图,提升视觉质量和同步效果;
- 团队还自建了 130 小时的高质量中文说话人脸数据集,显著提升了模型在中英文场景下的表现;
- 实验结果显示,JoyGen 在嘴型同步和视觉效果上均优于现有方法,适合高质量中英文虚拟人及视频编辑应用。
官网:
https://joy-mm.github.io/JoyGen/
Github:
https://github.com/JOY-MM/JoyGen (@elliotchen100@X)
## 02 有亮点的产品
**1、Character.AI 上线系列功能:让人物图片开口说话,多角色音频故事生成**
AI 陪伴应用的 Top 1——Character.ai(c.ai)在最新的公告中,c.ai 宣布上新或即将上新一系列新功能,其中不少与 AI 创作相关。例如上线视频生成功能,这项新功能名叫 AvatarFX,主要用于图生视频,更具体说就是让静态图片中的人物「开口说话」。AvatarFX 一个月之前面向订阅用户开放,现在所有用户都可以用了,同时 c.ai 也上新了多项其他 AI 创作功能。以及即将上新的 Stream,只需选择角色和话题,然后点击 Play 按钮,就可以让创造出两个角色间的精彩故事。
- Stream:用户只需选择角色和话题,然后点击 Play按钮,就可以让创造出两个角色间的精彩故事。该功能将于本周将在网页版和移动应用中推出。
- AvatarFX:主打图片动画化,而非从零开始的文本生成,可以让图片中的人物说话、唱歌并和用户互动,也可以为角色生成自我介绍视频,同时支持宠物等非人类面孔。c.ai 介绍,AvatarFX 基于 DiT 架构,自称达到了 SOTA 水准,技术亮点在于高保真度和强时间一致性。据介绍,即便面对多角色、长序列或多轮对话的复杂场景,AvatarFX 生成的视频依然能够保持稳定性。当然真人也是支持的,但是为了防止滥用,如果 AvatarFX 检测到上传的图片为真人(无论是否为名人),就会对其面部特征进行修改,避免混淆。目前 AvatarFX 已在网页版中上线,用户每天可以生成 5 个视频,APP 端也即将上线。
- Scenes:提供沉浸式叙事体验,用户可以与自己喜欢的角色一起进入互动式预设故事情节。用户可以将 AvatarFX创作地视频制作成「场景」,让他们的角色融入其他用户创建的预设故事情节中。该功能现已在移动应用上线。
- Imagine Animated Chat:用户可以将自己与角色之间最有趣的互动变成动画并分享,从而提升创作者创作的高质量角色的曝光,目前仅面向 c.ai+订阅用户开放。
除了推出新功能之外,c.ai 公司本身也有新动向。去年 8 月,谷歌以 25 亿美元估值将其收购,这一金额高于 Character.AI 此前公布的 10 亿美元估值。
blog 链接:
https://blog.character.ai/character-ai-unveils-new-ways-to-create/ (@量子位、@Character.ai blog)
**2、OpenAI 宣布免费版 ChatGPT 提供轻量级记忆功能**
6 月 4 日凌晨 5 点,OpenAI 联合创始人兼首席执行官 Sam Altamn 表示,从今天开始,将为免费版 ChatGPT 提供轻量级记忆功能。同时他自己也表示该功能是其最喜欢的 ChatGPT 功能,未来也将大幅改进这一功能。
据介绍,ChatGPT 的记忆功能能记住用户最近的聊天内容,从而用户不必再经常重复表述自己的内容,GPT 也能回答更加个性化、更加符合用户偏好的内容,以及记住用户的部分信息、数据等内容。
即日起,打开 ChatGPT 即可收到「全新改进型记忆功能上线」的相关推送消息。(@APPSO、@AIGC 开放社区)
**3、2025 苹果设计大赛获奖应用 Speechify:文字转音频工具,围绕无障碍设计**
Speechify 是一款将文字转换为音频的工具,支持 50 多种语言和数百种语音。款 App 提供了易于使用的 UI,Speechify 围绕无障碍设计,能够通过动态字体和旁白等功能,帮助患有读写困难、ADHD 的用户、低视力者或习惯用听力学习的人更轻松地获取信息。
大赛获奖链接:
developer.apple.com/cn/design/awards
相关链接:
https://speechify.com/ (@爱范儿)
**4、2025 苹果设计大赛获奖国产应用 CapWords:AI 识图生成词汇贴纸**
CapWords 是今年获奖名单中第一个国产应用,这是一款语言学习工具。用户可以拍下日常生活中遇到的物品,并通过 AI 识图的方式,生成相应的外语词汇,帮助用户记忆单词。
该应用支持通过拍照来学习事物的名称。只需拍摄一张照片,再配上一段有趣的动画,「CapWords」就能将咖啡杯、交通锥、纸杯蛋糕等日常物体转变成互动贴纸。
大赛获奖链接:
developer.apple.com/cn/design/awards (@APPSO、@爱范儿)
## 03 有态度的观点
**1、AI 教父:AI 具备情感与意识,人类不再是地球上最重要的存在**
被誉为「AI 教父」的 Geoffrey Hinton(杰弗里·辛顿)近日接受专访,其在访谈中坦言,AI 的快速发展已远超预期,不仅在推理能力上接近甚至超越人类,还正在逼近创造力、情感和意识的核心边界。
Hinton 表示,如今的 AI 在推理、记忆和决策方面错误率不断降低,像 GPT-4、Gemini 和 Claude 等模型所掌握的信息量已远超人类。
他提到,AI 能够轻松绕过语言陷阱、准确推理出正确答案,这类能力在考试、科研甚至医疗中正迅速替代人类。对于 AI 是否能拥有情感与意识,Hinton 认为并无本质区别。他指出,人类情绪本质是认知反应和生理信号的结合,AI 虽无法出汗或脸红,但在认知层面可表现出「愤怒」「焦虑」等与失败、学习相关的情绪。
当被问及 AI 失控时是否可以「拔掉插头」时,Hinton 警告称,真正强大的 AI 或许不会允许人类关掉它,未来可能通过说服、操控甚至伪装来误导人类,从而维护自身存在。
对此,Hinton 呼吁,社会应尽快建立起有效的 AI 治理机制,以防「当我们想关掉它时,已经为时已晚」。
最后,Hinton 重申,他最大的恐惧是:
人类正在创造出比自己更强的数字生命,一旦 AI 掌握足够能力,人类将不再是地球上最重要的存在。(@APPSO)
**更多 Voice Agent 学习笔记:**
[级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记](https://mp.weixin.qq.com/s/SqXLZvq_zwWDcOVKbAb7HQ)
[a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记](https://mp.weixin.qq.com/s/7QPgzp8kDR_9iHUa4oFeiA)
[a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记](https://mp.weixin.qq.com/s/UM1qs2IT1S6kJ4sZf_k3uA)
[ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记](https://mp.weixin.qq.com/s/WI0gE4x-TZG0gdgSV_bVSA)
[端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记](https://mp.weixin.qq.com/s/SVsgDF8F1hxy3-e5-ntGbw)
[世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过](https://mp.weixin.qq.com/s/4K5wdUEDxrs1afHZSAIuqg)
[多模态 AI 怎么玩?这里有 18 个脑洞](https://mp.weixin.qq.com/s/JCYzc1Ig-HFFAN3sTQDYbw)
[AI 重塑宗教体验,语音 Agent 能否成为突破点?](https://mp.weixin.qq.com/s/rN9poD_X6SDxRLMsudg_xg)
[对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来](https://mp.weixin.qq.com/s/eFS1mnAbUpAJdiLSSGWpSA)
[a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)](https://mp.weixin.qq.com/s/r2z1bilamX6YWTg90F8xYA)
**写在最后:**
我们欢迎更多的小伙伴参与 **「RTE 开发者日报」** 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
开源库 API 化平台 (ALLBEAPI) - 让优秀工具触手可及!
隆重推出:开源库 API 化平台 (ALLBEAPI) - 让优秀工具触手可及! 您是否曾为了实现一个小功能而不得不安装、配置一整个复杂的开源库?您是否希望在不同的项目或语言中快速调用某个库的强大功能,而不想深陷依赖管理的泥潭? 今天,我们激动地宣布“开源库 API 化平台”(ALLBEAPI)正式上线!访问我们的主页:https://allbeapi.top/ 我们的使命很简单:为优秀的开源工具提供免费、便捷的 API 服务,让开发者无需安装和部署,即可直接调用其核心功能。 正如我们的标语所言:“无需安装和部署第三方库,直接调用 API。让好工具无需安装直接使用,无需部署直接调用。” 平台核心价值 在日常开发、快速原型构建、教学演示或轻量级脚本编写中,我们常常需要借助各种优秀的开源库。然而,仅仅为了一个简单的功能就引入整个库,处理环境配置和依赖关系,有时显得过于繁重。ALLBEAPI 旨在解决这一痛点,它将众多流行的开源库封装成简单易用的 HTTP API 接口。 我们的核心价值包括: 🚀 快速原型开发:无需繁琐的安装配置,即开即用,非常适合教学演示和产品原型快速验证。 🌐 跨平...
- 下一篇
1-4 月我国规上互联网企业完成互联网业务收入 5970 亿元
工业和信息化部运行监测协调局最新发布了2025年1-4月份互联网和相关服务业运行情况。具体如下: 一、总体运行情况 业务收入保持平稳增长。1-4月份,我国规模以上互联网和相关服务企业(以下简称互联网企业)完成互联网业务收入5970亿元,同比增长1.5%。 利润总额降幅有所收窄。1-4月份,我国规模以上互联网企业实现利润总额417.3亿元,同比下降10.8%。 研发经费稳步提升。1-4月份,我国规模以上互联网企业共投入研发经费291.5亿元,同比增长4.8%,增速较一季度提高0.2个百分点。 二、分地区运行情况 东部地区互联网业务收入增速领先,西部地区收入增速放缓。1-4月份,东部地区完成互联网业务收入5351亿元,同比增长3.5%,高于全国增速2个百分点,占全国互联网业务收入的89.6%。中部地区完成互联网业务收入236.1亿元,同比下降29.3%。西部地区完成互联网业务收入371.5亿元,同比增长2.1%。东北地区完成互联网业务收入11.5亿元,同比下降27.5%。 京津冀地区互联网业务收入保持较快增势。1-4月份,京津冀地区完成互联网业务收入2026亿元,同比增长8.8%,占全国互...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS6,CentOS7官方镜像安装Oracle11G
- Mario游戏-低调大师作品
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7