OpenAudio S1 语音生成模型：语调情感标记，精确控制风格-低调大师

OpenAudio S1 语音生成模型：语调情感标记，精确控制风格

2025-06-04 280

开发者朋友们大家好：

这里是 **「RTE 开发者日报」** ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的 **技术** 」、「有亮点的 **产品** 」、「有思考的 **文章** 」、「有态度的 **观点** 」、「有看点的 **活动** 」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

## 01 有话题的技术

**1、OpenAI 宣布其 Agents SDK 新增 TypeScript 支持等四项功能更新**

OpenAI 宣布其 Agents SDK 新增 TypeScript 支持等四项功能更新，具体更新亮点如下：

- **Agents SDK 现支持 TypeScript** ：Agents SDK 现支持 TypeScript，与 Python 版功能对齐，支持 handoffs、guardrails、tracing、MCP 等核心功能。新增 human-in-the-loop 审批机制，允许暂停工具执行、保存智能体状态、审批或拒绝特定调用，并继续运行；

- **新增 RealtimeAgent，支持语音智能体** ：通过 RealtimeAgent 和 Realtime API，开发者可构建运行于客户端或服务器的语音智能体。支持工具调用、handoffs、guardrails，并自动处理音频和中断；

- **Traces 仪表板支持 Realtime API** ：Traces 仪表 referenced in the Traces 仪表板支持 Realtime API 会话，可视化语音智能体运行，包括音频输入/输出、工具调用和中断处理；

- **语音到语音模型升级** ：提升指令遵循可靠性、工具调用一致性和中断行为表现，新增 speed 参数控制会话中语音语速。具体模型版本为 gpt-4o-realtime-preview-2025-06-03（Realtime API）和 gpt-4o-audio-preview-2025-06-03（Chat Completions API）。

**实际应用场景**

- **语音助手：Perplexity iOS Voice Assistant**

- 场景：Perplexity AI 利用 Realtime API 开发语音模式，提供快速、准确的语音回答。

- 效果：新模型提升工具调用准确性，交互更可靠、更吸引人。

- **电话支持：Intercom Fin Voice**

- 场景：Intercom 使用 Realtime API 开发 AI 电话支持，提供 24/7 客户服务。

- 效果：新模型更准确遵循通话脚本，执行函数调用更一致，减少「幻觉」，提供人类水平的 AI 支持。

- **游戏开发：VolleyGames 奇幻 RPG**

- 场景：VolleyGames 开发 AI 龙与地下城游戏，玩家通过语音互动，AI 生成动态剧情。

- 效果：新模型在遵循游戏规则的同时提升叙事创造性，带来更流畅、更有吸引力的游戏体验。

（@OpenAIDevs@X、@时代 Java）

**2、Fish Audio 推出 OpenAudio S1 语音生成模型，支持情感语调标记，精确控制语音风格**

Fish Audio 推出 OpenAudio S1 语音生成模型，以高度自然的声音、丰富的语气控制和强大的指令跟随能力，达到专业配音演员表现力和自然度。采用双自回归架构和 RLHF 训练技术，在 TTS-Arena 排名第一。支持零样本和少样本语音克隆，提供 S1 和 S1-mini 两个版本，满足不同用户需求，未来将推出实时语音交互功能。

- 支持丰富的情感标记（如愤怒、悲伤、兴奋、讽刺等）、语调标记（如匆忙、喊叫、耳语等）和特殊标记（如笑声、抽泣、叹气等），能精确控制语音的情感和风格，媲美专业配音演员；

- 通过自研的语音转文本模型（即将发布），对 10 万小时音频进行情感、语调等标注，提升模型对复杂指令的理解；

- 原生支持英语、中文、日语、德语、法语、西班牙语、韩语、阿拉伯语、俄语、荷兰语、意大利语、波兰语、葡萄牙语等多种语言，适合全球应用；

- OpenAudio S1 是市场上最实惠的 TTS 模型，定价为每百万字节 15 美元（约 0.8 美元/小时），远低于其他 TTS
模型。

相关链接：

https://fish.audio

官方 blog：

https://openaudio.com/blogs/s1

（@FishAudio@X、@shao__meng@X、@OneThingAI Lab）

**3、京东推出音频驱动 3D 人脸视频模型 JoyGen**

JoyGen 是京东与香港大学团队提出的音频驱动 3D 深度感知说话人脸视频编辑模型。

**亮点：**

- 它采用两阶段框架，先用 3D 重建和音频驱动的动作预测实现精准的嘴型-音频同步；

- 融合音频特征和人脸深度图，提升视觉质量和同步效果；

- 团队还自建了 130 小时的高质量中文说话人脸数据集，显著提升了模型在中英文场景下的表现；

- 实验结果显示，JoyGen 在嘴型同步和视觉效果上均优于现有方法，适合高质量中英文虚拟人及视频编辑应用。

官网：

https://joy-mm.github.io/JoyGen/

Github：

https://github.com/JOY-MM/JoyGen （@elliotchen100@X）

## 02 有亮点的产品

**1、Character.AI 上线系列功能：让人物图片开口说话，多角色音频故事生成**

AI 陪伴应用的 Top 1——Character.ai（c.ai）在最新的公告中，c.ai 宣布上新或即将上新一系列新功能，其中不少与 AI 创作相关。例如上线视频生成功能，这项新功能名叫 AvatarFX，主要用于图生视频，更具体说就是让静态图片中的人物「开口说话」。AvatarFX 一个月之前面向订阅用户开放，现在所有用户都可以用了，同时 c.ai 也上新了多项其他 AI 创作功能。以及即将上新的 Stream，只需选择角色和话题，然后点击 Play 按钮，就可以让创造出两个角色间的精彩故事。

- Stream：用户只需选择角色和话题，然后点击 Play按钮，就可以让创造出两个角色间的精彩故事。该功能将于本周将在网页版和移动应用中推出。
- AvatarFX：主打图片动画化，而非从零开始的文本生成，可以让图片中的人物说话、唱歌并和用户互动，也可以为角色生成自我介绍视频，同时支持宠物等非人类面孔。c.ai 介绍，AvatarFX 基于 DiT 架构，自称达到了 SOTA 水准，技术亮点在于高保真度和强时间一致性。据介绍，即便面对多角色、长序列或多轮对话的复杂场景，AvatarFX 生成的视频依然能够保持稳定性。当然真人也是支持的，但是为了防止滥用，如果 AvatarFX 检测到上传的图片为真人（无论是否为名人），就会对其面部特征进行修改，避免混淆。目前 AvatarFX 已在网页版中上线，用户每天可以生成 5 个视频，APP 端也即将上线。

- Scenes：提供沉浸式叙事体验，用户可以与自己喜欢的角色一起进入互动式预设故事情节。用户可以将 AvatarFX创作地视频制作成「场景」，让他们的角色融入其他用户创建的预设故事情节中。该功能现已在移动应用上线。

- Imagine Animated Chat：用户可以将自己与角色之间最有趣的互动变成动画并分享，从而提升创作者创作的高质量角色的曝光，目前仅面向 c.ai+订阅用户开放。

除了推出新功能之外，c.ai 公司本身也有新动向。去年 8 月，谷歌以 25 亿美元估值将其收购，这一金额高于 Character.AI 此前公布的 10 亿美元估值。

blog 链接：

https://blog.character.ai/character-ai-unveils-new-ways-to-create/ （@量子位、@Character.ai blog）

**2、OpenAI 宣布免费版 ChatGPT 提供轻量级记忆功能**

6 月 4 日凌晨 5 点，OpenAI 联合创始人兼首席执行官 Sam Altamn 表示，从今天开始，将为免费版 ChatGPT 提供轻量级记忆功能。同时他自己也表示该功能是其最喜欢的 ChatGPT 功能，未来也将大幅改进这一功能。

据介绍，ChatGPT 的记忆功能能记住用户最近的聊天内容，从而用户不必再经常重复表述自己的内容，GPT 也能回答更加个性化、更加符合用户偏好的内容，以及记住用户的部分信息、数据等内容。

即日起，打开 ChatGPT 即可收到「全新改进型记忆功能上线」的相关推送消息。（@APPSO、@AIGC 开放社区）

**3、2025 苹果设计大赛获奖应用 Speechify：文字转音频工具，围绕无障碍设计**

Speechify 是一款将文字转换为音频的工具，支持 50 多种语言和数百种语音。款 App 提供了易于使用的 UI，Speechify 围绕无障碍设计，能够通过动态字体和旁白等功能，帮助患有读写困难、ADHD 的用户、低视力者或习惯用听力学习的人更轻松地获取信息。

大赛获奖链接：

developer.apple.com/cn/design/awards

相关链接：

https://speechify.com/ （@爱范儿）

**4、2025 苹果设计大赛获奖国产应用 CapWords：AI 识图生成词汇贴纸**

CapWords 是今年获奖名单中第一个国产应用，这是一款语言学习工具。用户可以拍下日常生活中遇到的物品，并通过 AI 识图的方式，生成相应的外语词汇，帮助用户记忆单词。

该应用支持通过拍照来学习事物的名称。只需拍摄一张照片，再配上一段有趣的动画，「CapWords」就能将咖啡杯、交通锥、纸杯蛋糕等日常物体转变成互动贴纸。

大赛获奖链接：

developer.apple.com/cn/design/awards （@APPSO、@爱范儿）

## 03 有态度的观点

**1、AI 教父：AI 具备情感与意识，人类不再是地球上最重要的存在**

被誉为「AI 教父」的 Geoffrey Hinton（杰弗里·辛顿）近日接受专访，其在访谈中坦言，AI 的快速发展已远超预期，不仅在推理能力上接近甚至超越人类，还正在逼近创造力、情感和意识的核心边界。

Hinton 表示，如今的 AI 在推理、记忆和决策方面错误率不断降低，像 GPT-4、Gemini 和 Claude 等模型所掌握的信息量已远超人类。

他提到，AI 能够轻松绕过语言陷阱、准确推理出正确答案，这类能力在考试、科研甚至医疗中正迅速替代人类。对于 AI 是否能拥有情感与意识，Hinton 认为并无本质区别。他指出，人类情绪本质是认知反应和生理信号的结合，AI 虽无法出汗或脸红，但在认知层面可表现出「愤怒」「焦虑」等与失败、学习相关的情绪。

当被问及 AI 失控时是否可以「拔掉插头」时，Hinton 警告称，真正强大的 AI 或许不会允许人类关掉它，未来可能通过说服、操控甚至伪装来误导人类，从而维护自身存在。

对此，Hinton 呼吁，社会应尽快建立起有效的 AI 治理机制，以防「当我们想关掉它时，已经为时已晚」。

最后，Hinton 重申，他最大的恐惧是：

人类正在创造出比自己更强的数字生命，一旦 AI 掌握足够能力，人类将不再是地球上最重要的存在。(@APPSO)

**更多 Voice Agent 学习笔记：**

[级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么？丨Voice Agent 学习笔记](https://mp.weixin.qq.com/s/SqXLZvq_zwWDcOVKbAb7HQ)

[a16z 最新报告：AI 数字人应用层即将爆发，或将孕育数十亿美金市场丨 Voice Agent 学习笔记](https://mp.weixin.qq.com/s/7QPgzp8kDR_9iHUa4oFeiA)

[a16z合伙人：语音交互将成为AI应用公司最强大的突破口之一，巨头们在B2C市场已落后太多丨Voice Agent 学习笔记](https://mp.weixin.qq.com/s/UM1qs2IT1S6kJ4sZf_k3uA)

[ElevenLabs 33 亿美元估值的秘密：技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记](https://mp.weixin.qq.com/s/WI0gE4x-TZG0gdgSV_bVSA)

[端侧 AI 时代，每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记](https://mp.weixin.qq.com/s/SVsgDF8F1hxy3-e5-ntGbw)

[世界最炙手可热的语音 AI 公司，举办了一场全球黑客松，冠军作品你可能已经看过](https://mp.weixin.qq.com/s/4K5wdUEDxrs1afHZSAIuqg)

[多模态 AI 怎么玩？这里有 18 个脑洞](https://mp.weixin.qq.com/s/JCYzc1Ig-HFFAN3sTQDYbw)

[AI 重塑宗教体验，语音 Agent 能否成为突破点？](https://mp.weixin.qq.com/s/rN9poD_X6SDxRLMsudg_xg)

[对话 TalktoApps 创始人：Voice AI 提高了我五倍的生产力，语音输入是人机交互的未来](https://mp.weixin.qq.com/s/eFS1mnAbUpAJdiLSSGWpSA)

[a16z 最新语音 AI 报告：语音将成为关键切入点，但非最终产品本身（含最新图谱）](https://mp.weixin.qq.com/s/r2z1bilamX6YWTg90F8xYA)

**写在最后：**

我们欢迎更多的小伙伴参与 **「RTE 开发者日报」** 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

微信关注我们

原文链接：https://www.oschina.net/news/353616

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

开源库 API 化平台 (ALLBEAPI) - 让优秀工具触手可及！

隆重推出：开源库 API 化平台 (ALLBEAPI) - 让优秀工具触手可及！您是否曾为了实现一个小功能而不得不安装、配置一整个复杂的开源库？您是否希望在不同的项目或语言中快速调用某个库的强大功能，而不想深陷依赖管理的泥潭？今天，我们激动地宣布“开源库 API 化平台”（ALLBEAPI）正式上线！访问我们的主页：https://allbeapi.top/ 我们的使命很简单：为优秀的开源工具提供免费、便捷的 API 服务，让开发者无需安装和部署，即可直接调用其核心功能。正如我们的标语所言：“无需安装和部署第三方库，直接调用 API。让好工具无需安装直接使用，无需部署直接调用。” 平台核心价值在日常开发、快速原型构建、教学演示或轻量级脚本编写中，我们常常需要借助各种优秀的开源库。然而，仅仅为了一个简单的功能就引入整个库，处理环境配置和依赖关系，有时显得过于繁重。ALLBEAPI 旨在解决这一痛点，它将众多流行的开源库封装成简单易用的 HTTP API 接口。我们的核心价值包括： 🚀 快速原型开发：无需繁琐的安装配置，即开即用，非常适合教学演示和产品原型快速验证。 🌐 跨平...

2025-06-04

348

工业和信息化部运行监测协调局最新发布了2025年1-4月份互联网和相关服务业运行情况。具体如下：一、总体运行情况业务收入保持平稳增长。1－4月份，我国规模以上互联网和相关服务企业（以下简称互联网企业）完成互联网业务收入5970亿元，同比增长1.5%。利润总额降幅有所收窄。1－4月份，我国规模以上互联网企业实现利润总额417.3亿元，同比下降10.8%。研发经费稳步提升。1－4月份，我国规模以上互联网企业共投入研发经费291.5亿元，同比增长4.8%，增速较一季度提高0.2个百分点。二、分地区运行情况东部地区互联网业务收入增速领先，西部地区收入增速放缓。1－4月份，东部地区完成互联网业务收入5351亿元，同比增长3.5%，高于全国增速2个百分点，占全国互联网业务收入的89.6%。中部地区完成互联网业务收入236.1亿元，同比下降29.3%。西部地区完成互联网业务收入371.5亿元，同比增长2.1%。东北地区完成互联网业务收入11.5亿元，同比下降27.5%。京津冀地区互联网业务收入保持较快增势。1－4月份，京津冀地区完成互联网业务收入2026亿元，同比增长8.8%，占全国互...

2025-06-05

211

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。