通义实验室发布语音双模型：Fun-CosyVoice3.5 与 Fun-AudioGen-VD-低调大师

通义实验室发布语音双模型：Fun-CosyVoice3.5 与 Fun-AudioGen-VD

2026-03-02 110

通义实验室语音团队正式发布两款支持 FreeStyle 指令生成的模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD。无论是精细控制声音表达，还是从零设计音色与场景，都可以通过自然语言指令直接生成。

两款模型均支持通过自然语言指令控制语音生成，但应用方向不同：

Fun-CosyVoice3.5：多语种复刻 + 精细化表达控制
Fun-AudioGen-VD：声音设计 + 场景化音频生成

根据介绍，CosyVoice3.5 在 Instruct-TTS 方向实现能力升级，支持 FreeStyle 指令控制生成效果，一句话自由生成语音。你可以直接用自然语言描述表达方式，例如：“语气坚定一点”、“稍微压低音调，语速慢一点”、“带一点情绪起伏”......模型即可理解并生成相应表达。

并新增了泰语、印尼语、葡萄牙语、越南语 4 个小语种支持。针对生僻字、复杂语句等容易读错的场景专项优化，生僻字读错率从 15.2% 降至 5.3%，复杂文本表现更加稳定，长文本朗读也更稳定流畅。

韵律与音质得到优化。语言模型部分使用 DiffRO + GRPO，增加时长与韵律多通道 reward，韵律表现明显提升。Flow Matching（音频生成）使用 Flow-GRPO，复刻相似度和音质进一步提升。

性能方面实现 Tokenizer 帧率减半，首包延迟降低 35%。在实时交互场景下响应更快，体验更流畅。

Fun-AudioGen-VD 则支持根据自然语言描述，生成目标音色、情绪表达和完整听觉场景，实现“人物 + 场景”的一体化声音生成。支持通过指令精细化控制声音特征：

基础属性：性别、年龄、口音、音高、语速
音质特征：沙哑、清亮、低沉、磁性......
情绪表达：愤怒、悲伤、兴奋、坚定......
角色模拟：客服、老兵、孩童、AI、播音员......
复杂心理：支持细腻状态表达（如“表面镇定但内心颤抖”）

此外，Fun-AudioGen-VD 不仅能生成声音，还能生成声音所处的“世界”，打造沉浸式听觉场景。包括背景环境音、空间混响效果、设备听感滤镜以及动态环境互动。

微信关注我们

原文链接：https://www.oschina.net/news/406876

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

LoVR：面向长视频的多模态检索基准

摘要：近日，北京大学与OceanBase联合提出的长视频多模态检索基准LoVR被WWW录用。LoVR是一个面向真实长视频的多模态检索基准，既支持全视频检索也支持片段级检索，并配套一条可规模化的高质量标注流水。LoVR系统性刻画了长视频检索的真实难点，提供了可扩展的高质量多模态数据构建范式，为未来长程语义建模与多粒度检索方法提供统一评测平台。研究背景与挑战随着长视频平台和知识型视频内容的快速增长，视频已经从“短片娱乐载体”演变为“结构化知识与复杂事件的长期记录”。无论是教学课程、会议记录、纪录片，还是操作演示与技术讲解，越来越多关键信息分布在数分钟甚至数小时的连续视频中。用户的真实需求，也从“找一个相关视频”升级为“在长视频中精准定位到相关内容”。然而，现有多模态检索研究仍主要基于短视频或独立片段构建评测环境。这种设置在语义复杂度、时间跨度以及上下文干扰程度上，都难以模拟真实长视频场景。更关键的是，在长视频内部，不同片段之间往往高度相似，语义边界模糊，模型需要具备更强的时间建模能力与细粒度语义区分能力，才能避免“找对主题、但定位错误”的问题。与此同时，构建高质量的长视频数据本身...

2026-02-26

82

成都人形机器人创新中心自主研发的全球首个全尺寸重载双轮足机器人开源平台正式发布。该平台命名为RW-02OP，此举标志着人形机器人产业从实验室产品向开放生态构建的关键一步。此次开源内容极为全面，远超代码范畴，是一套完整的开发套装。平台不仅公开了包含整机三维结构模型、硬件系统框图、详细物料清单（BOM）在内的全部本体设计资料，同时也开源了由MJCF模型文件、仿真框架、控制器代码（如基于LQR的控制器）及调试工具等组成的全部软件栈。此举旨在吸引全球开发者共同创新，以降低研发门槛，加速应用探索。 RW-02OP机器人平台专为复杂工况设计，身高1.1米，自重21公斤，具备10公斤的卓越负载能力（负重比近0.5）。其轮足复合设计兼具高速移动与强大越障能力，可稳定适应台阶、坡道、碎石等多种地形。中心希望通过开放平台，汇聚全球智慧，培育完整产业生态，并推动形成该领域内广泛认可的硬件与软件协议标准，确立行业影响力。更多资料查看：https://www.ruidiculous.com/support/

2026-03-02

120

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。