面壁智能推出 VoxCPM,新一代高拟真语音生成模型
面壁智能与清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)近日联合发布了一款新型语音生成模型 ——VoxCPM。这款模型以0.5B 的参数尺寸,致力于为用户提供高质量、自然的语音合成体验。
VoxCPM 的推出标志着高拟真语音生成领域的又一里程碑。该模型在自然度、音色相似度及韵律表现力等关键指标上,均达到了行业领先水平。通过零样本声音克隆技术,VoxCPM 能够以极少的数据,生成用户独特的声音,从而实现个性化的语音合成。这一技术进步为语音生成的应用场景带来了更多可能性,尤其是在个性化语音助手、游戏角色配音等领域。
据悉,VoxCPM 已在 GitHub、Hugging Face 等平台开源,并为开发者提供了线上体验平台,便于用户探索和使用其强大功能。模型在权威语音合成评测榜单 Seed-TTS-EVAL 中表现出色,尤其是在词错误率和音色相似度方面取得了极低的错误率,展示了其卓越的推理效率。在一张 NVIDIA RTX4090显卡上,VoxCPM 的实时因子(RTF)达到约0.17,满足了高质量实时交互的需求。
VoxCPM 不仅在技术性能上有所突破,其在音质和情感表达方面也表现出色。模型能够根据文本内容智能选择合适的声音、腔调和韵律,模拟出与真人无异的听感。无论是气象播报、英雄演讲,还是方言主播,VoxCPM 都能精准再现,提供沉浸式的听觉体验。
此外,VoxCPM 的技术架构基于最新的扩散自回归语音生成模型,融合了层次化语言建模和局部扩散生成的连续表征,显著提升了生成语音的表现力与自然度。该模型的核心架构包括多个模块,协同工作,实现了高效的 “语义 - 声学” 生成过程。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
生成式 AI 创企生数科技完成 A 轮数亿元融资
生数科技宣布完成新一轮数亿元人民币规模的A轮融资。该轮融资由博华资本领投,百度战投、北京市人工智能产业投资基金、启明创投、达泰资本、卓源亚洲、BV百度风投等老股东持续跟投,建发新兴投资等产业合作方加码跟投。 生数科技成立于2023年3月,专注于多模态大模型及应用的自主研发,其核心产品Vidu具备AI图像生成、视频生成与音频生成等多项能力。 2024年7月,Vidu在全球上线,全球首创「参考生」图片/视频概念,据称通过Vidu累计生成视频数量超过4亿,其核心功能参考生视频和参考生图的数量已超过1亿,其中商业内容素材生成量占比超过50%。 今年9月9日,生数科技正式将其视频大模型Vidu的Q1参考生图功能向大众用户开放。其参考生图功能同时支持7张参考图输入,可在多人、多场景、多次生成下保持人物/主体的面貌与特征不跑偏,并支持“一张图 + 一句提示词”自由换装、换背景、合成。
-
下一篇
微软为记事本添加免费的 AI 功能
微软公司宣布将为其经典应用 —— 记事本(Notepad)推出一系列全新的 AI 功能。 这些功能包括 “摘要”、“写作” 和 “重写”,旨在提升用户的写作效率和体验。根据最新消息,这些新功能即将在 Copilot Plus 电脑上上线,并且目前已经有部分 Windows Insiders 用户开始测试。 值得注意的是,这些 AI 功能的使用并不需要订阅 Microsoft365。这意味着即使是普通用户,只要拥有支持的 Copilot Plus 电脑,就可以体验到这些便捷的 AI 工具。微软利用本地模型来支持这些功能,确保用户在使用时能够享受到快速和流畅的操作体验。 具体来说,“摘要” 功能可以帮助用户迅速提炼文本中的关键信息,使繁琐的文档变得简明扼要;“写作” 功能则能够协助用户生成新的文本内容,提供写作灵感;而 “重写” 功能则可以在用户需要对现有文本进行修改时,提供不同的表达方式。 这样的更新无疑会为许多用户带来便利,尤其是那些常常需要处理文本内容的专业人士。
相关文章
文章评论
共有0条评论来说两句吧...