谷歌升级 Gemini 2.5 TTS 模型,强化语音表达能力
谷歌宣布推出Gemini 2.5 Flash与Pro Text-to-Speech(TTS)预览模型的重大更新,替代今年5月发布的旧版。
新模型在表达力、语速控制及多说话人一致性方面显著提升,支持更精准的风格指令响应、上下文感知的节奏调节,并可在24种语言中保持角色声线稳定。主要亮点如下:
- 情绪级表达:支持从「欢快乐观」到「阴郁严肃」一键切换,提升语音表现力。
- 节奏自适应:根据上下文自动调整快慢,使叙事更生动。
- 多角色+24语种:支持跨语种一致,角色不串线,实现自然对话过渡。
该技术已应用于Wondercraft等平台,助力其多角色对话与导演模式功能,实现自然语音生成。用户现可通过Google AI Studio和Playground体验新版TTS能力,适用于有声书、教学视频、营销内容等高保真语音场景。
