微软发布两款全新自研模型：MAI-Voice-1 与MAI-1-preview-低调大师

微软发布两款全新自研模型：MAI-Voice-1 与MAI-1-preview

2025-08-29 259

微软发布了两款完全自研的模型：语音生成模型 MAI-Voice-1 与基础大模型 MAI-1-preview。

MAI-Voice-1 可在单 GPU 上一秒内生成一分钟高保真语音，该模型已被应用于多项功能，包括由 AI 主持人播报当日要闻的 Copilot Daily，以及生成播客式讨论内容以阐释主题。

用户可在 Copilot Labs 亲自体验 MAI-Voice-1：输入文本内容后，可自由调整 AI 模型的语音风格与表达方式。

除该模型外，微软还推出了采用混合专家架构的 MAI-1-preview，据称其预训练与后训练共动用约 15,000 张 NVIDIA H100 GPU，该模型专为需要遵循指令并 “对日常查询提供实用回应” 的用户设计。

MAI-1-preview 已上线 LMArena 社区测试，排名第 13，并同步向受邀开发者提供 API 试用申请。未来几周将先面向部分 Copilot 文本场景灰度上线，以收集反馈并持续迭代。

微软 AI 首席执行官 Mustafa Suleyman 表示，这只是开始，后续将围绕模型升级、计算路线规划以及与微软全线产品深度集成，目标触达数十亿用户，实现 “为所有人构建 AI”。

https://microsoft.ai/news/two-new-in-house-models/
https://copilot.microsoft.com/labs/audio-expression

微信关注我们

原文链接：https://www.oschina.net/news/369133

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

OpenAI 发布 GPT-realtime 语音对话模型

OpenAI 宣布推出语音模型 GPT-realtime。一个专用于语音AI Agent的多模态模型，能够生成更加自然流畅的语音，完美模仿人类丰富多样的语调、情感以及语速，支持图像理解并将其与语音或文本对话相结合使用，适用于客服、教育、金融、医疗等领域打造语音智能体。 GPT-realtime 采用端到端架构，直接处理并生成音频，显著降低延迟。还新增了Marin与Cedar两种极具特色的语音，同时对原有的8种语音也进行了全面升级。 OpenAI 表示，该模型展现出更高智能水平，能够更准确地理解母语音频。可以捕捉非语言线索（例如笑声）、在句子中间切换语言，并调整语气（“简洁专业” vs. “友善善解人意”）。根据内部评估，该模型在检测其他语言（包括西班牙语、中文、日语和法语）的字母数字序列（例如电话号码、车辆识别号码 (VIN) 等）方面也表现出更高的准确性。在 Big Bench Audio 评估中，该模型的推理能力gpt-realtime得分高达 82.8%，超过了 2024 年 12 月发布的上一版模型（得分为 65.6%）。在衡量指令执行准确率的 MultiChallenge...

2025-08-29

176

2025年8月29日，海螺AI宣布其首尾帧功能在全球网页版和APP双端正式上线，并开放仅尾帧玩法。这一功能支持768p和1080p的首尾帧及仅尾帧功能，512p则支持首帧功能。海螺AI新一代首尾帧技术旨在打破行业中的指令理解弱、场景局限、翻车率高等痛点，通过更强的指令理解、更丝滑的动态效果和更大胆的想象力，全面提升行业首尾帧能力的上限。海螺AI新一代首尾帧技术具有五大核心亮点: 首先，它拥有最强复杂指令遵循能力，能够精确理解和执行每一个细节，让镜头叙事更有层次。其次，该技术延续了Hailuo02在极限复杂物理动态上的独家本领，能够生成如打斗、体操、杂技等高能动作的丝滑连招。第三，大幅度运镜功能使得空间运镜、变身转场、视角切换等电影感流畅过渡，戏剧化镜头信手拈来。第四，超预期想象力功能让海螺AI在首尾帧跨度大或缺乏指令和细节时，依然能够“大胆”想象、灵活过渡，实现超纲发挥。最后，海螺AI支持仅尾帧功能，用终点倒推奇幻之旅。首尾帧技术的加持使得电商广告和一键换装等应用场景更精准可控。在电商广告中，商品呈现更加精细，电影转场效果更佳，视频中的文字和logo等还可进行更细节的控制...

2025-08-29

199

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。