阶跃星辰联合吉利,首次开源 Step 系列多模态大模型
阶跃星辰和吉利汽车集团联合宣布,将双方合作的阶跃两款 Step 系列多模态大模型向全球开发者开源——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型。目前可在跃问 App 内体验。
公告称,技术报告中的评测结果,阶跃 Step-Video-T2V 的参数量和模型性能目前在全球开源视频生成领域都处于领先水平;而阶跃 Step-Audio 则是业内首款产品级的开源语音交互模型。
阶跃 Step-Video-T2V 模型的参数量达到 300 亿,可以直接生成 204 帧、540P 分辨率的高质量视频,这意味着能确保生成的视频内容具有极高的信息密度和强大的一致性。测评结果显示,它是目前全球范围内参数量最大、性能最好的开源视频生成大模型。
阶跃 Step-Audio 是行业内首个产品级的开源语音交互模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地进行高质量对话。模型生成的语音具有自然流畅、情商高等特征,同时也能支持不同角色的音色克隆,满足影视娱乐、社交、游戏等行业场景下应用需求。
在 LlaMA Question、Web Questions 等五大主流公开测试集中,Step-Audio 模型性能均超过了行业内同类型开源模型,位列第一。Step-Audio 在 HSK-6(汉语水平考试六级)评测中的表现尤为突出,是最懂中国话的开源语音交互大模型。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
天天 AI-20250217
DeepSeek冲击之下,大模型六小强如何「回应」? 2025年2月16日,量子位发布了一篇关于DeepSeek对全球大模型市场影响的文章。文章详细介绍了六家国内大模型创业公司(零一万物、百川智能、阶跃星辰、智谱华章、月之暗面、MiniMax)在DeepSeek冲击下的应对措施。零一万物选择了轻量化模型,并与苏州高新区联合成立了产业大模型基地;百川智能发布了新模型Baichuan-M1-preview,并在医疗领域取得了突破;阶跃星辰发布了多款新模型,并推出了跃问AI创意板;智谱华章继续推进与三星的合作,并在AI峰会上发表了重要演讲;月之暗面发布了Kimi k1.5多模态思考模型;MiniMax发布了T2A-01系列语音模型,并上线了海螺语音产品。来源原文 微软开源创新框架:可将DeepSeek,变成AI Agent 2025年2月16日,AIGC开放社区报道了微软在官网发布的视觉Agent解析框架OmniParser最新版本V2.0。该框架可将DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型变成可在计算机使用的AI Agent。V2版本在检测较小的可交互UI元素时准...
- 下一篇
Google Fellow 吴永辉据悉加盟字节跳动,负责 AI 基础研究探索工
智能涌现援引知情人士消息称,在谷歌工作长达 17 年的“Google Fellow”吴永辉博士已离开谷歌,加入字节跳动。 知情人士称,吴永辉离开谷歌,是希望做一些新的,偏探索的工作。这次加盟字节,也将专注在偏长期、偏基础的科研工作。 吴永辉在字节跳动将担任大模型团队Seed基础研究负责人,专注大模型基础研究探索、AI for science等偏长期的研究探索工作,汇报给字节跳动CEO梁汝波。 过去一段时间,字节一直在加强自己的AI研究团队。字节这次挖来吴永辉,就是看中其在深度学习的研究背景,希望进一步加强自己在长期研究方向的人才密度。 吴永辉2008年加州大学河滨分校博士毕业后即加入谷歌,最初在搜索排名小组负责搜索算法工作。2014年,吴永辉加入Google Brain转向深度学习方向的研究,在机器翻译、语音识别及合成、语言模型等方向均有贡献,是Google神经机器翻译项目及RankBrain项目的主要贡献者之一。 谷歌学术显示,2020年以来,吴的论文引用超过了4万次。其中,他作为一作发表的关于谷歌神经机器翻译系统的论文获得了超过9500次引用。 2023年,因为深度学习领域的持续研...
相关文章
文章评论
共有0条评论来说两句吧...