首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/376799

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Sand.AI 发布音画同步 AI 视频生成模型 GAGA-1

清华博士曹越创立的 Sand.AI 发布了全新音画同步 AI 视频模型 GAGA-1,目前已经正式上线,无需邀请码、无需排队,目前全员免费开放使用,官网地址为https://gaga.art。 据介绍,GAGA-1 的研发历时 6 个月,远超最初 “2 个月完成” 的预期,其核心亮点集中在人物表演维度,尤其带台词的表演已达影视级水平(短剧、影游级完全适配,部分满足电视剧级需求,暂未达电影级神韵)。 经实测,GAGA-1 能精准还原人物情绪(如失望、气愤、歇斯底里等),支持双人场景表演,甚至可识别外国人形象并生成蹩脚普通话,还具备唱歌功能。 关于后续规划,曹越透露,自定义音频、固定音色 ID 功能已接近完成,仅因工程进度未赶上此次发布;价格方面,虽未确定免费期限,但明确后续定价将远低于 Sora2 与 Veo3,现阶段可满足短剧创作、影游 NPC 对话生成、小说角色可视化等需求,为低成本视频创作提供新可能。 推荐阅读:清华博士带队,发布全球首个自回归视频生成大模型「Magi-1」

麻省理工推出可调节的生成 AI 工具,助力机器人虚拟训练

麻省理工学院(MIT)的计算机科学与人工智能实验室(CSAIL)与丰田研究院近日共同推出了一款名为 “可引导场景生成”(steerable scene generation) 的生成式 AI 工具,旨在提升机器人学习能力。这款新工具能够创建虚拟训练环境,如厨房、客厅和餐厅,以供工程师测试机器人如何处理现实生活中的任务。 该平台经过训练,基于超过4400万个3D 房间的数据,具备 “可引导” 的特性,利用了一种名为 “蒙特卡洛树搜索”(Monte Carlo tree search,MCTS)的策略。MCTS 可以帮助 AI 模型识别并选择场景生成的选项,以实现特定目标,例如让场景尽可能真实,或在场景中添加更多物体。这一策略使得系统在训练过程中能够不断学习,创建出日益复杂的场景。 MIT 的博士生兼 CSAIL 研究员尼古拉斯・帕夫(Nicholas Pfaff)表示,这个项目是首次将 MCTS 应用于场景生成,将场景生成任务视为一种 “序列决策过程”。“我们通过不断构建部分场景,随着时间的推移生成更好或更理想的场景。因此,MCTS 生成的场景比扩散模型训练的场景更为复杂。” 行业专家指...

相关文章

发表评论

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

用户登录
用户注册