DeepMind 强化学习团队副总裁:AI 的未来在于自主获取经验
近日,Google DeepMind 强化学习团队副总裁 David Silver 近日在一场重要播客中提出了关于 AI 未来发展的关键观点。
作为 DeepMind 创始成员和 AlphaGo 项目的核心人物,Silver 认为 AI 未来的突破将来自于其自主获取经验的能力,而非继续依赖人类数据。
Silver 在访谈中指出,AI 发展正从「人类数据时代」迈向「经验时代」。他解释道:
目前的 AI 方法基于一个共同理念:提取人类拥有的全部知识并’喂’给机器。但真正的突破将来自于机器与世界互动,产生自身经验的能力。
以 AlphaGo 和 AlphaZero 为例,Silver 阐述了 AI 自主学习的威力。AlphaZero 通过完全摒弃人类棋谱数据,仅靠自我对弈获取经验,反而达到了超越人类和早期版本 AlphaGo 的水平。他称这是 AI 领域的「苦涩教训」——人类知识有时反而会限制 AI 的自主学习能力。
Silver 还谈到了当前大语言模型中的强化学习应用。虽然基于人类反馈的强化学习(RLHF)帮助模型更符合人类偏好,但他认为这种方法无法让 AI 超越人类知识的「天花板」。「如果系统根据人类反馈学习,它最终只会输出人类认知内的内容,无法探索未知领域。」
Silver 将人类数据比作化石燃料,认为这是 AI 发展的「先发优势」,但真正可持续的「燃料」是 AI 自主生成的经验。
当化石燃料耗尽后,我们需要某种可持续燃料来维持世界运转。强化学习便是这种可持续燃料。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
智元发布具身智能一站式开发平台 Genie Studio
智元机器人发布了行业首款面向具身智能开发者的一站式开发平台 Genie Studio。 据介绍,Genie Studio 是智元机器人专为具身智能场景打造的一站式开发平台,具备数据采集、模型训练、仿真评测、模型推理的全链路产品能力,让“采”、“训”、“测”、“推”每个环节都能找到标准化解决方案。 平台优势如下: 提供覆盖数据全生命周期的数据解决方案,高效采集海量数据,单机单日产能高达 1000 条。 提供自研和主流开源机器人基座模型,打通训练、微调、量化、部署链路,降低训练门槛。 提供仿真评测能力,拥有 6000 + 物体资产与仿真场景,实现用户侧场景重建、专家轨迹数据获取、评测结果可视化。 提供“⼀键真机部署”能力,轻松实现算法从云端到真机环境的无缝迁移,比传统方案单卡推理性能提升 2-3 倍。 数据采集 数据采集模块深度重构机器人数据生命周期,打造从多模态数据采集、流程化数据处理、可视化数据标注到数据集高效管理的一站式数据中枢,提供多本体、多末端的设备管理、批量模板化的数采任务生成、全链路标注与可视化审核、数据集管理、多维度指标看板等配套的全流程功能服务;通过仿真场景重建和多种专家...
- 下一篇
生树科技发布高可控 AI 视频大模型「Vidu Q1」
生树科技旗下的 Vidu AI 发布了业内首个高可控 AI 视频大模型「Q1」。 据介绍,Vidu Q1 在多主体细节可控、音效同步可控、画质增强等方面都取得出色表现。并且 Vidu Q1 在四大核心能力进行了全面升级: 极「质」高清:画质细节全面提升,出片更清晰、更具质感; 极「质」镜头:首尾帧衔接更顺滑,镜头语言更具电影感; 极「质」音效:一句话生成专属音效,支持时段自定义和音效叠加; 极「质」风格:动漫风格再度升级,稳定流畅、更具表现力。 目前,Vidu Q1 已上线 Vidu 官网,支持时长 5 秒、1080p 的视频生成。 根据官方介绍,Vidu Q1 作为业内首个高可控 AI 视频大模型,其在多主体细节可控(特别是动作、布局可控)、音效同步可控、画质增强等方面均取得显著成效。 以多主体细节可控为例,在语义指令的基础上,通过融入参考图的视觉指令,Vidu Q1支持对场景中多主体的位置、大小、运动轨迹等属性进行更进一步的可控,对所有动作行为(出场、退场、坐立姿态、行动路线)进行精准调整。用户能够明显体验到用更低的抽卡率实现更高质量的可控生成。 音效同步可控功能则确保了随着视频环...
相关文章
文章评论
共有0条评论来说两句吧...