“Vibe Coding” 概念提出者 Andrej Karpathy 谈强化学习
在预训练时代,关键在于互联网文本。你最需要的是一大批量、多样化且高质量的互联网文档,供模型从中学习。
在监督微调(SFT)时代,核心则是对话数据。人们雇佣合同工人为问题撰写答案,类似于你在 Stack Overflow 或 Quora 上看到的内容,但专门针对大语言模型(LLM)的应用场景进行优化。
我认为以上两个阶段都不会消失,但在当前的强化学习时代,关键要素变成了“环境”(environments)。与前两者不同,环境能让大语言模型真正地进行交互——采取行动、观察结果等。这意味着我们有望超越简单的“统计专家行为模仿”,实现更深层次的学习。这些环境既可用于模型训练,也可用于模型评估。但和之前类似,现在核心的挑战在于:我们需要大量、多样化且高质量的环境,作为 LLM 练习的“习题集”。
从某种意义上说,这让我想起了 OpenAI 最早的项目——Gym。那正是一个旨在构建大量统一格式环境的框架,只不过当时远早于大语言模型的兴起,因此那些环境大多是当时简单的学术控制任务,比如倒立摆(cartpole)、ATARI 游戏等。而 PrimeIntellect 的“环境中心”(environments hub),以及其 GitHub 上的 verifiers 仓库,则构建了一个面向现代 LLM 的升级版框架,这是一个非常出色的尝试和构想。今年早些时候,我也曾提议有人来构建类似的东西。
环境的一个重要特性是:一旦框架的基本结构搭建完成,原则上社区和产业界就可以在不同领域并行开发,这令人非常振奋。
最后一点思考——就个人而言,从长期来看,我非常看好“环境”以及“具身智能体式交互”(agentic interactions)的发展前景,但我对“强化学习”(reinforcement learning, RL)本身持谨慎态度(看跌)。
我认为奖励函数(reward functions)存在严重问题,而且我相信人类在学习时并不主要依赖强化学习(也许在某些运动控制类任务中会用到,但在智力型问题解决中并非如此)。人类使用的是更强大、更高效的其他学习范式,而这些范式尚未被充分发明或规模化应用。
不过,目前已有一些初步的设想和雏形(例如,“系统提示学习”这一概念,即把模型更新从权重调整转移到提示词/上下文本身,之后可选择性地将知识“蒸馏”回权重中——这个过程有点像睡眠对大脑的作用)。
原文:https://x.com/karpathy/status/1960803117689397543

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
PicList v3.0.3 发布,图床管理和上传工具 优化安装体积
PicList是一款高效的云存储和图床平台管理工具,基于PicGo深度二次开发,提供完整的图床功能和全面的云存储管理能力,主要特点包括: 完整保留PicGo所有功能,兼容大部分PicGo插件 扩展了内置图床平台,如WebDav、本地图床和SFTP等 相册支持同步云端删除文件 全面的云存储管理功能,包括文件操作、搜索和预览 内置图像处理工具,如水印、压缩、缩放、旋转和格式转换 开源地址和软件官网 Github: https://github.com/Kuingsmile/PicList Gitee: https://gitee.com/kuingsmile/PicList 软件官网:https://piclist.cn 下载地址 MacOS PicList-3.0.3-arm64.dmg PicList-3.0.3-x64.dmg Windows PicList-Setup-3.0.3-ia32.exe PicList-Setup-3.0.3-arm64.exe PicList-Setup-3.0.3-x64.exe PicList-Setup-3.0.3.exe Linux PicLi...
- 下一篇
理想自研智驾芯片上车路测,部分计算性能超英伟达 Thor-U
晚点 Auto 获悉,理想汽车自研智驾芯片M100于今年一季度样片回片,迈过量产前的关键阶段。随后,M100在两周内完成功能测试和性能测试,后续通过理想研发人员的压力测试。目前,M100已经小批量上样车做道路测试。 据了解,在处理不同类型的计算任务时,M100表现出特定的性能特点:如在运行大语言模型的计算任务时,1颗M100所能提供的有效算力与2颗英伟达Thor-U大致相当;而在处理卷积神经网络相关的传统视觉任务(如图像识别)时,1颗M100所能提供的有效算力可对标3颗英伟达Thor-U。 M100 预计明年量产上车。在此之前,理想仍将依赖其现有的两家合作伙伴——英伟达和地平线。与此同时,为保障自研智驾芯片项目的战略安全、避免破坏与相关厂商之间的合作关系,理想近期已加强对芯片部门的信息管控。 芯片研发耗资巨大,有知情人士称,理想为自研芯片项目规划的资金预算为数十亿美元。 一位接近理想芯片部门的人士曾告诉我们,理想智驾芯片的研发工作较为复杂,在 NPU (Neural Processing Unit, 神经处理单元)、SoC(System on Chip, 系统级芯片)等硬件之外,还包括...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7设置SWAP分区,小内存服务器的救世主
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2全家桶,快速入门学习开发网站教程