“Vibe Coding” 概念提出者 Andrej Karpathy 谈强化学习-低调大师

“Vibe Coding” 概念提出者 Andrej Karpathy 谈强化学习

2025-08-28 101

在预训练时代，关键在于互联网文本。你最需要的是一大批量、多样化且高质量的互联网文档，供模型从中学习。

在监督微调（SFT）时代，核心则是对话数据。人们雇佣合同工人为问题撰写答案，类似于你在 Stack Overflow 或 Quora 上看到的内容，但专门针对大语言模型（LLM）的应用场景进行优化。

我认为以上两个阶段都不会消失，但在当前的强化学习时代，关键要素变成了“环境”（environments）。与前两者不同，环境能让大语言模型真正地进行交互——采取行动、观察结果等。这意味着我们有望超越简单的“统计专家行为模仿”，实现更深层次的学习。这些环境既可用于模型训练，也可用于模型评估。但和之前类似，现在核心的挑战在于：我们需要大量、多样化且高质量的环境，作为 LLM 练习的“习题集”。

从某种意义上说，这让我想起了 OpenAI 最早的项目——Gym。那正是一个旨在构建大量统一格式环境的框架，只不过当时远早于大语言模型的兴起，因此那些环境大多是当时简单的学术控制任务，比如倒立摆（cartpole）、ATARI 游戏等。而 PrimeIntellect 的“环境中心”（environments hub），以及其 GitHub 上的 verifiers 仓库，则构建了一个面向现代 LLM 的升级版框架，这是一个非常出色的尝试和构想。今年早些时候，我也曾提议有人来构建类似的东西。

环境的一个重要特性是：一旦框架的基本结构搭建完成，原则上社区和产业界就可以在不同领域并行开发，这令人非常振奋。

最后一点思考——就个人而言，从长期来看，我非常看好“环境”以及“具身智能体式交互”（agentic interactions）的发展前景，但我对“强化学习”（reinforcement learning, RL）本身持谨慎态度（看跌）。

我认为奖励函数（reward functions）存在严重问题，而且我相信人类在学习时并不主要依赖强化学习（也许在某些运动控制类任务中会用到，但在智力型问题解决中并非如此）。人类使用的是更强大、更高效的其他学习范式，而这些范式尚未被充分发明或规模化应用。

不过，目前已有一些初步的设想和雏形（例如，“系统提示学习”这一概念，即把模型更新从权重调整转移到提示词/上下文本身，之后可选择性地将知识“蒸馏”回权重中——这个过程有点像睡眠对大脑的作用）。

原文：https://x.com/karpathy/status/1960803117689397543

微信关注我们

原文链接：https://www.oschina.net/news/368986

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

PicList v3.0.3 发布，图床管理和上传工具优化安装体积

PicList是一款高效的云存储和图床平台管理工具，基于PicGo深度二次开发，提供完整的图床功能和全面的云存储管理能力，主要特点包括：完整保留PicGo所有功能，兼容大部分PicGo插件扩展了内置图床平台，如WebDav、本地图床和SFTP等相册支持同步云端删除文件全面的云存储管理功能，包括文件操作、搜索和预览内置图像处理工具，如水印、压缩、缩放、旋转和格式转换开源地址和软件官网 Github: https://github.com/Kuingsmile/PicList Gitee: https://gitee.com/kuingsmile/PicList 软件官网：https://piclist.cn 下载地址 MacOS PicList-3.0.3-arm64.dmg PicList-3.0.3-x64.dmg Windows PicList-Setup-3.0.3-ia32.exe PicList-Setup-3.0.3-arm64.exe PicList-Setup-3.0.3-x64.exe PicList-Setup-3.0.3.exe Linux PicLi...

2025-08-29

141

晚点 Auto 获悉，理想汽车自研智驾芯片M100于今年一季度样片回片，迈过量产前的关键阶段。随后，M100在两周内完成功能测试和性能测试，后续通过理想研发人员的压力测试。目前，M100已经小批量上样车做道路测试。据了解，在处理不同类型的计算任务时，M100表现出特定的性能特点：如在运行大语言模型的计算任务时，1颗M100所能提供的有效算力与2颗英伟达Thor-U大致相当；而在处理卷积神经网络相关的传统视觉任务（如图像识别）时，1颗M100所能提供的有效算力可对标3颗英伟达Thor-U。 M100 预计明年量产上车。在此之前，理想仍将依赖其现有的两家合作伙伴——英伟达和地平线。与此同时，为保障自研智驾芯片项目的战略安全、避免破坏与相关厂商之间的合作关系，理想近期已加强对芯片部门的信息管控。芯片研发耗资巨大，有知情人士称，理想为自研芯片项目规划的资金预算为数十亿美元。一位接近理想芯片部门的人士曾告诉我们，理想智驾芯片的研发工作较为复杂，在 NPU （Neural Processing Unit, 神经处理单元）、SoC（System on Chip, 系统级芯片）等硬件之外，还包括...

2025-08-28

127

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。