2025 年 AI 大模型行业最重要的 6 大技术成果
“Vibe Coding”之父Andrej Karpathy发表了一篇年度总结《2025 LLM Year in Review》,列出2025年大模型行业最重要的6大技术成果,写得非常通俗易懂:
1. RLVR(可验证奖励强化学习)
今年以前,大模型的主流训练方案,就那三样——
1️⃣Pretraining(预训练),爬完全网数据,学会怎么预测;
2️⃣SFT(监督微调),找人给模型提供参考答案,推动过拟合;
3️⃣RLHF(人类反馈强化学习),模型生成多个答案,人类打分,让它开悟;
RLVR提供的新方案,是让模型去做存在标准答案的复杂数学题,得出结果后再去核对答案,通过这种明确的试错,模型开始演化出了推理能力。
而RLVR的普及,吞掉了今年的大多数算力消耗,并为使用者新增了「让模型思考更久一点」的质变按钮,OpenAI的o1开创了这条路线,到o3则是真正的拐点。
2. 锯齿状的智能
今年开始意识到,大模型并不是智能生物,它更像是一种被召唤来的幽灵。
人类的智能,是为了在恶劣的自然环境里生存下来而持续进化的,但大模型的智能,是为了模仿人类说话、在做数学题时拿到奖励、为了在基准测试里考高分而设计的,所以这让大模型呈现出「薛定谔的聪明」——
一方面可以理解最难的奥数题,另一方面连一个单词里有几个r都数不清楚。
所以基准测试的意义确实不大了,所有公司都在刷题,甚至把训练都放在特定的数据集上,这么搞下去,AGI来不了。
3. Cursor
比这款产品的成功更有价值的是,今年有很多AI原生服务开始标榜自己是「xx行业的Cursor」,这意味着大模型在应用层的渗透已经开始了。
Cursor跑通的商业逻辑,是为垂直市场封装大模型这门生意,像一个产品经理的角色,负责把技术变成即插即用的生产力工具。
未来的搭配可能是这样的——大模型厂商负责教育出具有普遍能力的大学生,而Cursor这样的公司则负责把这些大学生培训成可上岗的实习生。
4. Claude Code
Claude Code是迄今为止最让人信服的Agent,它运行在本地设备里,理论上来说,你能用键盘和鼠标做什么事,它也能做到。
对比之下,我会认为OpenAI有点走偏了。
OpenAI太想把一切都塞到ChatGPT里了,以致于Codex、Agent等新技术都倾向于放到云端,而不考虑本地部署。
在通用对话框里完成一切当然很有AGI的感觉,但现实是,我们依然处在一个模型能力不算稳定、上下限差异巨大的中间时刻,端到端的智能体可能是更优解。
这不是说本地和云端哪边更好的问题,用户的数据仍然主要存放在本地——代码、密钥、上下文、生产环境这些——Anthropic搞对了优先级,把Claude Code放进了一个优雅的命令行界面里,摆脱了只能用浏览器访问的困境。
能干活的大模型,就应该变成这样的「田螺姑娘」。
5. Vibe Coding
这是我在推特上随口发明的一个词,没想到火得不行,此处应有掌声。
Vibe Coding让编程不再只是少数专业程序员的特权,任何不懂代码的人都能驾驭编程能力为己所用,这就叫「权力归于人民」。
和以前的技术革命不同,这一次,普通用户能从大模型里获得的益处要远远高于专业人士和大型公司,代码生产的廉价化,让我们实现了软件自由。
举个例子,我为了找一个Bug,专门通过Vibe Coding写了一个程序,而它在完成使命之后,就可以被扔掉了,像一张废弃的餐巾纸。
这会彻底动摇软件工程师的职位要求。
6. Nano Banana
你们都把Nano Banana当成一个牛逼的图片模型,但在我眼里,他是大模型「GUI化」的雏形,直接通向人类与AI交互的图形界面。
大模型基于语言文本,所以天然喜欢对话格式,但人类不是这样的,人类是爱发出「太长不看」这种怪叫声的生物,与费时费力的文本相比,我们更喜欢通过视觉消费信息。
这也是Dos被Windows取代的过程。
未来的大模型,会从自己的舒适区走出来,转而用人类喜闻乐见的格式来输出信息,比如图表、简报、动画、网页这些,Nano Banana是第一个把信息处理和图像表达融合起来的模型。
这是2025年最难以置信的标志性事件,没有之一。
总之,这是一波未平、一波又起的一年,大模型的能干和愚蠢都远超出了我的想象,这个行业连10%的潜能都还没有发掘出来,要做的事情还有很多,记得系好安全带。
来源:https://weibo.com/1560906700/5245960041007703
