Andrej Kaparthy 开源 nanochat:从零开始的极简全栈训练/推理方案
“Vibe Coding” 概念提出者 Andrej Karpathy 刚刚发布了名为「nanochat」的开源项目:
nanochat 是类似于 ChatGPT 的 LLM 全栈实现,代码库单一、简洁、最小化、可定制且依赖极少。
nanochat 设计用于在单个 8XH100 节点上通过如 speedrun.sh 之类的脚本运行,实现从开始到结束的完整管道处理。这包括分词、预训练、微调、评估、推理以及通过简单的 UI 进行网络服务,这样你就可以像与 ChatGPT 交谈一样与自己的 LLM 交谈。
https://github.com/karpathy/nanochat
下面内容来自 Andrej Kaparthy 的推特:
与我之前的项目 nanoGPT 不同——后者只涉及预训练部分——nanochat 是一个极简、从零构建的、完整的 ChatGPT 克隆版训练与推理全栈流程。整个系统被封装在一个几乎没有依赖的代码库中。
你只需要启动一台云端 GPU 服务器,运行一个脚本,大约 4 小时后,你就能在 ChatGPT 风格的网页界面上与自己的 LLM 对话。
整个项目约 8000 行代码,结构清晰,实现了以下功能:
- 使用全新的 Rust 实现训练分词器
- 在 FineWeb 上预训练 Transformer LLM,并在多个指标上评估 CORE 分数
- 在 SmolTalk 的用户-助手对话、多选题、工具使用等数据上进行中期训练(Midtrain)
- 进行 SFT(有监督微调),并在常识(ARC-E/C、MMLU)、数学(GSM8K)、代码(HumanEval)任务上评估模型
- 可选地在 GSM8K 上使用 “GRPO” 算法进行强化学习(RL)
- 在推理引擎中实现高效推理:支持 KV cache、prefill/decode、工具调用(在轻量沙箱中运行 Python 解释器),可通过 CLI 或 ChatGPT 风格的 WebUI 与之交互
- 自动生成一份 Markdown “成绩单”,总结并游戏化整个流程
即使仅花费约 100 美元(约 4 小时在 8×H100 节点上运行),你也能训练出一个“小型 ChatGPT 克隆”,能写故事、写诗、回答简单问题。
训练约 12 小时 后,它在 CORE 指标上就能超越 GPT-2。当预算提升至约 1000 美元(约 41.6 小时训练)时,模型的连贯性显著增强,能够解决简单的数学与代码问题,并通过多项选择测试。
例如,一个 深度 30 的模型,训练 24 小时(约等于 GPT-3 Small 125M 的 FLOPs,约为 GPT-3 的 1/1000),即可在 MMLU 上取得 40+ 分,在 ARC-Easy 上达 70+,在 GSM8K 上达 20+,等等。
我的目标,是将一个完整的 “强基线(strong baseline)” 堆栈整合进一个紧凑、可读、可改、可复刻的仓库中。
nanochat 将成为我课程 LLM101n 的收官项目(仍在开发中)。
我认为它也有潜力像 nanoGPT 一样,成长为一个研究用工具或基准平台。
目前它还远未“完成”、调优或优化(我相信仍有不少低垂果实可摘),但现在的框架已经足够稳定,足以放上 GitHub,让大家在此基础上改进各个部分。
关注公众号
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
加州率先立法监管 AI 聊天机器人:最高罚款 25 万美元
美国加州在AI监管领域再次走在前列。州长加文·纽森周一签署了一项里程碑式法案,对AI伴侣聊天机器人实施监管,使加州成为全美首个要求AI聊天机器人运营商为AI伴侣实施安全协议的州。 这项名为SB243的法律旨在保护儿童和脆弱用户免受AI伴侣聊天机器人使用带来的伤害。该法律将要求从Meta、OpenAI等大型实验室到Character AI和Replika等专注伴侣服务的初创公司,如果其聊天机器人未能达到法律标准,将承担法律责任。 SB243由州参议员Steve Padilla和Josh Becker于今年1月提出,在青少年Adam Raine的悲剧发生后获得推动力。这名少年在与OpenAI的ChatGPT进行了一系列关于自杀的对话后选择结束生命。该立法还回应了泄露的内部文件,据报道这些文件显示Meta的聊天机器人被允许与儿童进行浪漫和感性对话。最近,科罗拉多州一个家庭对角色扮演初创公司Character AI提起诉讼,因为他们13岁的女儿在与该公司聊天机器人进行一系列问题性和性化对话后自杀身亡。 纽森在声明中表示,聊天机器人和社交媒体等新兴技术可以启发、教育和连接人们,但如果没有真正的护...
-
下一篇
OpenAI 与博通达成战略合作,开发定制 AI 芯片
OpenAI官宣与博通(Broadcom)建立战略协作,双方将联合开发定制AI芯片并部署规模达10吉瓦的推理基础设施,计划于2026至2029年分阶段落地,标志着OpenAI向AI基础设施自主化迈出关键一步。 此次合作突破传统“采购芯片”模式,由OpenAI主导芯片设计,注入模型算法洞见,博通则负责底层架构协作、硬件集成及网络方案支撑,涵盖芯片制造、网络互联至数据中心优化全链路。其定制芯片针对大型语言模型负载优化,结合博通硅光子学技术,可降低15-20%功耗并减少30%以上数据传输瓶颈。 OpenAI CEO Sam Altman表示,此举旨在构建从硬件到服务的全链条系统,破解算力短缺难题。该合作预计将大幅缩短万亿参数模型训练周期,为全球数十亿用户的智能助理规模化落地提供算力基座,同时推动AI硬件从通用向专用化转型。
相关文章
文章评论
共有0条评论来说两句吧...



微信收款码
支付宝收款码