手把手案例!怎样拿开源的 GPT-2 训练小模型,挑战 GPT-3.5
当前业内普遍认可的一个观点是,大模型(LLM)参数规模越大,其性能越强,表现得越像人类。 然而,一个只有 5 亿参数的小模型(SLM),在做文档摘要任务时,其表现却超过了 GPT-3.5。这听起来很不可思议。官方曾公布 GPT-3.5 的参数量为 1750 亿,是该小模型的 300 倍。 这是怎么做到的? 基于“大数据、大算力、强算法”的大模型的大规模预训练已经成为了一项极其烧钱的竞赛,有能力加入这场竞赛的玩家并不多。因此,越来越多的 AI 领域的研究关注如何让小模型高效工作,比如让低质量小模型 GPT-2 制作高质量的数据集,再用来训练小模型,就能与千亿级参数量的大模型 GPT-3 相匹敌。 在 2024 年数据与 AI 峰会上,华盛顿大学教授、麦克阿瑟奖学金获得者,艾伦人工智能研究所(Allen Institute for Artificial Intelligence,AI2)常识 AI 的高级研究主任 Yejin Choi 分享了这一过程。 以下为 Yejin Choi 在2024 年数据与 AI 峰会上的演讲: 我来这里要跟你们分享一些看似不可能实现的可能性。 去年,当有人...