看MindSpore加持下,如何「炼出」首个千亿参数中文预训练语言模型?
摘要:千亿参数量的中文大规模预训练语言模型时代到来。 本文分享自华为云社区《MindSpore开源框架加持,如何「炼出」首个千亿参数、TB级内存的中文预训练语言模型?》,原文作者:chengxiaoli。 千亿参数量的中文大规模预训练语言模型时代到来。 近段时间,中文大规模预训练语言模型圈有些热闹。26 亿参数量的「悟道 · 文源」, 270 亿参数量的 PLUG,以及昨天华为云发布的千亿级别「盘古」NLP 大模型,预训练语言模型已经成长到仅加载就需要 TB 级的内存或显存。 我们可以直观地想到,「盘古」效果理应更好,但计算量需求也更大,训练起来更困难。 然而「盘古」实际上是这样一次探索:开源框架 MindSpore,昇腾基础软硬件平台,加上超大规模中文预训练模型,意味着基础设施已然完善了。 这项工作由华为以及北京大学相关技术团队联手完成,在昇腾基础软硬件平台,以及 MindSpore 框架自动并行等黑科技的帮助下,训练出当前最大的中文预训练模型。 那么量级不断拔高的盘古大模型是如何训练出来的?接下来,让我们细致解读下「盘古」背后的关键技术。 千亿参数,TB 级内存的模型 以盘古 20...