大模型的风,还需要一个底层 AI 框架来落地
深度学习发展至今,语言、视觉、推荐、代码生成等多个领域相继出现一些“大模型”成果,不断刷新着人们对 AI 的认知与想象。深度学习依赖对大量数据的训练,而“大模型”的参数更多、函数更复杂,这样的特征使得模型所演算出来的结果更精准。随着万物互联世界的进一步发展,数据量的扩展与数据收集已不再是难题,随之而来的新命题是如何处理海量数据,并且做出更好地训练。 早在 2017 年,Transformer 结构被提出,使得深度学习模型参数突破了1亿;2018 年,BERT 网络模型的提出,使得参数量首次超过 3 亿规模;2020 年,拥有 1750 亿个参数的 GPT-3 横空出世;2021 年推出的 ZionEX 系统,其所支持的推荐模型大小已超过 10 万亿规模…… 随着数据规模的指数级增长,大模型已经逐渐被认为是通过深度学习认知智能的桥梁。 然而,数据量的暴增提出了新的命题——如何跨越通信等瓶颈,提升大模型的训练效率?为了支持大模型的训练,往往需要一套大规模分布式训练框架来训练大模型。 对此,华为交出的答卷便是昇思 MindSpore AI 框架,原生支持大模型训练。昇思 MindSpore ...