什么是LLM大模型训练,详解Transformer结构模型
本文分享自华为云社区《LLM 大模型学习必知必会系列(四):LLM训练理论篇以及Transformer结构模型详解》,作者:汀丶。 1.模型/训练/推理知识介绍 深度学习领域所谓的“模型”,是一个复杂的数学公式构成的计算步骤。为了便于理解,我们以一元一次方程为例子解释: y = ax + b 该方程意味着给出常数a、b后,可以通过给出的x求出具体的y。比如: #a=1 b=1 x=1 y = 1 * 1 + 1 -> y=2 #a=1 b=1 x=2 y = 1 * 2 + 1 => y=3 这个根据x求出y的过程就是模型的推理过程。在LLM中,x一般是一个句子,如“帮我计算23+20的结果”,y一般是:“等于43”。 基于上面的方程,如果追加一个要求,希望a=1,b=1,x=3的时候y=10呢?这显然是不可能的,因为按照上面的式子,y应该是4。然而在LLM中,我们可能要求模型在各种各样的场景中回答出复杂的答案,那么这显然不是一个线性方程能解决的场景,于是我们可以在这个方程外面加上一个非线性的变换: y=σ(ax+b) 这个非线性变换可以理解为指数、对数、...




















