无任何数学公式理解大模型基本原理
前言 为什么我们使用chatgpt问一个问题,回答时,他是一个字或者一个词一个词的蹦出来,感觉是有个人在输入,显得很高级,其实这这一个词一个词蹦不是为了高级感,而是他的实现原理决定的,下面我们看下为什么是一个一个蹦出来的 大模型的本质 特斯拉前AI总监Andrej Karpathy将大语言模型简单的描述为: 大模型的本质就是两个文件,一个是参数文件,一个是包含运行这些参数的代码文件。 参数文件是组成整个神经网络的权重,代码文件是用来运行这个神经网络的代码,可以是C或者其他任何编程语言写的,当然目前主要都是Python 那么接下来的问题就是:参数从哪里来? 这就引到了模型训练。 本质上来说,大模型训练就是对互联网数据进行有损压缩(大约10TB文本),需要一个巨大的GPU集群来完成。 以700亿参数的Llama 2(Facebook开源的羊驼大模型)为例,就需要6000块GPU,然后花上12天得到一个大约140GB的“压缩文件”,整个过程耗费大约200万美元。 而有了“压缩文件”,模型就等于靠这些数据对世界形成了理解。 大模型是如何工作的 简单来...


