DeepSeek 公开模型原理与训练方法说明
DeepSeek发布官方说明,披露了其大语言模型的训练原理、数据来源等信息。DeepSeek表示其线上服务基于深度神经网络大模型,采用“预训练—优化训练”两阶段流程。
在预训练阶段,模型通过大规模自监督学习获取通用语言能力;在优化训练阶段,则使用有监督微调(SFT)或强化学习(RL)对模型进行任务适配;最终部署的模型以自回归方式实时生成文本,而非简单的信息检索。
数据来源方面,预训练语料由互联网公开信息和第三方合作数据组成,不主动收集个人信息。优化训练阶段的数据由研究团队自建问答对,少量样本可能源自用户输入,但均经过了去标识化、加密及匿名化处理,并为用户提供了退出机制。
完整内容查看:https://cdn.deepseek.com/policies/zh-CN/model-algorithm-disclosure.html
