每日一博 | 揭秘编码器与解码器语言模型
Transformer架构的问世标志着现代语言大模型时代的开启。自2018年以来,各类语言大模型层出不穷。 通过LLM进化树(github.com/Mooler0410/LLMsPracticalGuide)来看,这些语言模型主要分为三类:一是“仅编码器”,该类语言模型擅长文本理解,因为它们允许信息在文本的两个方向上流动;二是“仅解码器”,该类语言模型擅长文本生成,因为信息只能从文本的左侧向右侧流动,并以自回归方式有效生成新词汇;三“编码器-解码器”组,该类语言模型对上述两种模型进行了结合,用于完成需要理解输入并生成输出的任务,例如翻译。 本文作者Sebastian Raschka对这三类语言模型的工作原理进行了详细解读。他是人工智能平台Lightning AI的LLM研究员,也是《Machine Learning Q and AI》的作者。 (以下内容由OneFlow编译发布,转载请联系授权。原文:https://magazine.sebastianraschka.com/p/understanding-encoder-and-decoder) 来源 | Ahead of AI On...

