一次失败的实验 - 无限注意力,我们为什么坚持实验
总结: 随着我们增加内存压缩次数的次数,Infini-attention 的性能会变得越来越差。据我们所知, ring attention 、 YaRN 和 rope scaling 这三种方法仍是将预训练模型拓展更长上下文的最佳方式。 ring attention https://x.com/Haojun_Zhao14/status/1815419356408336738 YaRN https://arxiv.org/abs/2309.00071 rope scaling https://arxiv.org/abs/2309.16039 引言: 语言模型的上下文长度也是除模型性能之外的重要属性之一。自 in-context learning (上下文学习) 出现以来,添加相关信息到模型的输入中日渐重要。因此,上下文长度迅速从段落 (BERT/GPT-1 的 512 个 tokens) 扩展到页面 (GPT-2 和 GPT-3 分别为 1024/2048 个 tokens), 再到书籍 (Claude 的 128k tokens), 甚至书籍集合 (Gemini 的 1-10M tok...
