Vision Transformer这两年
作者|Maximilian Schambach OneFlow编译 翻译|胡燕君、杨婷 在NLP领域取得巨大成功后,Transformer架构在计算机视觉方面的作用日渐凸显,成为越来越普遍的CV工具。自2020年10月Vision Transformer模型推出以来 ,人们开始高度关注Transformer模型在计算机视觉上的应用。 图 1:各类Vision Transformer模型的推出时间(此处以论文在arXiv平台上的发表时间为准) 恰逢Vision Transformer推出两周年之际,借此机会我们对其稍作介绍,并讨论这两年来发展出的多种Vision Transformer模型变体以及Transformer在计算机视觉应用方面面临的各种挑战。 本文由OneFlow社区编译。 1 自注意力机制和Transformer架构 从NLP说起,2017年,Attention is all you need一文提出了Transformer架构( Vaswani et al. 2017 )。Transformer架构的本质是一个序列到序列模型:输入的是一种称为token的序列,tok...
