您现在的位置是:首页 > 文章详情

苹果开源 FastViT:快速卷积 Transformer 的混合视觉架构

日期:2023-08-16点击:518

苹果此前在论文《FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization》中提出的 FastViT 架构已正式开源。

论文地址:https://arxiv.org/pdf/2303.14189.pdf
代码仓库:https://github.com/apple/ml-fastvit

FastViT 有机地结合了 CNN 和 Transformer 的优势,无论在精度或者运行效率上均有了稳定的提升。FastViT 引入了一种新的 Token 混合算子,命名为 RepMixer。从名字来看,它结合了结构重新参数化技术。该算子的作用原理是通过消除网络中的 skip connection 来降低内存访问成本。

FastViT 整体框架图:

实验结果表明,FastViT:

  • 在移动设备上的速度比混合 Transformer 架构 CMT 快 3.5 倍
  • 在 ImageNet 数据集上的精度相同,但速度比 EfficientNet 快 4.9 倍且比 ConvNeXt 快 1.9 倍
  • 在相似的延迟下,FastViT 在 ImageNet 上的 Top-1 精度比 MobileOne 高出 4.2%

参考:https://mp.weixin.qq.com/s/poJur-vOtU2-h2tUe89shAhttps://mp.weixin.qq.com/s/uqcWy4sx1NQuqOplsGDUlg

原文链接:https://www.oschina.net/news/254037
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章