Vision Transformers
Transformers in Vision: A Survey
二话不说先谷歌 vision transformer survey
,果然找到 2021 年一篇引用 1796 次的文章:
[2101.01169] Transformers in Vision: A Survey
摘要
……Transformer 的主要优点:
- 能够建立输入序列元素之间的长距离依赖关系,并且与循环网络相比,支持序列的并行处理。
- 不同于卷积网络,Transformer 在设计中所需的归纳偏置较少,并且天然适合作为集合函数。
- ……处理多模态……,并且在非常大的容量网络和海量数据集上展示了出色的可扩展性。
……本调查……对计算机视觉领域中 Transformer 模型的全面概述。
- ……基本概念,即自注意力、大规模预训练和双向编码。
- ……在视觉领域的广泛应用,包括流行的识别任务(例如图像分类、目标检测、动作识别和分割)、生成建模、多模态任务(例如视觉 - 问题回答、视觉推理和视觉定位)、视频处理(例如活动识别、视频预测)、低级视觉(例如图像超分辨率、图像增强和着色)以及 3D 分析(例如点云分类和分割)。
- ……比较了流行技术在架构设计和实验价值方面的各自优势和局限性。
- ……开放性研究方向……和可能……的展望。