Vision Transformers

Transformers in Vision: A Survey

二话不说先谷歌 vision transformer survey，果然找到 2021 年一篇引用 1796 次的文章：

[2101.01169] Transformers in Vision: A Survey

abstract・ar5iv・pdf (30页)
Salman Khan 等人，提交于 2021-01-04，更新于 2022-01-19.

摘要

……Transformer 的主要优点：
能够建立输入序列元素之间的长距离依赖关系，并且与循环网络相比，支持序列的并行处理。
不同于卷积网络，Transformer 在设计中所需的归纳偏置较少，并且天然适合作为集合函数。
……处理多模态……，并且在非常大的容量网络和海量数据集上展示了出色的可扩展性。
……本调查……对计算机视觉领域中 Transformer 模型的全面概述。
……基本概念，即自注意力、大规模预训练和双向编码。
……在视觉领域的广泛应用，包括流行的识别任务（例如图像分类、目标检测、动作识别和分割）、生成建模、多模态任务（例如视觉 - 问题回答、视觉推理和视觉定位）、视频处理（例如活动识别、视频预测）、低级视觉（例如图像超分辨率、图像增强和着色）以及 3D 分析（例如点云分类和分割）。
……比较了流行技术在架构设计和实验价值方面的各自优势和局限性。
……开放性研究方向……和可能……的展望。

Vision Transformers ​

Transformers in Vision: A Survey ​

Vision Transformers

Transformers in Vision: A Survey