ysf
ysf
Published on 2023-07-30 / 6 Visits
0

【论文阅读】An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

论文链接:AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

ViT:把图像看成 patch token 序列,而不是像素网格或卷积特征图,然后直接用标准Transformer Encoder 做全局建模

Motivation

这篇论文的出发点,是重新追问一个在当时几乎被默认接受的前提:图像识别是否一定要依赖卷积网络。Transformer 在自然语言处理中已经证明了自己在大规模预训练和迁移学习中的强大能力,但在视觉领域,主流方法仍然是 CNN,attention 更多只是作为卷积结构的补充,而不是完全替代它。作者因此想验证,能不能像处理文本 token 一样处理图像,把图像切成一系列 patch,直接送入标准 Transformer,而不再依赖卷积主干。

这个问题之所以重要,是因为它关系到视觉模型的基本范式是否需要被改写。CNN 的优势来自很强的视觉归纳偏置,比如局部连接、二维邻域和平移等变性,这些先验在中小规模数据下非常有效;但它们也意味着模型从一开始就被限定在某种特定的结构假设中。作者受到 NLP 成功经验的启发,提出一种相反的思路:也许在数据规模足够大时,模型不一定需要把这些先验手工写进结构里,而是可以通过大规模训练自己学出空间关系和视觉模式。换句话说,这篇论文实际上是在讨论“归纳偏置”和“数据规模”之间的重新平衡。

作者还认为,当时已有的视觉 attention 方法并没有真正回答这个问题。一类方法是把 attention 嵌入 CNN 中,另一类方法虽然试图减少卷积,但通常会设计很多为视觉定制的局部或稀疏注意力模式,以控制计算复杂度。这些方法的共同点是:它们并没有直接检验“一个尽可能标准的 Transformer 是否足以胜任图像识别”。因此,这篇论文的 motivation 不只是提出一个新模型,而是用最简单、最接近 NLP Transformer 的方式,测试纯 Transformer 在视觉中的上限。

更进一步说,这篇论文想证明的并不是“Transformer 天生比 CNN 更适合视觉”,而是一个更具条件性的判断:如果预训练数据和模型规模足够大,那么卷积带来的强归纳偏置未必还是必要优势,甚至可能不如让模型直接从海量数据中学习。后面的实验其实也是围绕这个动机展开的:作者不是只比较最终精度,而是系统比较了不同数据规模下 ViT 与 ResNet 的表现,从而说明 ViT 的关键价值在于大规模训练条件下的可扩展性。

Method

核心思想

这篇论文的核心思想可以用一句话概括:

把图像切成固定大小的 patch,把每个 patch 当作一个 token,线性映射后送入标准 Transformer encoder,并用 [class] token 完成图像分类。

作者把这种模型称为 Vision Transformer(ViT)

它的关键思想不是复杂,而是“极简”:

  • 不引入卷积主干

  • 不设计局部 attention

  • 不设计层次结构

  • 不引入额外的视觉特殊模块

也就是说,它本质上是在回答一个非常干净的问题:
只做最少必要修改,Transformer 能不能直接处理图像?

Experiments