stride-8 网络与 stride-4 的精度一样高,更容易得到大的接受野. 3.
此外,还可视化了图3(b)(c)中的stride-8特征图,这表明ViT的特征是模糊和粗糙的。相比之下,作者的特征更加细粒度,并且具有更多的局部边缘和纹理。 (c) Stride-8 特征图。与 ViT 相比,ViT-Adapter 能够捕捉到更多高频信号,并生成具有丰富边缘和纹理的更细粒度特征,这对密集预测大有帮助。
另外三个样本将特征映射为stride-8、stride-16和stride-32的分辨率。所有级均由Transformer组成。每个块包含Self-Attention层,后面跟着一个MLP层。