图像转换技术[29]来对CNN内部和整个CNN的特征映射进行下采样: 考虑任意大小为S × S × C1的中间特征映射X,将子特征映射序列切片为:2.Yolov5-SPD网络结构图只需更换YOLOv5 stride 有7个这样的替换实例,因为YOLOv5在主干中使用5个stride-2卷积层对特征图进行25倍的下采样,在neck使用2个stride-2卷积层。
3)将下采样模块的skip路径中的stride-2 $1\times 1$卷积替换为stride-2 $2\times 2$平均池化和non-strided $1\times 1$卷积。 4)去掉stem中的stride-2 $3\times 3$最大池化层,在下个bottleneck的首个$3\times 3$卷积中进行下采样。
SpaceToDepth Stem ResNet50 stem 由一个 stride-2 conv7×7 和一个最大池化层组成。ResNet-D 将 conv7×7 替换为三个 conv3×3 层。 Anti-Alias Downsampling (AA) stride-2 卷积被 stride-1 卷积替换,然后是一个 3×3 的步长为 2的blur filter。
SegModule:是一个CNN网络,以7 x 7 stride-2 conv层开始,后面跟着几个标准剩余单元。然后,使用双线性上采样层来恢复分辨率,并使用1×1转换层来预测掩模结果。
具体来说,P6在C5上采用3×3 stride-2卷积生成,P7在P6上采用ReLU后加3×3 stride-2 conv计算。所有特征金字塔的通道数为256。
然后,我们通过以下方法逐渐降低特征的分辨率: 其中 Ei (i =1, 2, …, N)表示一个 stride-2 卷积和 stride-1 卷积的堆栈。
在网络设计方面,生成器的结构采用当下比较流行的框架:包含2个stride-2 的卷积块, 几个residualblocks 和两个0.5-strided卷积完成上采样过程。
传统的 stride-2 下采样会将数量减少至 1/4,而 AFF 更为灵活的点云结构则对 x% 的值没有限制。实验中,作者们展示了采取 1/4 和 1/5 下采样率的模型的训练结果。
该网络由7个stride-2卷积以及紧随其后的1 x 1卷积和 6 ∗(N -1)个输出通道组成,这些对应于每个源的3个欧拉角和3D平移。全局平均值应用于所有空间位置的合成预测。
feature_size, feature_size, kernel_size=3, stride=1, padding=1) # "P6 is obtained via a 3x3 stride , kernel_size=3, stride=2, padding=1) # "P7 is computed by applying ReLU followed by a 3x3 stride
另一方面,并没有像之前的ViTs那样简单地使用stride-4卷积,而是遵循HRNet中的设计,使用2个stride-2 convn-bn-relu块作为一个更强的下采样来提取c通道特征,并保留更多的信息
然后,使用一堆 stride-2 3×3 卷积将通道数量加倍并减小特征图的大小。最后,最后应用多个 1×1 卷积将特征图投影到 D 维度。
(c) The down-sampling projection 1×11\times 1 with stride-2 convolution was replaced with a 3×33\times 3 stride-2 convolution to preserve information.
参考表格. [4] - 两个 Inception 模块间不再使用 pooling 层;而在模块 3c 和 4e 中的 concatenation 前采用了 stride-2 conv/pooling 层
(c) The down-sampling projection 1×11\times 1 with stride-2 convolution was replaced with a 3×33\times 3 stride-2 convolution to preserve information.
采用两个并行的步长 stride-2 操作. ? 4. Inception V3 网络结构. ? 采用 Figure 10 中的方法降低不同 Inception 模块间的网格尺寸.