从layer-5 pre-pool到layer-5 post-pool:这一步的实现是通过池化大小为(3,3)进行池化,然后△x=0、1、2,△y=0、1、2,这样我们可以得到对于每一张特征图,我们都可以得到 以上面表格中的sacle1为例,layer-5 pre-pool大小是17*17,经过池化后,大小就是5*5,然后有3*3张结果图(不同offset得到的结果)。 从layer-5 post-pool到classifier map(pre-reshape):我们知道在训练的时候,从卷积层到全连接层,输入的大小是4096*(5*5),然后进行全连接,得到4096*( 我们从layer-5 post-pool到第六层的时候,如果把全连接看成是卷积,那么其实这个时候卷积核的大小为5*5,因为训练的时候,layer-5 post-pool得到的结果是5*5。 因此在预测分类的时候,假设layer-5 post-pool 得到的是7*9(上面表格中的scale 3),经过5*5的卷积核进行卷积后,那么它将得到(7-5+1)*(9-5+1)=3*5的输出。
但是,它们的适用性通常仅限于4层协议以下(TCP和更低层的协议),而对于建立在TCP之上的第5层协议(layer-5 protocols:L5Ps)则不适用。
HiT-fl:仅使用特征层的对比匹配 HiT-4-level:除基础 HiT 的 2 个层次外,新增 2 个层次的对比匹配,分别是(Video Encoder-Layer-2,Text Encoder Layer Encoder Layer-9) HiT-3-level-b:除基础 HiT 的 2 个层次外,新增 1 个层次的对比匹配,对应(Video Encoder-Layer-2,Text Encoder Layer
有实验结果可以得出,layer-5的特征一致性中,眼和鼻子的数值较低,说明眼和鼻子比其他部分,有更强的相关性,这也说明深度网络能够隐式地建立对应关系。