每日消息!超越ConvNeXt！Transformer 风格的卷积网络视觉基线模型Conv2Former-西南兽医网

每日消息!超越ConvNeXt！Transformer 风格的卷积网络视觉基线模型Conv2Former

2022-12-29 19:48:11 来源：

↑ 点击蓝字关注极市平台作者丨科技猛兽编辑丨极市平台

极市导读

(资料图)

本文提出一种卷积调制模块，利用卷积来建立关系，这比注意力机制在处理高分辨率图像时更高效，称为 Conv2Former。作者在 ImageNet 分类、目标检测和语义分割方面的实验也表明，Conv2Former 比以前基于 CNN 的模型和大多数基于 Transformer 的模型表现得更好。>>加入极市CV技术交流群，走在计算机视觉的最前沿

本文目录

1 Conv2Former：Transformer 风格的卷积网络视觉基线模型(来自南开大学，字节跳动)1.1 Conv2Former 论文解读1.1.1 背景和动机1.1.2 卷积调制模块1.1.3 Conv2Former 整体架构1.1.4 实验结果

1 Conv2Former：Transformer 风格的卷积网络视觉基线模型

论文名称：Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition

论文地址：https://arxiv.org/pdf/2211.11943.pdf

1.1.1 背景和动机

以 VGGNet、Inception 系列和 ResNet 系列为代表的 2010-2020 年代的卷积神经网络 (ConvNets) 在多种视觉任务中取得了巨大的进展，它们的共同特点是顺序堆叠多个基本模块 (Basic Building Block)，并采用金字塔结构 (pyramid network architecture)，但是却忽略了显式建模全局上下文信息的重要性。SENet 模块系列模型突破了传统的 CNN 设计思路，将注意力机制引入到 CNN 中以捕获远程依赖，获得了更好的性能。

自从 2020 年以来，视觉 Transformer (ViTs) 进一步促进了视觉识别模型的发展，在 ImageNet 图像分类和下游任务上表现出比最先进的 ConvNets 更好的结果。这是因为与只进行局部建模的卷积操作相比，Transformer 中的自注意力机制能够对全局的成对依赖进行建模，提供了一种更有效的空间信息编码方法。然而，在处理高分辨率图像时，自注意力机制导致的计算成本是相当大的。

为了解决这个问题，一些 2022 年经典的工作试图回答：如何借助卷积操作，打造具有 Transformer 风格的卷积网络视觉基线模型？

比如 ConvNeXt[1]：将标准 ResNet 架构现代化，并使用与 Transformer 相似的设计和训练策略，ConvNeXt 可以比一些 Transformer 表现得更好。

从原理和代码详解FAIR去年的惊艳之作：全新的纯卷积模型ConvNeXt

再比如 HorNet[2]：通过建模高阶的相互作用，使得纯卷积模型可以做到像 Transformer 一样的二阶甚至更高的相互作用。

精度超越ConvNeXt的新CNN！HorNet：通过递归门控卷积实现高效高阶的空间信息交互

再比如 RepLKNet[3]，SLaK[4]：通过 31×31 或者 51×51 的超大 Kernel 的卷积，使得纯卷积模型可以建模更远的距离。

又对ConvNets下手了！详解SLaK：从稀疏性的角度将卷积核扩展到 51×51

到目前为止，如何更有效地利用卷积来构建强大的 ConvNet 体系结构仍然是一个热门的研究课题。

1.1.2 卷积调制模块

本文的关键就是本小节介绍的卷积调制模块。如下图1所示, 对于传统的 Self-attention, 给定一个序列长度为的输入 , 自注意力模块首先通过线性层得到 key , query , 和 value , 其中是通道数。和是输入的空间大小。输出是注意力矩阵 (本质是相似度得分矩阵) :

式中，度量每一对输入令牌之间的关系，可以写成：

为了简单起见，这里省略了 scale factor，自注意模块的计算复杂度随着序列长度N的增加呈二次增长，带来了更高的计算代价。

在卷积调制模块中, 不通过2式计算相似度得分矩阵。具体来说, 给定输入 , 作者使用一个大小为的 Depth-wise 卷积和 Hadamard 积计算输出:

式中, 是 Hadamard 积, 是两个线性层的参数。上述卷积调制操作使每个空间位置与以为中心的平方区域内的所有像素相关, 通道之间的信息交互可通过线性层实现。每个空间位置的输出是正方形区域内所有像素的加权和。

优势：卷积调制模块利用卷积来建立关系，这比注意力机制在处理高分辨率图像时更高效。

图1：卷积调制模块示意图

ConvNeXt 表明，将 ConvNets 的核大小从3扩大到7可以提高分类性能。然而，进一步增加 Kernel 的大小几乎不会带来性能上的提升，反而会在没有重新参数化的情况下增加计算负担。但作者认为，使 ConvNeXt 从大于 7×7的 Kernel Size 中获益很少的原因是使用空间卷积的方式。对于 Conv2Former，当 Kernel Size 从 5×5 增加到 21×21 时，可以观察到一致的性能提升。这种现象不仅发生在 Conv2Former-T (82.8→83.4) 上，也发生在参数为80M+ 的 Conv2Former-B (84.1→84.5) 上。考虑到模型效率，默认的 Kernel Size 大小可以设置为 11×11。

图2：几种模块的空间编码过程比较

权重策略的优化：注意这里作者直接将深度卷积的输出作为权重，对线性投影后的特征进行调制。Hadamard 积之前既没有使用激活层，也没有使用归一化层 (例如 Sigmoid 或 LN 层)，如果像 SE 模块那样加一个 Sigmoid 函数，会使性能降低 0.5% 以上。

1.1.3 Conv2Former 整体架构

如下图3所示，与ConvNeXt 和 Swin Transformer 相似，作者的 Conv2Former 也采用了金字塔架构。总共有4个 Stage，每个 Stage 的特征分辨率依次递减。根据模型大小尺寸，一共设计了5个变体：Conv2Former-N，Conv2Former-T， Conv2Former-S， Conv2Former-B，Conv2Former-L。

图3：Conv2Former 整体架构

当可学习参数数量固定时，如何安排网络的宽度和深度对模型性能有影响。原始的 ResNet-50 将每个 Stage 的块数设置为 (3,4,6,3)。ConvNeXt-T 按照 Swin-T 的模式将 Block 数之比更改为 (3,3,9,3)，并对较大的模型将 Block 数之比更改为 (1,1,9,1)。Conv2Former 的设置如下图4所示。可以观察到，对于一个小模型 (参数小于30M)，更深的网络表现更好。

图4：Conv2Former 的架构配置

1.1.4 实验结果

ImageNet-1K 实验分为两种，一种是直接在 ImageNet-1K 上面训练和验证，另一种是先在 ImageNet-22K 上预训练，再在 ImageNet-1K 上微调和验证。

ImageNet-1K 实验设置

数据集：ImageNet-1K 训练 300 Epochs，ImageNet-1K 验证。

优化器: AdamW, lr batch_size :1024, , weight decay 为 , 数据增强: MixUp, CutMix, Stochastic Depth, Random Erasing, Label Smoothing, RandAug。

ImageNet-22K 实验设置

数据集：ImageNet-22K 预训练 90 Epochs，ImageNet-1K 微调 30 Epochs，ImageNet-1K 验证。

如下图5所示是 ImageNet-1K 实验结果。对于小型模型 (< 30M)，与 ConvNeXt-T 和 Swin-T 相比，Conv2Former 分别有 1.1% 和 1.7% 的性能提升。即使 Conv2Former-N 只有 15M 参数和 2.2G FLOPs，其性能也与具有 28M 参数和 4.5G FLOPs 的 SwinT-T 相同。对于其他流行的模型，Conv2Former 也比类似模型尺寸的模型表现更好。Conv2Former-B 甚至比 EfficientNetB7 表现得更好 (84.4% vs . 84.3%)，后者的计算量是 Conv2Former 的两倍 (37G vs. 15G)。

图5：ImageNet-1K 实验结果

如下图6所示是 ImageNet-22K 的实验结果。作者遵循 ConvNeXt 中使用的设置来训练和微调模型。与 ConvNeXt 的不同变体相比，当模型尺寸相似时，Conv2Former 都表现得更好。此外，我们可以看到，当在更大的分辨率384×384 上进行微调时，Conv2Former-L 获得了比混合模型 (如 CoAtNet 和 MOAT) 更好的结果，Conv2Former-L 达到了 87.7% 的最佳结果。

图6：ImageNet-22K 实验结果

如下图8所示是关于卷积核大小的消融实验结果。在大小增加到 21 × 21 之前，性能增益似乎已经饱和。这个结果与 ConvNeXt 得出的结论截然不同，ConvNeXt 得出的结论是，使用大于 7×7 的 Kernel 不会带来明显的性能提升。

图7：onv2Former 对于大卷积核的泛化效果很好

消融实验1：卷积核大小

如下图8所示是关于卷积核大小的消融实验结果。在 Kernel Size 增加到 21 × 21 之前，性能增益已经饱和。这个结果与 ConvNeXt 得出的结论截然不同，ConvNeXt 得出的结论是，使用大于 7×7 的 Kernel Size 不会带来明显的性能提升。这表明 Conv2Former 的做法能比传统方式更有效地利用大 Kernel 的优势。

图8：卷积核大小，融合策略的消融实验结果

消融实验2：不同融合策略的影响

如下图8, 9所示是关于不同融合策略影响的消融实验结果。除了上述两种融合策略外, 作者还尝试使用其他方法来融合特征映射, 包括在之后添加一个 Sigmoid 函数, 对进行归一化处理, 将的值线性归一化到(0,1]。可以看到, Hardmard 积比其他操作的结果更好。作者发现, 无论是通过 Sigmoid 函数, 还是通过线性的归一化操作, 将线性化到之间, 都会对性能有损害。

直筒架构实验结果

遵循 ConvNeXt 的做法，作者也训练了 Conv2Former 的直筒架构 (Isotropic Models) 版本，结果如下图9所示。作者将 Conv2Former-IS 和 Conv2Former-IB 的块数设置为18，并调整通道数以匹配模型大小。字母 "I" 表示直筒架构，可以看到，对于 22M 参数左右的小型模型，Conv2Former-IS 比 DeiT-S 的表现要好得多。当将模型尺寸放大到 80M+ 时，Conv2Former-IB 达到了 82.7% 的 Top-1 Accuracy，这也比 ConvNeXt-IB 高 0.7%，比 DeiT-B 高0.9%。

图9：直筒架构实验结果

目标检测实验结果

如下图10所示是不同骨干网络，以 Mask R-CNN 为检测头和 Cascade Mask R-CNN 为实例分割头在 COCO 数据集的实验结果。训练策略遵循 ConvNeXt。对于小模型，使用 Mask R-CNN 框架时，Conv2Former-T 比 SwinT-T 和 ConvNeXt-T 获得了约 2% AP 的改进。

图10：目标检测实验结果

语义分割实验结果

如下图11所示是不同骨干网络，以 UperNet 为分割头在 ADE20k 上的实验结果。对于不同尺度的模型，我们的Conv2Former可以优于Swin Transformer和ConvNeXt。

总结

本文试图回答：如何借助卷积操作，打造具有 Transformer 风格的卷积网络视觉基线模型。本文提出一种卷积调制模块，利用卷积来建立关系，这比注意力机制在处理高分辨率图像时更高效。最终的模型称为 Conv2Former，它通过只使用卷积和 Hadamard 积，简化了注意力机制。卷积调制操作是一种利用大核卷积的更有效的方法。作者在 ImageNet 分类、目标检测和语义分割方面的实验也表明，Conv2Former 比以前基于 CNN 的模型和大多数基于 Transformer 的模型表现得更好。

参考

^A ConvNet for the 2020s^HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions^Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs^More ConvNets in the 2020s: Scaling up Kernels Beyond 51 × 51 using Sparsity

公众号后台回复“CNN100”，获取100 篇 CNN 必读的经典论文资源下载

极市干货

技术干货：数据可视化必须注意的30个小技巧总结｜如何高效实现矩阵乘？万文长字带你从CUDA初学者的角度入门实操教程：Nvidia Jetson TX2使用TensorRT部署yolov5s模型｜基于YOLOV5的数据集标注＆训练，Windows/Linux/Jetson Nano多平台部署全流程

#极市平台签约作者#

科技猛兽

知乎：科技猛兽

清华大学自动化系19级硕士

研究领域：AI边缘计算 (Efficient AI with Tiny Resource)：专注模型压缩，搜索，量化，加速，加法网络，以及它们与其他任务的结合，更好地服务于端侧设备。

作品精选

搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了用Pytorch轻松实现28个视觉Transformer，开源库 timm 了解一下！（附代码解读）轻量高效！清华智能计算实验室开源基于PyTorch的视频 (图片) 去模糊框架SimDeblur投稿方式：添加小编微信Fengcall（微信号：fengcall19），备注：姓名-投稿△长按添加极市平台小编觉得有用麻烦给个在看啦~

关键词：实验结果高分辨率

每日消息!超越ConvNeXt！Transformer 风格的卷积网络视觉基线模型Conv2Former

↑点击蓝字关注极市平台作者丨科技猛兽编辑丨极市平台极市导读本文提出一种卷积调制模块，利用卷积来建立关系，这比注意力机制在处理高分辨率2022-12-29

焦点速读：每日互动主力资金持续净流入，3日共净流入2069.58万元

每日互动12月29日DDE大单资金(主力资金)净流入1503 02万元，两市排名162 4903。近3日每日互动主力资金持续流入，3日共净流入2069 58万元。【投2022-12-29

全球观速讯丨华荣股份: 监事会关于2019年限制性股票激励计划首次授予部分第三个解除限售期解除限售条件成就的核查意见

查看原文公告2022-12-29

世界即时：午间公告：尤安设计收购维深规划65%股权

（原标题：午间公告：尤安设计收购维深规划65%股权）证券时报e公司讯，①尤安设计：12月29日，公司、深圳启城与维深规划及原股东王潇文、叶绵2022-12-29

全球时讯：宁夏建材: 宁夏建材关于换股吸收合并及重大资产出售并募集配套资金暨关联交易预案（修订稿）的修订说明公告

股票代码：600449 股票简称：宁夏建材公告编号：2022-076 宁夏建材集团股份有2022-12-29

环球观点：高校师生自制抗原检测试剂盒！网友：学以致用

近日中国石油大学（华东）师生自制抗原检测试剂盒的消息引发热议将实验室作为临时“生产点”为助力学校应对疫情该校化学化工学院曾景斌教授基2022-12-29

每日头条!中国互联网投资(00810.HK)股价异动业务营运维持正常运作

格隆汇12月28日丨中国互联网投资发布公告，董事会注意到，公司股份的价格及成交量近期出现波动。经公司作出于有关情况下属合理的一切查询后，2022-12-28

世界快报:菲律宾多地强降雨造成至少25人死亡

新华社马尼拉12月28日电（记者王晓薇闫洁）菲律宾国家减灾管理委员会28日通报，菲律宾多地连日来强降雨不断并引发洪水，已造成至少25人死亡，2022-12-28

天天快资讯丨57岁刘嘉玲在家过圣诞节，晒豪宅曝光奢华内景，有如欧式宫殿

12月26日晚，刘嘉玲分享了自己在豪宅里拍摄的照片，豪宅布置的圣诞氛围很浓郁，网友都留言直呼这豪宅太艳丽了！57岁的刘嘉玲一身伦敦风穿扮显2022-12-28

世界热资讯！iPhone供应短缺苹果(AAPL.US)跌至2021年6月以来最低水平

智通财经APP注意到，因对关键假日期间iPhone供应的担忧加剧了对苹果(AAPL US)的持续抛售，苹果公司股价收于2021年6月以来的最低水平，截至周二美股2022-12-28

【天天播资讯】九州一轨(688485.SH)IPO拟公开发行3757.3016万股、1月4日初步询价

格隆汇12月27日丨九州一轨发布首次公开发行股票并在科创板上市发行安排及初步询价公告，拟公开发行股份3757 3016万股，占此次公开发行后总股本2022-12-27

每日快播：深中华A：公司电动自行车业务主要集中在华北、华东等地

深中华A(000017)12月27日在投资者关系平台上答复了投资者关心的问题。2022-12-27

焦点信息:苹果官宣：iPhone 13再降200元！旧机型清库存

一年之内，苹果连续第二次官方降价促销，而这一次，促销时间只有四天。　　12月27日，南都湾财社记者从苹果官网获悉，2022年12月30日至2023年12022-12-27

天天观察：37岁宋仲基官宣新恋情！与英国女友现身机场，女方气质不输宋慧乔

12月26日，韩国演员宋仲基被曝新恋情，引发网友热议。宋仲基恋情曝光后，经纪公司也大方承认，并表示两人通过熟人介绍认识，已经稳定交往一年2022-12-27

当前快报:鼎际得: 辽宁鼎际得石化股份有限公司关于独立董事辞职并补选独立董事的公告

证券代码：603255 证券简称：鼎际得公告编号：2022-013 辽宁鼎际得石化股份有限公司关于独立董2022-12-26

环球热议:恒瑞医药董秘回复：感谢您对公司的信任和支持，公司正根据市场需求，积极扩大产能，多措并举扩产保供稳价

恒瑞医药(600276)12月26日在投资者关系平台上答复了投资者关心的问题。投资者：董秘，你好请问公司可以负责我们浙江省跟福建省的医药储备跟医2022-12-26

今日快讯：淅川县气象局发布大雾黄色预警「III级/较重」「2022-12-26」

【来源：淅川县气象局】淅川县气象台2022年12月26日2时05分发布大雾黄色预警信号：预计未来12小时，淅川县城区及所辖乡镇和街道将出现能见度小2022-12-26

焦点简讯:44岁秦海璐全家出游！背万元包素颜显浮肿，患巨婴症儿子超惹眼

近日，有媒体曝光秦海璐和王新军一家，在游乐场游玩的温馨画面，引发网友关注。当天，秦海璐穿着一件灰色大衣，高扎着马尾，打扮干练时尚。儿2022-12-25

天天视讯！她曾是央视一姐，辞职后变成为公司董事长，54岁素颜出镜风采依旧

周涛是大家熟悉的主持人，她于1995年调入央视接替倪萍主持《综艺大观》，曾连续16年担任央视春晚的主持人，被称为央视一姐。2016年周涛离开央2022-12-24

环球热消息：亚足联官方：上赛季亚冠冠军利雅得新月将参加世俱杯

亚足联的官方消息，由于2022年世俱杯将会在2022亚冠赛事结束之前完成，因此亚足联推荐2021年亚冠冠军沙特球队利雅得新月代表亚洲参加2022年世俱杯。2022-12-23

焦点！永泰运（001228）12月23日主力资金净卖出313.06万元

截至2022年12月23日收盘，永泰运(001228)报收于47 17元，下跌3 58%，换手率3 94%，成交量1 02万手，成交额4865 6万元。2022-12-23

全球讯息：异动快报：人人乐（002336）12月23日9点34分触及跌停板

12月23日盘中消息，9点34分人人乐（002336）触及跌停板。目前价格14 24，下跌9 99%。其所属行业一般零售目前下跌。领涨股为天虹股份。该股为新零售2022-12-23

天天观察：延华智能(002178.SZ)拟优化延华医疗研究院股权并间接引入骨干员工及合作伙伴

智通财经APP讯，延华智能发布公告，该公司董事会于2021年9月审议通过对子公司成都延华西部健康信息产业研究院有限公司(以下简称“延华医疗研究2022-12-22

环球微头条丨聚众斗殴是判什么罪？

聚众斗殴罪判定是这样的，具体如下：《刑法》第二百九十二条：聚众斗殴的，对首要分子和其他积极参加的，处三年以下有期徒刑、拘役或者管制；2022-12-22

天天热消息：12月20日格力地产融资净买入3.10亿元，两市排名第1

投顾分析若股价处于低位，融资净买入额为正往往会伴随股价的一波上涨；而若股价处于高位，资金却仍在融资净买入，这时就不宜盲目跟风了。若融2022-12-22

滚动

十三届全国人大常委会第三十二次会议审议多部法律草案

资讯

太贴心了！新城区首张兽药经营许可证发放成功