当前位置: 首页 > 图灵资讯 > 技术篇> 注意力机制助力图像恢复网络问鼎

注意力机制助力图像恢复网络问鼎

来源:图灵教育
时间:2023-06-09 10:11:26

自注意机制帮助图像恢复网络获胜 SOTA!mp.weixin.qq.com/s/cggddzw6NlYZRizpalbPXw

注意力机制助力图像恢复网络问鼎_锚点

注意力机制助力图像恢复网络问鼎_建模_02

Title:Efficient and Explicit Modelling of Image Hierarchies for Image RestorationPDF:https://arxiv.org/pdf/2303.00748Code:https://github.com/ofsoundof/GRL-Image-Restoration.git

导读

全局、区域和局部范围的特征可以很好地用于神经网络的图像恢复任务。本文提出了一个基于锚点的特征Anchored条纹自注意机制用于实现全球依赖建模,在空间和时间复杂性以及超出区域的建模能力之间取得了良好的平衡;其次,提出了一种新的方法Transformer网络GRL,窗口自注意力和通道注意力通过基于锚点的条纹自注意力机制,明确模拟了图像层次结构在整体、区域和局部范围内的特征。最后,提出的网络应用于七项图像恢复任务,都取得了最先进的效果!

引言

注意力机制助力图像恢复网络问鼎_建模_03

图1. 局部特征(边缘、颜色)和区域特征(粉色框)可以很好地由卷积神经网络组成(CNN)与窗户的自我注意力建模相比。但相比之下,整体特征(青色矩形处)难以有效、清晰地进行特征建模。

图像恢复的目的是从低质量图像中恢复高质量图像,通常是由于图像退化过程(如模糊、采样降低、噪声引入和JPEG由压缩引起的。图像恢复是一个具有挑战性的逆过程,因为在图像退化过程中缺乏重要的内容信息。因此,为了恢复高质量的图像,应充分利用退化图像中显示的丰富信息。

自然图像包括全球、区域和局部范围内的一系列特征,深度神经网络可用于图像恢复。局部特征通常是一些边缘和颜色特征,因为它们只跨度几个像素,所以可以使用小卷积核(例如3 x 3)建模捕获;对于区域特征,它通常跨度数十个像素,该窗口区域特征通常可以覆盖一些小物体和大物体的某些部分(如上图1所示的粉色框架)。由于区域特征范围较大,可选择使用大卷积核进行建模,但其参数和计算量过大、效率低下,因此,带有窗口注意力机制的Transformer将是更好的选择;除局部和区域特征外,一些特征具有全球跨度(图1中的蓝色矩形):主要体现在对称性和多尺度模式的重复性(图1a)、同一尺度的纹理相似性(图1b)、大物体内容结构的相似性和一致性(图1c)。网络需要具备理解全局图像的能力。

可以很好地捕获上述局部和区域特征,但建模具有两个主要挑战:

  • 首先,现有的基于卷积和窗口注意力的图像恢复网络不能通过使用单个计算模块来明确捕获长距离依赖关系。因此,通过重复计算模块逐步传播特征,实现全局图像理解。
  • 其次,随着图像分辨率的不断提高,长距离依赖建模面临着计算负担的挑战。

以上讨论引出了一系列的研究问题:

  • 如何在高维图像中有效地建模图像恢复的整体范围特征?
  • 高维图像恢复如何通过单个计算模块明确建模图像层次结构信息(局部、区域、全局)?
  • 这种联合建模如何在不同的图像恢复任务中带来统一的性能改进?

为此,本文围绕上述三个研究问题逐一提出了解决方案:

首先,本文提出了一种基于锚点的条纹自注意机制,以实现全球依赖建模;其次,提出了新的建模Transformer网络GRL用于在单个计算模块中明确模拟全局、区域和局部范围的依赖;最后,提出GRL网络在七类图中在图像恢复任务中(图像超分,去噪,JPEG压缩伪影去除,马赛克去除,真实图像超分,单图运动去模糊,散焦去模糊)所有表现SOTA!如下图2所示:

注意力机制助力图像恢复网络问鼎_锚点_04

图2. GRL网络在各种图像恢复任务中取得了最先进的结果

方法

注意力机制助力图像恢复网络问鼎_锚点_05

图3. 上图(a)由多个GRL网络架构图展示提出的GRL网络架构图Transformer Layer组成。上图(b)展示了Transformer Layer计算模块由三个子模块组成,用于建模整体、区域和局部图像结构特征,其中基于锚点的条纹自注意机制Anchored Stripe Attention基于窗口的自注意机制,用于建模全局图像结构特征Window Attention V2用于建模区域特征,两个串联3 x 3卷积重新连接一个通道,注意力Channel Attention可用于建模高效的局部特征。上图(c) 展示基于锚点的条纹自注意机制结构图,可以帮助网络捕获超出区域范围(全局)的图像结构特征。

Transformer虽然自注意力机制架构可以很好地建模长期依赖关系,捕捉整体特征信息,但图像tokens大量的计算导致了巨大的计算。为了降低计算的复杂性,可以在窗口区域进行自我注意,但这种基于窗口的自我注意机制仅限于窗口的大小,只能捕获基于窗口区域的上下文特征信息。所以这就导致了一个问题:如何在低计算的情况下建模超出窗口区域的特征?

注意力机制助力图像恢复网络问鼎_像素点_06

图4. 上图(a)和(b)同一张图片来自两个不同的分辨率,(a)中蓝色像素点和(b)中红色像素点取自同一位置。图(c)表示蓝色像素点和其他像素点的注意力图;图(d)表示红色像素点等像素点的注意力。我们可以找到:图(c)和图(d)注意力图非常相似,这就是本文所说的跨尺度相似性。

作者通过上图4发现了跨尺度相似性的原理,因此作者想出了一种方法:注意小分辨率图像(小分辨率图像较少)tokens)为了达到大分辨率图像的自注效果(基于跨尺度相似性原理),大大降低了计算量,有效地建模了超出窗口区域范围的特征(整体特征)。

注意力机制助力图像恢复网络问鼎_建模_07

图5. 自然图像的特征通常以非各向同性的方式出现

为了进一步减少计算量,作者发现了自然图像的另一个重要特征:自然图像的特征通常以非各向同性的方式出现,如上图5所示,图5所示(c)和(d)中间的单个物体,图5(h)图5中的多尺度相似性(e)和(g)中等对称性。因此,全局范围内的各向同性注意力对于捕捉非各向同性图像的特征是多余的。基于此,本文提出了注意力处理方法,包括水平条纹、垂直条纹、平移水平条纹和平移垂直条纹四种模式。水平和垂直条纹的注意机制可以是Transformer在网络中交替使用。通过这种注意力方式,可以在保持全球建模能力的同时,降低全球自注意力计算的复杂性。

因此,锚点的概念结合在一起,提出了锚定条纹的自注意力。对于这种注意力机制,利用引入的锚点在垂直和水平条纹中进行有效的自注意力计算。

实验结果

注意力机制助力图像恢复网络问鼎_像素点_08

单图运动去模糊结果

注意力机制助力图像恢复网络问鼎_像素点_09

虚焦去模糊结果

注意力机制助力图像恢复网络问鼎_像素点_10

颜色和灰度图的降噪结果

注意力机制助力图像恢复网络问鼎_像素点_11

超分辨结果的经典图像

注意力机制助力图像恢复网络问鼎_建模_12

去除灰度图JPEG压缩伪影的结果

注意力机制助力图像恢复网络问鼎_锚点_13

一些消融实验结果

结论

本文受到两个图像属性的启发:跨尺度相似性和各向异性图像特征,提出了长期依赖关系建模图像的有效锚定条纹自注意模块。为此,进一步提出了多功能网络架构GRL用于图像恢复任务,网络可以有效地建模整体、区域和局部范围之间的距离依赖关系,计算量低,但也在主要图像恢复任务中取得了最先进的结果。