超分辨率 GAN (SRGAN)

SRGAN 是由 Twitter 的研究人员提出的。这种架构的动机是在我们放大图像时从图像中恢复更精细的纹理，这样它的质量就不会受到影响。还有其他方法，例如双线性插值，可用于执行此任务，但它们会导致图像信息丢失和平滑。在这篇论文中，作者提出了两种架构，一种没有 GAN（SRResNet），一种有 GAN（SRGAN）。得出的结论是，与 SRGAN 相比，SRGAN 具有更好的准确性并且生成的图像更令人赏心悦目。

架构：与 GAN 架构类似，超分辨率 GAN 也包含生成器和判别器两部分，其中生成器根据概率分布生成一些数据，判别器尝试猜测来自输入数据集或生成器的天气数据。生成器然后尝试优化生成的数据，以便它可以欺骗鉴别器。以下是生成器和鉴别器的架构细节：

SR-GAN 架构

生成器架构：

生成器架构包含残差网络而不是深度卷积网络，因为残差网络易于训练并且允许它们更深以产生更好的结果。这是因为残差网络使用了一种称为跳过连接的连接。

有 B 个残差块 (16)，源自 ResNet。在残差块内，使用了两个卷积层，小 3×3 内核和 64 个特征图，然后是批量归一化层和 ParametricReLU 作为激活函数。

输入图像的分辨率通过两个经过训练的子像素卷积层增加。

该生成器架构还使用参数 ReLU 作为激活函数，而不是像 LeakyReLU 那样使用固定值作为整流器 (alpha) 的参数。它自适应地学习整流器的参数并以可忽略不计的额外计算成本提高准确性

在训练期间，高分辨率图像 (HR) 被下采样为低分辨率图像 (LR)。生成器架构然后尝试将图像从低分辨率上采样到超分辨率。然后将图像传递给鉴别器，鉴别器尝试区分超分辨率和高分辨率图像并生成对抗性损失，然后反向传播到生成器架构中。

鉴别器架构：

鉴别器的任务是区分真实的 HR 图像和生成的 SR 图像。本文中使用的鉴别器架构类似于 DC-GAN 架构，以 LeakyReLU 作为激活。该网络包含八个卷积层，具有 3×3 个滤波器内核，从 64 个内核增加到 512 个内核，增加了 2 倍。每次特征数量增加一倍时，都会使用跨步卷积来降低图像分辨率。得到的 512 个特征图之后是两个密集层和应用在它们之间的 LeakyReLU 和最终的 sigmoid 激活函数，以获得样本分类的概率。

损失函数：

SRGAN 使用永久损失函数(L _SR )，它是两个损失分量的加权和：内容损失和对抗性损失。这种损失对于生成器架构的性能非常重要：

内容损失：我们在本文中使用两种类型的内容损失：SRResnet 架构的像素级 MSE 损失，这是图像超分辨率最常见的 MSE 损失。然而，MSE 损失无法处理图像中的高频内容，导致产生过于平滑的图像。因此，论文的作者决定使用不同 VGG 层的损失。这个 VGG 损失是基于预训练的 19 层 VGG 网络的 ReLU 激活层。该损失定义如下：

简单的内容丢失

VGG 内容丢失

Adversarial Loss ：对抗性损失是一种损失函数，它通过使用经过训练以区分高分辨率和超分辨率图像的鉴别器，迫使生成器图像更类似于高分辨率图像。

因此，该架构的总内容损失将为：

结果：

作者在三个广泛使用的基准数据集上进行了实验，这些数据集称为 Set 5、Set 14 和 BSD 100。这些实验在行和列的 4 倍上采样上进行。

在上面的层中，MSE 意味着我们将简单的均方像素误差作为内容损失，VGG22 表示在 VGG19 网络中的第 2 个最大池化层之前通过第 2 次卷积（激活后）获得的特征图，我们使用上述公式计算 VGG 损失.因此，这种损失是低级特征的损失。类似地，VGG 54 使用在 VGG19 网络中的第 5 个最大池化层之前的第 4 次卷积（激活后）获得的特征图上计算的损失。这代表来自更深网络层的更高级别特征的损失，更有可能专注于图像的内容

上图显示了 BSD100 数据上的 MOS 分数

一套。对于每种方法，评估了 2600 个样本（100 张图像 × 26 个评分者）。均值显示为红色标记，其中 bin 以值 i 为中心。

本文的主要贡献是：

本文通过 PNSR（峰值信噪比）和 SSIM（结构相似性）测量的上采样 (4x) 产生了最先进的结果，其中 16 块深度 SRResNet 网络针对 MSE 进行了优化。
作者提出了一种新的超分辨率 GAN，其中作者将基于 MSE 的内容损失替换为在 VGG 层上计算的损失
SRGAN 能够生成最先进的结果，作者通过对三个公共基准数据集的广泛平均意见得分 (MOS) 测试进行了验证。

参考资料：

SRGAN纸