
选自arXiv
作者:Peihao Zhu等
机器之心编译
参加:熊猫、杜伟
图画组成是近来十分抢手的研讨范畴,世界各地的研讨者为这一使命提出了许多不同的结构和算法,只为能组成出更具真实感的图画。阿卜杜拉国王科技大学和卡迪夫大学的研讨者近来提出了一种新改进计划 SEAN,能够分区域对组成图画的内容进行操控和修改(比方只替换眼睛或嘴),一起还能得到更灵敏更具真实感的组成成果。有了这个技能,修图换眼睛时不必再忧虑风格不搭了。
论文地址:https://arxiv.org/abs/1911.12861
导言
本论文要处理的问题是运用条件生成对立网络(cGAN)生成组成图画。详细来说,本文要完结的详细使命是运用一个切割掩码操控所生成的图画的布局,该切割掩码的每个语义区域都具有标签,而网络能够精确的经过这些标签为每个区域「增加」具有真实感的风格。
虽然之前现已有一些针对该使命的结构了,但当时最佳的架构是 SPADE(也称为 GauGAN)。因而,本论文的研讨也是以 SPADE 为起点的。
详细来说,本文针对原始 SPADE 的两个缺点提出了新的改进计划。
榜首,SPADE 仅运用一种风格代码来操控一张图画的全体风格,这不足以完成高质量的组成或对细节的操控。此外,SPADE 不答应在切割掩码的不同区域运用不同风格的输入图画。因而,榜首个改进计划是完成对每个区域的独自操控,即新提出的架构每个区域(即每个区域实例)都能运用一种风格图画作为输入。
第二,研讨者以为仅在网络的开端处注入风格信息不是个很好的挑选。针对这一问题,本文提出了一种新的归一化构建模块 SEAN(semantic region-adaptive normalization),其能够正常的运用风格输入图画为每个语义区域创立空间上不同的归一化参数。本研讨有一个很重要的方面,即空间上不同的归一化参数取决于切割掩码自身以及风格输入图画。
本文在几个高难度的数据集(CelebAMaskHQ、CityScapes、ADE20K 和研讨者新建的 Facades 数据集)上对新提出的办法来进行了广泛的试验评价。定量试验方面,研讨者依据 FID、PSNR、RMSE 和切割功能等多种方针对新办法来进行了评价;定性试验方面,研讨者展现了可经过视觉调查进行评价的样本。
SEAN 的优势
首要,SEAN 能提高条件 GAN 组成的图画的质量;
其次,SEAN 能改进每个区域的风格编码,使得重建的图画能够在 PSNR 和视觉调查方针上与输入的风格图画更类似;
最终,SEAN 答运用户为每个语义区域挑选一种不同风格的输入图画。这能使图画修改得到质量更高的成果,并供给比当时最佳办法更好的操控力。
研讨者运用 SEAN 进行图画组成的详细展现作用可参阅如下视频:
每个区域风格的编码和操控
给定一张输入风格图画及其对应的切割掩码,下面将介绍:1)怎么依据掩码注入每个区域的风格;2)怎么运用注入后的每区域风格代码组成具有相片相同的真实感的图画。
怎么对风格进行编码?
每个区域风格编码器(Per-Region Style Encoder)。为了提取每个区域的风格,本文提出了一种全新的风格编码器网络,其能够一起从输入图画的每个语义区域注入对应的风格代码(见下图 (A) 中的子网络风格编码器)。风格编码器的输出是一个 512×s 维的风格矩阵 ST,其间 s 是输入图画中语义区域的数量。该矩阵的每一列都对应于一个语义区域的风格代码。
新提出的每个区域风格编码器运用了一种「瓶颈」结构来移除输入图画中与风格无关的信息。结合「风格应当独立于语义区域的形状」的先验常识,网络可将网络模块 TConv-Layers 生成的中心特征图(512 个通道)传递经过一个区域上的均匀池化层并将它们约减成 512 维向量的调集。
怎么操控风格?
运用每区域风格代码和切割掩码作为输入,本文提出了一种新的条件归一化技能 SEAN,即语义区域自适应归一化(Semantic Region-Adaptive Normalization)。SEAN 可为相片级真实感的图画组成供给深化细节的操控。类似于已有的归一化技能,SEAN 的工作办法也是调理生成器激活的标准和偏置量。
但不同于一切的已有办法,SEAN 学习到的调理参数一起取决于风格代码和切割掩码。在 SEAN 模块(下图 3)中,首要会依据输入切割掩码,经过向对应的语义区域播送风格代码来生成一个风格映射图(style map)。
图 3:SEAN 归一化。输入是风格矩阵 ST 和切割掩码 M。在上部分,ST 中的风格代码会进行每风格卷积,然后依据 M 将其播送至它们对应的区域,然后得到风格映射图。下部分(浅蓝色层)以与 SPADE 类似的办法仅运用区域信息创立每像素的归一化。
试验设置
网络架构
下图 4(A) 展现了生成器网络的概略,这是依据 SPADE 构建的。类似于 SPADE,这个生成器由多个 SEAN ResNet 模块(SEAN ResBlk)与上采样层构成。图 4(B) 展现了 SEAN ResBlk 的结构,其由三个卷积层构成,而这三个卷积层的标准和偏置量别离由三个 SEAN 模块调理。每个 SEAN 模块有两个输入:一个每区域风格代码调集 ST 和一个语义掩码 M。
图 4:SEAN 生成器。(A)在左图中,风格编码器以一张图画为输入,输出一个风格矩阵 ST。右图的生成器由交织的 SEAN ResBlock 和 Upsample 层构成。(B)SEAN ResBlock 的详细情况。
留意,这两个输入在一开端就会得到调整:输入切割掩码会被下采样到层中特征映射图相同的高度和宽度;来自 ST 的输入风格代码会被运用一个 1×1 的卷积层 A_ij 按每个区域进行改换。研讨者调查到,初始的改换是该架构中不可切割的组分,由于它们可依据每个神经网络层的不同用处对风格代码进行改换。
练习和推理
本文将练习进程结构成了一个图画重建问题。也就是说,风格编码器的练习方针是依据对应的切割掩码注入输入图画的每区域风格代码。生成器网络的练习方针是运用提取出的每区域风格代码和对应的切割掩码作为输入,重建输入图画。遵循 SPADE 和 Pix2PixHD 的衡量办法,本文也经过一个整体丢失函数来衡量输入图画和重建图画之间的差异。这个整体丢失函数由三个丢失项构成:条件对立丢失、特征匹配丢失、感知丢失。有关这些丢失的概况请参阅原论文。
推理进程则是以恣意切割掩码为掩码输入,并经过为每个语义区域挑选一个不同的 512 维风格代码为风格输入来完成对每个区域的风格操控。这能完成多种不同的高质量的图画组成运用。
成果
下面评论对新提出的结构的定量和定性研讨成果。
该结构和 SPADE 相同在生成器和判别器中运用了 Spectral Norm。生成器中的 SEAN 还会履行额定的归一化。生成器和判别器的学习率别离设为 0.0001 和 0.0004。优化器则挑选了 β_1 = 0, β_2 = 0.999 的 ADAM。一切的试验都是在 4 块 Tesla v100 GPU 上练习的。为了取得更好的体现,研讨者在 SEAN 归一化模块中运用了批归一化的一种同步化版别。
试验中运用了这些数据集:1)CelebAMask-HQ,其间包括 CelebAHQ 人脸图画数据集的 30000 个切割掩码,分为 19 种不同的区域类别;2)ADE20K,包括 22210 张标记了 150 种不同区域标签的图画;3)Cityscapes,包括 3500 张标记了 35 种不同区域标签的图画;4)Facades 数据集,运用了从谷歌街景搜集的 30000 张建筑物正面图画。
成果比较运用了以下现已建立的方针:1)由均匀交并比(mIoU)和像素精确度(accu)衡量的切割精确度;2)FID;3)峰值信噪比(PSNR);4)结构类似度(SSIM);5)均方根差错(RMSE)。
定量比较
为了与 SPADE 进行公正的比较,本文陈述了当仅运用一张风格图画时的重建体现。研讨者为每个数据集都练习了一个网络,并在下表 1 和表 2 中给出了成果。
表 1:重建质量的定量比较。在一切数据集上,新提出的办法在 SSIM、RMSE、PSNR 这些类似度方针上都优于当时抢先的办法。SSIM 和 PSNR 方针是越高越好。RMSE 方针是越低越好。
表 2:由 mIoU 和 accu 衡量的语义切割体现以及由 FID 衡量的生成体现的定量比较。在一切数据集上,新提出的办法在 FID 方针上都更优。
定性成果
下图 6 展现了在四个数据集上得到的图画示例。能够显着看到新办法所得成果的质量更好。
图 6:在 CelebAMask-HQ、ADE20K、CityScapes 和 Fa ades 数据集上的语义图画组成成果的比较。比较的办法有 Pix2PixHD、SPADE 和新提出的办法。
研讨者也试验了运用新提出的每区域风格编码来修改图画。下图 1 和图 2 是运用每区域风格操控的迭代式图画修改成果,图 5 是风格插值的成果,图 7 是风格穿插的成果。
图 1:经过风格图画和切割掩码操控的人脸图画修改。(a)源图画;(b)源图画的重建成果,其间右下小图是切割掩码。(c-f)四种不同的修改成果,榜首行的图画供给了对应的风格信息,右下小图给出了切割掩码中被修改的部分。
图 2:在 ADE20K 数据集上的修改序列。(a)源图画;(b)源图画的重建成果。(c-f)运用上一行图画的风格进行修改的成果。
图 5:风格插值。运用源图画的掩码,依据两张不同的风格图画(Style1 和 Style2)进行重建。其间给出了对每区域风格代码的插值成果。
图 7:风格穿插。除了风格插值(最下一行),还能够经过为每个 ResBlk 挑选不同的风格来履行穿插。图中的上面两行给出了两种不同的过渡。每张图上方的蓝色和橙色色条说明晰 6 个 ResBlk 所用的风格。
SEAN 生成器的变体(操控变量试验)
下表 3 给出了新提出架构的不同变体以及之前的研讨在 CelebAMask-HQ 数据集上的成果比较。
表 3:在 CelebAMask-HQ 数据集上的操控变量试验。
本文为机器之心编译,转载请联络本大众号取得授权。
------------------------------------------------
参加机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报导:content@jiqizhixin.com
广告 & 商务协作:bd@jiqizhixin.com



