paper链接https://arxiv.org/abs/1711.10485, code链接https://github.com/taoxugit/AttnGAN, 作者的homepage https://sites.google.com/view/taoxu
本文给出的是CVPR 2018的文章《AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks》。它是StackGAN++的后续工作。
对GAN的相关理解:https://blog.csdn.net/zlrai5895/article/details/80648898
前作StackGAN的工作:http://blog.csdn.net/zlrai5895/article/details/81292167
1、文章要做的事情(Text to Image Synthesis): 输入:text 输出:image
2、通过引入attentional generative network,AttnGAN可以通过关注自然语言描述中的相关单词来合成图像不同子区域的细粒度细节。此外,提出了一种deep attentional multimodal similarity model来计算细粒度图像-文本匹配损失,用于生成器的训练。
它首次表明 the layered attentional GAN 能够自动选择单词级别的condition来生成图像的不同部分。
本次实验使用的数据集是加利福尼亚理工学院鸟类数据库-2011(CUB_200_2011)。 文章的主要思想是将生成256x256图像的文图转换成先生成64x64,然后再生成128x128,最后再生成256x256的问题(与stackGAN类似,分多步),从低分辨率的图像生成高分别率图像的过程中,分别利用低分辨率的图片信息和word-context产生下一状态的图片,为了在让最后生成的256x256大小的图像与文本的语义一致,作者应用了文本图像检索的方法将生成的图像与原始的文本之间度量他们的相似性(分别从word层面和sentence层面)。
1.判别器
思考一下究竟为什么我们需要x,但是x(0)并没有出现在h(1)或者x(1)中?
原因就是训练。在学习阶段判别器D训练采用的是缩小尺寸的原始标注图片。这样将会使得生成器G更好的从h的输入生成x。由BP的规则,这将是的F函数更好的生成隐藏的上下文,这样就保证了每一个阶段的生成都能产生一些有意义的结果。(说白了就是我们判别器判别的时候会有原始的模糊到清晰像素图去监督整个训练的过程)。
2.深层注意多模态相似性模型(DAMSM)
虽然有多个判别器去让这个系统更加优化,但是我们还是不能有个客观的概念:是否标注中的每一个词都被正确的表示在生成的图片中?
为了高效的解决这个问题,作者预先训练了一个被他们称为“专家”的打分网络-DAMSM。这个模型的输入是图片和图片对应的标注词向量。输出就是这两个之间的相似性。
具体细节如下: 采用标准的卷积神经网络,图片被转换为了一系列特征图,每一个特征图表示一些概念或者图上的子区间。 特征图的维度也就和词向量的维度一样,这样方便于计算相似度。 根据标题中的每个标记,将注意力放在特征图上,以计算它们的加权平均值。这个注意力向量实际上代表了图像对标记的抽象。 最后,DAMSM被训练来最小化上述注意向量(单词的可视化描述)和单词嵌入(单词的文本含义)之间的区别。基本上是想让图像的绿色部分尽可能的“绿色” 一旦DAMSM在数据集上得到了足够的训练,它就可以与步进的鉴别器一起使用,为AttnGAN提供一个丰富的目标来优化。