基于自编码器的图像生成算法研究
发布时间:2020-12-15 13:21
近年来,图像逐渐成为信息传播的主要载体,跨域图像生成也渐渐被人们所关注,深度学习的发展为跨域图像生成提供了技术支撑。但是,早期的工作往往需要依靠成对的数据集,而在现实生活中难以找到一对一成对的图像,因此这在一定程度上限制了跨域图像生成任务的泛化能力,并且难以满足实际生活的需要。此外,这些跨域图像生成工作大都只能实现一对一的图像生成,无法满足一对多的生成需求。本文聚焦于以上问题,致力于构建一种无监督(不提供成对数据)的一对多图像生成算法。针对以上问题,本文提出了一种基于自编码的跨域图像生成算法。假定跨域图像拥有独立的风格属性和一致的内容属性,首先利用编码器对跨域图像进行编码得到其内容属性和风格属性,对于独立的风格属性而言,采用变分自编码器来进行拟合,使其尽可能满足预先设定的高斯分布;对于一致的内容属性而言,采用对抗自编码器使其域标签和类别标签进行对抗学习,以此来拟合内容属性的先验分布。最后将拟合好的风格属性和内容属性进行随机抽样,并以此进行拼接实现跨域图像生成。本文算法在MNIST、SVHN、VIS-NIR和Edges-Shoes四个数据集上进行了有监督和无监督实验,充分验证了本文算法的...
【文章来源】:北方民族大学宁夏回族自治区
【文章页数】:46 页
【学位级别】:硕士
【部分图文】:
卷积神经网络原理
北方民族大学2020届硕士学位论文第二章相关理论和技术-13-此出现了对抗自编码器(AdversarialAuto-Encoder,AAE)。对抗自编码器在网络中使用了对抗学习,和生成对抗网络判别真实数据与生成数据不同,对抗自编码器判别的是一个编码向量z。具体结构如图2-11所示。上面部分为一个普通的自编码器结构,输入一张图像,生成一个服从概率分布q(z)的潜在向量,然后通过解码器重构出新的图像。下面部分充当判别器,首先判别器判别输入的潜在向量z是服从来自真实图像的概率分布还是服从生成图像的概率分布,然后反过来训练充当生成器的编码器,通过生成器与判别器的不断对抗相互学习,编码器能够生成更加真实的图像。图2-13对抗自编码器结构[30]2.4解纠缠学习解纠缠学习(Learningdisentangledrepresentations)是Bengio等人提出的一种特殊的表示学习方式。原始数据空间中的数据是纠缠在一起的,通过解纠缠学习可以将原始数据迁移到另一个特征空间,在这个空间中原始纠缠在一起的数据要素是可以彼此分离的。例如在人脸数据中如图2-14左所示,眼睛、鼻子、头发等因素就是纠缠在一起的,通过编码器变换到新的特征空间后,就可以得到各个因素的分离表示。2-14展示了斑马转换成马的效果,通过解纠缠学习可以将内容属性与风格属性分离开来。
北方民族大学2020届硕士学位论文第二章相关理论和技术-16-图2-16pix2pix网络结构[21](2)无监督下的单模态生成为了解决有监督图像生成存在的问题,之后又出现了无监督下的单模态生成,一些比较经典的工作有DualGAN、CycleGAN、DiscoGAN、UNIT等。其中DualGAN、CycleGAN和DiscoGAN在传统生成对抗网络的思想上引入循环不变性,通过构建循环损失实现了在不提供成对数据的情况图像的一对一生成。UNIT则将GAN和VAE的思想结合,通过在网络结构中引入权值共享来建立跨域数据的联合概率分布最终实现了非配对数据下的一对一图像生成。图2-15展示了DualGAN的网络结构,下面将具体介绍。Dual表示为成对,最初应用在自然语言翻译中,DualGAN在图像生成中引入对偶思想实现了无监督的图像生成。在DualGAN中有两组生成器和判别器,先输入一张草图域U的图像u,通过生成器GA得到一张视图域V的图片GA(u,z);然后将生成的视图域V的图片GA(u,z)和真实视图域V中的图片送进判别器DA中进行判别;接着将生成器GA生成的视图域图片GA(u,z)送入第二个生成器GB重新生成草图域图片GB(GA(u,z),z`),最后构建重构损失使生成的草图域图片GB(GA(u,z),z`)和原始输入的草图u一致,这样就保证了不提供成对数据也能实现图像生成。这些工作虽然能够实现较好的图像生成,但都是建立在牺牲多样性输出的前提下。图2-17DualGAN网络结构[25]2.5.2多模态生成
【参考文献】:
期刊论文
[1]深度学习应用技术研究[J]. 毛勇华,桂小林,李前,贺兴时. 计算机应用研究. 2016(11)
[2]无人驾驶面向未来的驾驶辅助技术[J]. 忻文. 汽车与配件. 2013(09)
[3]深度学习研究综述[J]. 孙志军,薛磊,许阳明,王正. 计算机应用研究. 2012(08)
本文编号:2918338
【文章来源】:北方民族大学宁夏回族自治区
【文章页数】:46 页
【学位级别】:硕士
【部分图文】:
卷积神经网络原理
北方民族大学2020届硕士学位论文第二章相关理论和技术-13-此出现了对抗自编码器(AdversarialAuto-Encoder,AAE)。对抗自编码器在网络中使用了对抗学习,和生成对抗网络判别真实数据与生成数据不同,对抗自编码器判别的是一个编码向量z。具体结构如图2-11所示。上面部分为一个普通的自编码器结构,输入一张图像,生成一个服从概率分布q(z)的潜在向量,然后通过解码器重构出新的图像。下面部分充当判别器,首先判别器判别输入的潜在向量z是服从来自真实图像的概率分布还是服从生成图像的概率分布,然后反过来训练充当生成器的编码器,通过生成器与判别器的不断对抗相互学习,编码器能够生成更加真实的图像。图2-13对抗自编码器结构[30]2.4解纠缠学习解纠缠学习(Learningdisentangledrepresentations)是Bengio等人提出的一种特殊的表示学习方式。原始数据空间中的数据是纠缠在一起的,通过解纠缠学习可以将原始数据迁移到另一个特征空间,在这个空间中原始纠缠在一起的数据要素是可以彼此分离的。例如在人脸数据中如图2-14左所示,眼睛、鼻子、头发等因素就是纠缠在一起的,通过编码器变换到新的特征空间后,就可以得到各个因素的分离表示。2-14展示了斑马转换成马的效果,通过解纠缠学习可以将内容属性与风格属性分离开来。
北方民族大学2020届硕士学位论文第二章相关理论和技术-16-图2-16pix2pix网络结构[21](2)无监督下的单模态生成为了解决有监督图像生成存在的问题,之后又出现了无监督下的单模态生成,一些比较经典的工作有DualGAN、CycleGAN、DiscoGAN、UNIT等。其中DualGAN、CycleGAN和DiscoGAN在传统生成对抗网络的思想上引入循环不变性,通过构建循环损失实现了在不提供成对数据的情况图像的一对一生成。UNIT则将GAN和VAE的思想结合,通过在网络结构中引入权值共享来建立跨域数据的联合概率分布最终实现了非配对数据下的一对一图像生成。图2-15展示了DualGAN的网络结构,下面将具体介绍。Dual表示为成对,最初应用在自然语言翻译中,DualGAN在图像生成中引入对偶思想实现了无监督的图像生成。在DualGAN中有两组生成器和判别器,先输入一张草图域U的图像u,通过生成器GA得到一张视图域V的图片GA(u,z);然后将生成的视图域V的图片GA(u,z)和真实视图域V中的图片送进判别器DA中进行判别;接着将生成器GA生成的视图域图片GA(u,z)送入第二个生成器GB重新生成草图域图片GB(GA(u,z),z`),最后构建重构损失使生成的草图域图片GB(GA(u,z),z`)和原始输入的草图u一致,这样就保证了不提供成对数据也能实现图像生成。这些工作虽然能够实现较好的图像生成,但都是建立在牺牲多样性输出的前提下。图2-17DualGAN网络结构[25]2.5.2多模态生成
【参考文献】:
期刊论文
[1]深度学习应用技术研究[J]. 毛勇华,桂小林,李前,贺兴时. 计算机应用研究. 2016(11)
[2]无人驾驶面向未来的驾驶辅助技术[J]. 忻文. 汽车与配件. 2013(09)
[3]深度学习研究综述[J]. 孙志军,薛磊,许阳明,王正. 计算机应用研究. 2012(08)
本文编号:2918338
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2918338.html