英伟达推出GAN“超级缝合体”,输入文字草图语义图都能生成逼真照片
原标题:英伟达推出GAN“超级缝线”,通过输入文字草图和语义图即可生成逼真的照片。
小法子奥菲寺
量子报道|微信官方账号QbitAI
GauGAN2之后,英伟达推出了GAN- Poegan 的“超级缝线”。
PoE GAN可以接受各种模式的输入,文字描述,图像分割,草图和样式都可以转换成图片。
并且它可以同时接受上述输入模式的任意两种组合,这就是PoE的含义。
PoE是韩丁在2002年提出的“专家的产品”概念。每个专家(个体模型)被定义为输入空之间的概率模型。
每个单独的输入模态是合成图像必须满足的约束条件,因此满足所有约束的一组图像是每个约束集的交集。
假设每个约束的联合条件概率分布服从高斯分布,用单个条件概率分布的乘积表示交集的分布。
在这种情况下,为了使产品分布在一个区域具有高密度,每个个体分布需要在该区域具有高密度,从而满足每个约束。
PoE GAN侧重于如何将每个输入混合在一起。
PoE氮化镓的设计
PoE GAN的生成器使用全局PoE-Net来混合不同类型输入的变化。
我们将每个模态输入编码成一个特征向量,然后使用PoE将其总结成全局PoE-Net。解码器不仅使用全局PoE-Net的输出,还直接连接分割和草图编码器输出图像。
全球PoE-Net的结构如下。这里,使用一个潜在的特征向量z 0作为样本来使用PoE,然后由MLP处理以输出特征向量w。
在鉴别器部分,作者提出了多模态投影鉴别器,将投影鉴别器扩展到处理多个条件输入。
与计算图像嵌入和条件嵌入之间的单内积的标准投影鉴别器不同,应该计算每个输入模态的内积并相加以获得最终损失。
随机改变输入
PoE可以生成单模输入、多模输入甚至无输入的图片。
当采用单输入模式进行测试时,PoE-GAN的性能优于之前专门为此模式设计的SOTA方法。
比如在分段输入方式上,PoE-GAN优于之前的SPADE和OASIS。
在文本输入方式上,PoE-GAN优于文本转图像模型DF-GAN和DM-GAN+CL。
当使用模式的任何子集作为条件时,PoE-GAN可以生成不同的输出图像。下图显示了PoE-GAN的随机样本,前提是景观图像数据集上有两种模式(文本+分割、文本+草图、分割+草图)。
PoE-GAN甚至可以实现无输入,那么PoE-GAN将成为无条件生成模型。以下样本由PoE-GAN无条件生成。
团队介绍
本文的作者是著名英伟达工程师刘明,他的研究重点是深度生成模型及其应用。NVIDIA Canvas、GauGAN等有趣的产品都是他做的。
第一篇论文是黄浚,毕业于北航空航天大学,获得康奈尔大学学士和博士学位,现就职于英伟达。
论文地址:
https://arv.org/abs/2112.05130
PoE:
https://cs.toronto.edu/~hinton/absps/icann-99.pdf
投影鉴别器:
https://arv.org/abs/1802.05637
- End -
本文为网易新闻网易特别内容激励计划签约账号【qubit】原创内容,未经账号授权,禁止随意转载。
“智能汽车”交流群正在招募!
欢迎关注智能汽车和自动驾驶的朋友加入社区,交流学习行业,不要错过智能汽车行业的发展&技术进步。
赞美诗添加好友时请注意自己的姓名-公司-职位~
注意我这里,记得标记星星~
一键三连的“分享”、“喜欢”和“观看”
前沿科技进步与日俱增~回到搜狐看看更多。
负责编辑:
本文地址:http://wap.55jiaoyu.com/show-254035.html
本文由合作方发布,不代表展全思梦立场,转载联系作者并注明出处:展全思梦

