当前位置：天下金融网 > 数据 > 文章正文

RetrieveGAN人工智能工具结合了场景片段以创建新图像

时间:2022-05-23 16:51:22来源:作者:互联网

Google，加州大学默塞德分校和延世大学的研究人员开发了一种AI系统RetrieveGAN，该系统可对场景进行描述并学习从其他图像中选择兼容的补丁以创建全新的图像。他们声称这对于某些媒体和图像编辑可能是有益的，特别是在艺术家结合两个或更多图像以捕捉每个人最吸引人的元素的领域。

如果新兴的研究有迹象表明，人工智能和机器学习对于图像编辑有着不可思议的前景。Nvidia的工程师最近演示了一个系统-GauGAN，该系统可以用整块布料创建令人信服的逼真的风景照片。微软科学家提出了一个能够从自然语言字幕中产生图像和故事板的框架。去年6月，麻省理工学院-IBM Watson AI实验室推出了GAN Paint Studio工具，该工具使用户可以上传图像并编辑所绘建筑物，植物和固定装置的外观。

相比之下，RetrieveGAN捕获现有图像中对象之间的关系，并利用它来创建合成(但令人信服)的场景。给定场景图描述(场景中对象及其关系的描述)，它以计算友好的方式对图进行编码，从其他图像中寻找美学相似的补丁，并将一个或多个补丁嫁接到原始图像上。

研究人员在来自开源COC-Stuff和Visual Genome数据集的图像上训练和评估了RetrieveGAN。在实验中，他们发现与多个基准系统相比，在至少一个基准上从场景中隔离和提取对象“明显”更好。在随后的用户研究中，志愿者获得了由RetrieveGAN和其他模型选择的两组补丁，并提出了“哪一组补丁更相互兼容并且更可能在同一张图像中共存?”的问题，研究人员报告说RetrieveGAN的补丁在大多数情况下都排名第一。

“在这项工作中，我们提出了一个可区分的检索模块，以帮助从场景描述中进行图像合成。通过迭代过程，检索模块选择相互兼容的补丁作为生成的参考。此外，可区分的特性使该模块能够与图像生成过程一起学习更好的嵌入功能。”研究人员写道。“提出的方法为内容创建领域指明了新的研究方向。由于检索模块具有差异性，因此可以使用生成或操纵模型对其进行训练，以学习选择能够提高质量的实际参考斑块。”

尽管研究人员没有提及，但他们的工具很可能会被用于制作深造品或合成媒体，在这种合成品中，现有图像中的人被他人的相似代替。幸运的是，许多公司已经发布了语料库，希望研究界能够开发出检测方法。Facebook与Amazon Web Services(AWS)，人工智能合作伙伴关系以及许多大学的学者一起，率先开展了Deepfake检测挑战赛。2019年9月，Google发布了一个收藏集作为FaceForensics基准测试的一部分，它是由慕尼黑工业大学和那不勒斯费德里科第二大学共同创建的。最近，来自SenseTime的研究人员与新加坡南洋理工大学合作，设计了DeeperForensics-1.0，这是一种用于面部伪造检测的数据集，他们声称这是同类数据中最大的数据集。