使用强化学习创建艺术拼贴画

时间：2023-11-27 15:02:08 来源：编辑：

首尔国立大学的研究人员最近尝试训练人工智能(AI)代理来创建拼贴画(即通过将各种材料粘在一起创建的艺术品)，复制著名的艺术品和其他图像。他们提出的模型已在arXiv上预印的一篇论文中介绍，并于10月在ICCV2023上发表。

“拼贴艺术需要高度的人类艺术性，我们想知道人工智能创建的拼贴艺术品会是什么样子，”作者通过电子邮件告诉TechXplore，“现有的人工智能图像生成工具，如DALL-E或StableDiffusion已经可以生成拼贴图像，但它们只是像素的‘拼贴模仿’，而不是执行拼贴艺术作品的真实步骤的实际拼贴，我们想做的是训练人工智能创建‘真正的拼贴’。”

在之前一项专注于绘画生成的研究中，研究人员使用强化学习(RL)来教人工智能按照与人类相似的步骤进行绘画。然后他们开始想知道这是否也可以用于拼贴画的创建，并开始研究基于强化学习的自主拼贴艺术品生成器。

因此，他们最近论文的主要目标是训练人工智能代理，通过使用强化学习，通过撕裂和粘贴多种材料来创建与目标图像(例如绘画、照片等)尽可能相似的拼贴画。这些拼贴画将使用人类用户提供的一组材料来创建。

“我们的强化学习模型需要让智能体了解拼贴是什么以及如何做好它，”作者解释道。“由于强化学习基本上需要多次试验和错误，因此模型需要获得与画布交互并生成实际拼贴画的经验。”

由于拼贴画是由各种材料碎片制成的，为了有效地创作这些艺术品，代理首先需要测试不同的剪切和粘贴选项，以最终确定哪些材料可以生成最类似于目标图像的拼贴画。研究人员发现，最初他们的模型表现非常差，但随着时间的推移，其技能显着提高。

作者说：“强化学习代理学习如何使奖励更大，其中奖励被定义为画布与目标图像之间相似性的提高。”“奖励函数也会随着时间的推移不断发展，学习更好地评估代理制作的拼贴画和目标图像之间的相似性。”

在训练过程中，研究人员的模型被输入随机分配的随机图像，并尝试创建一个拼贴画，在白色画布上复制该图像。在拼贴的每一步中，代理都会从可用选项中随机选择一种材料，并选择如何剪切、废弃并将其粘贴到画布上。

“由于目标图像和材料是在训练中随机给出的，因此代理能够在后期处理任何目标和材料，”作者说。“对于使用现有的无模型强化学习来说，整个过程有点复杂，因此我们开发了一个可微分的拼贴环境，使代理能够轻松跟踪拼贴的动态。这使我们能够应用基于模型的强化学习并提高性能。”

研究人员开发的基于模型的强化学习训练方案从之前基于强化学习的绘画工作中汲取了灵感。然而，该团队开发了自己的基于模型的强化学习算法，该算法解决了与创建拼贴画相关的动态问题，这些拼贴画比基础绘画更复杂。

报纸制成的“鸟”，目标图片来自pixabay.com/photos/kingfisher-bird-close-up-perched-2046453。图片来源：戴等人。

作者说：“虽然绘画使用预定义的笔触，但拼贴画需要观察给定材料的外观，并弄清楚如何操纵它为整个拼贴画制作适当的图像片段，理解形状、纹理、颜色和坐标。”。“由于SAC允许智能体在连续动作空间中比在绘画中使用的DDPG更有效地体验各种动作，因此SAC符合我们的案例。”

为了有效地生成拼贴画，作者使用他们训练的模型作为部分拼贴生成单元。人们发现该装置可以生成与各种目标图像非常相似的高分辨率拼贴画。

“我们还开发了一个用于分析目标图像复杂性的模块，以便为部分拼贴生成器分配更多工作量到复杂性高的地方，”Lee解释道。“这个模块可以提高拼贴画的审美品质。”

该团队架构的一个关键优势是它不需要任何拼贴样本和演示数据，因为它只是使用材料和目标图像的示例进行训练。值得注意的是，这些材料和图像比原创艺术品更容易收集。

“在没有艺术数据或知识的情况下，特工独立学会了如何制作拼贴画，”作者说。“最终的拼贴能力是由智能体自己的探索得出的，这是这项工作的显着发现;它显示了强化学习作为无数据学习领域的强大能力。”

随着团队训练的模型逐渐掌握拼贴制作的过程，它可以很好地泛化各种图像和场景。到目前为止，它仅在模拟中进行了测试。然而，如果应用于人形机器人或机械手，该模型还可以为创建物理拼贴画提供“蓝图”。

“建立一个让强化学习智能体能够正确学习的环境非常具有挑战性，”作者说。“我们花了很多时间来开发和定义对于RL来说合法的拼贴动态和动作。此外，为了节省训练时间，我们应该尽可能保持它们紧凑和高效。更重要的是，我们必须保持动态对于我们的可微分。以及基于模型的强化学习方案。”

由于艺术是高度主观的，因此评估模型生成的拼贴画的质量具有挑战性。研究人员最初进行了一项用户研究，要求不同的人类参与者分享他们对人工智能创建的拼贴画的意见和反馈。

“我们进行了一项用户研究，但这可能还不够，”作者说。“经过深思熟虑，更加客观的评估，我们决定使用CLIP，一个大型视觉语言预训练模型。由于CLIP是用大约4亿个文本图像对进行训练的，我们相信它有能力比用户研究更客观地评估通过用户研究和CLIP，我们通过评估生成图像的拼贴性和内容一致性，将我们的模型与其他基于像素的生成模型进行比较。”

研究人员进行的用户研究和基于CLIP的评估得出了类似的结果。在这两项测试中，我们发现新模型在拼贴生成方面优于其他模型。

最近这篇论文中介绍的模型很快就会得到进一步开发和测试，以允许使用更广泛的图像和材料定制样式。此外，该团队的工作可以激发其他人工智能工具的开发，以生成各种类型的艺术品。

作者补充说：“我们现在有兴趣制定策略，使我们的模型能够应对各种风格偏好。”“作为未来的工作，我们考虑开发一个用户交互界面，它可以在我们的模型创建拼贴画期间反映用户的偏好。”

免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

标签：

上一篇:新款现代托斯卡纳SUV正式上市

下一篇:用于通过二氧化碳还原合成乙醇的锡基串联电催化剂