众所周知,强大的新人工智能模型有时会出错——无论是产生幻觉虚假信息,还是记住别人的工作并将其作为自己的工作提供。为了解决后者,由德克萨斯大学奥斯汀分校的一个团队领导的研究人员开发了一个框架,用于在无法识别的图像上训练人工智能模型。
DALL-E、Midjourney和StableDiffusion是文本到图像扩散生成AI模型之一,它们可以将任意用户文本转换为高度逼真的图像。这三家公司现在都面临着艺术家的诉讼,他们声称生成的样本抄袭了他们的作品。这些模型经过数十亿个不公开的图像文本对的训练,能够根据文本提示生成高质量的图像,但可能会借鉴受版权保护的图像,然后进行复制。
新提出的框架称为“环境扩散”,通过仅访问损坏的基于图像的数据来训练扩散模型,从而解决了这个问题。早期的努力表明,该框架能够继续生成高质量的样本,而无需看到任何可识别为原始源图像的内容。
环境扩散最初于2023年在机器学习会议NeurIPS上提出,此后经过调整和扩展。arXiv预印本服务器上提供的后续论文“ConstantDiffusionMeetsTweedie”已被2024年国际机器学习会议接收。该团队与麻省理工学院的ConstantinosDaskalakis合作,扩展了该框架,以便在被其他类型噪声破坏的图像数据集上训练扩散模型,而不是简单地屏蔽像素,并在更大的数据集上训练扩散模型。
参与这项工作的计算机科学教授AdamKlivans表示:“该框架也可能对科学和医学应用有用。”“对于任何需要昂贵或不可能获得全套未损坏数据的研究来说,从黑洞成像到某些类型的核磁共振扫描,基本上都是如此。”
克利万斯;AlexDimakis,电气和计算机工程教授;以及由UT两名教员领导的多机构机器学习基础研究所的其他合作者首先进行了实验,在一组3,000张名人图像上训练扩散模型,然后使用该模型生成新样本。
在实验中,在干净数据上训练的扩散模型公然复制了训练样本。但是,当研究人员破坏训练数据、随机屏蔽图像中高达90%的单个像素,并使用新方法重新训练模型时,生成的样本仍然保持高质量,但看起来却截然不同。该模型仍然可以生成人脸,但生成的人脸与训练图像有很大不同。
领导这项工作的计算机科学研究生吉安尼斯·达拉斯(GiannisDaras)表示:“我们的框架可以控制记忆和表现之间的权衡。”“随着训练过程中遇到的腐败程度的增加,对训练集的记忆会减少。”
研究人员表示,这指向了一种解决方案,尽管它可能会改变性能,但永远不会输出噪音。该框架提供了一个示例,说明学术研究人员如何推进人工智能以满足社会需求,这是德克萨斯大学奥斯汀分校今年的一个关键主题,该大学已宣布2024年为“人工智能年”。
研究团队包括来自加州大学伯克利分校和麻省理工学院的成员。