计算机在图像方面拥有两种非凡的能力:它们既可以识别图像,也可以重新生成图像。从历史上看,这些功能是分开的,就像善于创造菜肴的厨师(一代)和善于品尝菜肴的鉴赏家(认可)的不同行为一样。
然而,人们不禁想知道:如何才能在这两种独特的能力之间协调一致?厨师和鉴赏家对食物的味道有着共同的理解。同样,统一的视觉系统需要对视觉世界的深刻理解。
现在,麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究人员训练了一个系统来推断图像中缺失的部分,这项任务需要深入理解图像的内容。在成功填补空白的过程中,该系统被称为蒙面生成编码器(MAGE),同时实现了两个目标:准确识别图像并创建与现实惊人相似的新图像。
这种双重用途的系统可实现无数潜在的应用,例如图像中的对象识别和分类、从最小的示例中快速学习、在文本或类别等特定条件下创建图像以及增强现有图像。
与其他技术不同,MAGE不使用原始像素。相反,它将图像转换为所谓的“语义标记”,这是图像部分的紧凑但抽象的版本。将这些标记视为迷你拼图块,每个块代表原始图像的16x16块。正如单词形成句子一样,这些标记创建了图像的抽象版本,可用于复杂的处理任务,同时保留原始图像中的信息。这样的标记化步骤可以在自监督框架内进行训练,使其能够在没有标签的大型图像数据集上进行预训练。
现在,当MAGE使用“蒙面令牌建模”时,魔法就开始了。它随机隐藏其中一些标记,创建一个不完整的谜题,然后训练神经网络来填补空白。通过这种方式,它可以学习理解图像中的模式(图像识别)并生成新的模式(图像生成)。
“MAGE的一个显着特点是其预训练期间的可变掩蔽策略,使其能够在同一系统内针对任务、图像生成或识别进行训练,”博士生李天红(TianhongLi)说道。麻省理工学院电气工程和计算机科学专业的学生,CSAIL附属机构,也是该研究论文的主要作者。“MAGE能够在‘令牌空间’而不是‘像素空间’中工作,从而生成清晰、详细和高质量的图像,以及语义丰富的图像表示。这有望为先进的集成计算机视觉铺平道路。楷模。”
除了能够从头开始生成逼真的图像之外,MAGE还允许生成条件图像。用户可以为他们想要MAGE生成的图像指定某些标准,该工具将生成适当的图像。它还能够执行图像编辑任务,例如从图像中删除元素,同时保持逼真的外观。
识别任务是MAGE的另一个强项。凭借其对大型未标记数据集进行预训练的能力,它可以仅使用学习到的表示来对图像进行分类。此外,它擅长少样本学习,在ImageNet等大型图像数据集上仅使用少量标记示例就取得了令人印象深刻的结果。
MAGE性能的验证令人印象深刻。一方面,它在生成新图像方面创造了新记录,比之前的模型有了显着的改进。另一方面,MAGE在识别任务中名列前茅,在线性探测中实现了80.9%的准确率,在ImageNet上实现了71.9%的10-shot准确率(这意味着它在71.9%的情况下正确识别了图像,其中每个图像只有10个标记示例)班级)。
尽管有其优势,但研究团队承认MAGE仍是一项正在进行中的工作。将图像转换为令牌的过程不可避免地会导致一些信息丢失。他们热衷于探索在未来的工作中压缩图像而不丢失重要细节的方法。该团队还打算在更大的数据集上测试MAGE。未来的探索可能包括在更大的未标记数据集上训练MAGE,这可能会带来更好的性能。
“在一个系统中实现图像生成和图像识别一直是一个长期的梦想。MAGE是一项开创性的研究,它成功地利用了这两项任务的协同作用,并在一个系统中实现了它们的最先进水平,”谷歌研究和机器智能部门负责人类和交互的高级软件工程师王慧生(HuishengWang)说道,他没有参与这项工作。“这个创新系统具有广泛的应用,并有可能激发计算机视觉领域的许多未来工作。”