萨里大学和斯坦福大学的团队开发出一种新方法,可以教人工智能(AI)理解人类的线条画,即使是非艺术家的线条画。
新模型在识别场景草图方面的表现接近人类的水平。
萨里大学视觉、语音和信号处理中心 (CVSSP) 和萨里以人为本人工智能研究所 (PAI) 讲师 Yulia Gryaditskaya 博士表示:“素描是一种强大的视觉交流语言。它有时甚至比口头语言更具表现力和灵活性。
“开发用于理解草图的工具是朝着更强大的人机交互和更高效的设计工作流程迈出的一步。例如,能够通过绘制草图来搜索或创建图像。”
各个年龄段、各个背景的人们都使用绘画来探索新想法并进行交流。然而,人工智能系统一直以来都难以理解素描。
必须教会 AI 如何理解图像。通常,这需要耗费大量人力来收集图像中每个像素的标签。然后 AI 会从这些标签中学习。
相反,该团队使用草图和书面描述相结合的方式来训练人工智能。它学会了对像素进行分组,并将它们与描述中的某个类别进行匹配。
与之前的方法相比,最终的人工智能对这些图画的理解更加丰富,也更接近人类。它能以 85% 的准确率正确识别和标记风筝、树木、长颈鹿和其他物体。这优于其他依赖标记像素的模型。
除了识别复杂场景中的物体外,它还能识别出哪些笔触是用来描绘每个物体的。新方法非常适合非艺术家绘制的非正式草图,以及没有经过明确训练的物体的图画。
斯坦福大学心理学助理教授 Judith Fan 表示:“绘画和写作是最典型的人类活动之一,长期以来一直有助于捕捉人们的观察和想法。
“这项研究代表着人工智能系统取得了令人兴奋的进步,无论人们使用的是图片还是文本,它都能理解人们试图表达的思想的本质。”
这项研究是萨里大学以人为本的人工智能研究所的一部分,特别是其 SketchX 项目。SketchX 利用人工智能,试图通过我们绘制世界的方式来了解我们看待世界的方式。
以人为本人工智能研究所联席主任、SketchX 负责人宋一哲教授表示:“这项研究是人工智能如何增强素描等人类基本活动的典型例子。通过以接近人类的准确度理解草图,这项技术具有巨大的潜力,可以激发人们的自然创造力,无论其艺术能力如何。”
该研究已发布到arXiv预印本服务器,论文将于2024 年 6 月 17 日至 21 日在西雅图举行的IEEE/CVF 计算机视觉与模式识别会议(CVPR 2024 )上发表。