周边视觉使人类能够看到不在我们视线范围内的形状,尽管细节较少。这种能力扩大了我们的视野,在许多情况下都很有用,例如检测从侧面接近我们汽车的车辆。
与人类不同,人工智能没有周边视觉。为计算机视觉模型配备这种能力可以帮助他们更有效地检测接近的危险或预测人类驾驶员是否会注意到迎面而来的物体。
麻省理工学院的研究人员朝这个方向迈出了一步,开发了一个图像数据集,使他们能够在机器学习模型中模拟周边视觉。他们发现,使用该数据集训练模型提高了模型检测视觉外围物体的能力,尽管模型的表现仍然比人类差。
他们的结果还表明,与人类不同,物体的大小和场景中视觉混乱的数量都不会对人工智能的性能产生强烈影响。
“这里发生了一些根本性的事情。我们测试了很多不同的模型,即使我们训练它们,它们也会变得更好一点,但它们不太像人类。所以,问题是:这些模型中缺少什么?”博士后、详细介绍这项研究的论文的合著者VashaDuTell说道。
回答这个问题可能有助于研究人员建立机器学习模型,使之能够更像人类一样看待世界。除了提高驾驶员安全性之外,此类模型还可用于开发更易于人们查看的显示器。
此外,主要作者AnneHarringtonMEng'23补充道,更深入地了解人工智能模型中的周边视觉可以帮助研究人员更好地预测人类行为。
“如果我们能够真正捕捉到外围所呈现的本质,对外围视觉进行建模,可以帮助我们理解视觉场景中的特征,这些特征使我们的眼睛移动以收集更多信息,”她解释道。
他们的合著者包括马克·汉密尔顿,一名电气工程和计算机科学研究生;AyushTewari,博士后;SimonStent,丰田研究院研究经理;资深作者WilliamT.Freeman,电气工程和计算机科学Thomas和GerdPerkins教授,计算机科学和人工智能实验室(AIL)成员;露丝·罗森霍尔茨(RuthRosenholtz)是脑与认知科学系的首席研究科学家,也是AIL的成员。该研究将在国际学习表征会议(ICLR2024)上公布。
“任何时候,当人类与机器(汽车、机器人、用户界面)进行交互时,了解人能看到什么就非常重要。周边视觉在这种理解中发挥着关键作用,”罗森霍尔茨说。
模拟周边视觉
将手臂伸到身前,竖起拇指——中央凹可以看到拇指指甲周围的小区域,中央凹是视网膜中部的小凹陷,提供最清晰的视力。你能看到的其他一切都在你的视觉周边。当你的视觉皮层远离那个锐利的焦点时,它所代表的场景的细节和可靠性就会减少。
人工智能中周边视觉建模的许多现有方法通过模糊图像边缘来表示这种恶化的细节,但视神经和视觉皮层中发生的信息丢失要复杂得多。
为了获得更准确的方法,麻省理工学院的研究人员开始使用一种用于模拟人类周边视觉的技术。这种方法被称为纹理平铺模型,它通过转换图像来表示人类视觉信息的损失。
他们修改了这个模型,以便它可以类似地转换图像,但以一种更灵活的方式,不需要提前知道人或人工智能会将他们的眼睛指向哪里。
哈林顿说:“这让我们能够像人类视觉研究中那样忠实地模拟周边视觉。”
研究人员使用这种修改后的技术生成了一个巨大的转换图像数据集,这些图像在某些区域显得更具纹理,以表示当人类进一步观察外围时发生的细节丢失。
然后,他们使用该数据集训练多个计算机视觉模型,并将它们在物体检测任务中的表现与人类的表现进行比较。
“我们必须非常聪明地设置实验,这样我们也可以在机器学习模型中对其进行测试。我们不想在模型不应该做的玩具任务上重新训练模型,“她说。
特殊性能
向人类和模型展示了成对的相同的变换图像,只是其中一个图像的目标物体位于外围。然后,要求每个参与者挑选带有目标物体的图像。
“真正让我们惊讶的一件事是,人们检测周围物体的能力有多强。我们浏览了至少10组不同的图像,这些图像太简单了。我们一直需要使用越来越小的物体,”Harrington补充道。
研究人员发现,使用数据集从头开始训练模型可以带来最大的性能提升,提高其检测和识别物体的能力。使用数据集微调模型,这个过程涉及调整预训练的模型,以便它可以执行新任务,但性能提升较小。
但在每种情况下,机器都不如人类,而且它们在检测最外围的物体方面尤其糟糕。他们的表现也不遵循与人类相同的模式。
“这可能表明模型没有像人类那样使用上下文来执行这些检测任务。模型的策略可能会有所不同,”哈林顿说。
研究人员计划继续探索这些差异,目标是找到一种可以预测人类视觉外围表现的模型。例如,这可以让人工智能系统向驾驶员发出他们可能看不到的危险的警报。他们还希望激励其他研究人员利用其公开的数据集进行更多的计算机视觉研究。
“这项工作很重要,因为它有助于我们理解人类外围视觉不应该仅仅被视为由于我们拥有的光感受器数量的限制而导致的贫乏视觉,而是一种针对我们执行真实任务而优化的表示。-世界后果,”斯坦福大学心理学系副教授贾斯汀·加德纳(JustinGardner)说道,他没有参与这项工作。
“此外,这项工作表明,神经网络模型尽管近年来取得了进步,但在这方面仍无法与人类的表现相媲美,这应该会导致更多的人工智能研究从人类视觉的神经科学中学习。这项未来的研究将得到帮助显着依赖于作者提供的模仿人类周边视觉的图像数据库。”