人们每天与之交互的许多计算机系统都需要有关世界某些方面或模型的知识才能工作。这些系统必须经过训练,通常需要学习如何从视频或图像数据中识别对象。这些数据经常包含降低模型准确性的多余内容。因此,研究人员找到了一种将自然手势融入教学过程的方法。这样,用户可以更轻松地向机器教授对象,机器也可以更有效地学习。
您之前可能听说过机器学习这个术语,但您熟悉机器教学吗?机器学习是在计算机使用输入数据形成模型后在幕后发生的事情,这些模型以后可用于执行有用的功能。但机器教学是该过程中探索较少的部分,它处理计算机如何获取其输入数据。
在视觉系统的情况下,例如可以识别物体的系统,人们需要将物体展示给计算机,以便它可以了解它们。但是,东京大学交互式智能系统实验室的研究人员试图改进的典型做法存在缺陷。
使用HuTics制作的模型允许LookHere使用手势和手部位置为系统提供额外的上下文来挑选和识别对象,以红色突出显示。图片来源:©2022YataniandZhou
“在典型的物体训练场景中,人们可以将物体举到相机上并四处移动,这样计算机就可以从各个角度对其进行分析以建立模型,”研究生周忠义说。
“然而,机器缺乏我们将物体与环境隔离的进化能力,因此它们制作的模型可能会无意中包含来自训练图像背景的不必要信息。这通常意味着用户必须花时间改进生成的模型,这可能是一个相当“
Zhou与KojiYatani副教授合作创建了LookHere,以解决机器教学中的两个基本问题:第一,教学效率问题,旨在最大限度地减少用户的时间,以及所需的技术知识。其次,学习效率——如何确保更好的学习数据让机器从中创建模型。
LookHere通过做一些新颖且令人惊讶的直观来实现这些。在机器将图像合并到其模型中之前,它将用户的手势合并到图像处理方式中,称为HuTics。例如,与场景中的其他元素相比,用户可以以强调其重要性的方式指向或向相机呈现对象。这正是人们相互展示对象的方式。通过消除无关的细节,由于增加了对图像中实际重要内容的强调,计算机为其模型获得了更好的输入数据。
“这个想法很简单,但实施起来非常具有挑战性,”周说。“每个人都是不同的,没有一套标准的手势。因此,我们首先收集了2040个示例视频,其中170人将对象展示给HuTics。这些资产被注释以标记对象的哪些部分以及对象的哪些部分图像只是人的手。
“LookHere是使用HuTics进行训练的,与其他对象识别方法相比,它可以更好地确定应使用传入图像的哪些部分来构建其模型。为了确保它尽可能易于访问,用户可以使用他们的智能手机进行操作“看这里,实际处理是在远程服务器上完成的。我们还发布了我们的源代码和数据集,以便其他人可以根据需要进行构建。”
考虑到LookHere为人们提供的对用户时间的需求减少,Zhou和Yatani发现它可以比某些现有系统快14倍地构建模型。目前,LookHere处理关于物理对象的教学机器,它专门使用视觉数据进行输入。但从理论上讲,这个概念可以扩展到使用其他类型的输入数据,例如声音或科学数据。由这些数据制成的模型也将受益于准确性的类似改进。