这个黑黄相间的机器人看起来像一只大狗,站在那儿等待指示。当他们来的时候,指示不是代码,而是简单的英语:“访问木桌两次;另外,不要去书架之前的木桌。”
四条金属腿呼呼地开始行动。机器人从房间里的位置走到附近的书架上,短暂停顿后,拖着脚步走向指定的木桌,然后离开并返回第二次访问,以满足命令。
直到最近,这样的练习对于像这样的导航机器人来说几乎是不可能完成的。目前大多数导航机器人软件都无法可靠地从英语或任何日常语言转换为机器人能够理解和执行的数学语言。
当软件必须根据复杂或富有表现力的方向(例如先到书架再到木桌)进行逻辑跳跃时,这就变得更加困难,因为传统上需要对数千小时的数据进行训练,以便它知道机器人是什么当遇到该特定类型的命令时应该执行的操作。
然而,基于人工智能运行的所谓大型语言模型的进步正在改变这一现状。赋予机器人新的理解和推理能力不仅有助于实现这样的实验,而且让计算机科学家们对将这种成功转移到实验室之外的环境(例如人们的家中和世界各地的主要城镇)感到兴奋。
在过去的一年里,布朗大学人机机器人实验室的研究人员一直在研究具有这种潜力的系统,并在将于11月8日在亚特兰大举行的机器人学习会议上发表的一篇新论文中分享该系统。
科学家们表示,这项研究为人类和机器人之间实现更加无缝的通信做出了重要贡献,因为人类自然地相互交流的有时复杂的方式在向机器人表达时通常会带来问题,常常导致不正确的行动或长期的计划滞后。
“在论文中,我们特别考虑了在环境中移动的移动机器人,”布朗大学计算机科学教授、这项新研究的资深作者StefanieTellex说。“我们想要一种方法,将人们可能会对机器人说的复杂、具体和抽象的英语指令连接起来——比如沿着普罗维登斯的塞耶街去咖啡店见我,但避开CVS并首先在银行停下来——到机器人的行为。”
该论文描述了该团队的新颖系统和软件如何通过使用人工智能语言模型(类似于为ChatGPT等聊天机器人提供支持的语言模型)来设计一种创新方法,对指令进行划分和分解,从而消除对训练数据的需求,从而使这一目标成为可能。
它还解释了该软件如何为导航机器人提供强大的基础工具,该工具不仅能够接受自然语言命令并生成行为,而且还能够根据来自环境的上下文来计算机器人可能需要进行的逻辑跳跃。简单明了的指令以及机器人可以做什么或不能做什么以及按什么顺序做。
“未来,这将应用于在我们城市中移动的移动机器人,无论是无人机、自动驾驶汽车还是运送包裹的地面车辆,”特莱克斯说。“任何时候你需要与机器人交谈并告诉它做事,你都可以做到这一点,并给它非常丰富、详细、精确的指令。”
Tellex表示,新系统能够理解富有表现力和丰富的语言,是迄今为止发布的最强大的路线指示语言理解系统之一,因为它基本上可以在不需要训练数据的情况下开始在机器人中工作。
传统上,例如,如果开发人员希望机器人在波士顿绘制并完成路线,他们就必须收集人们在城市中发出指令的不同示例,例如“穿过波士顿公园,但避开青蛙池塘”,因此系统知道这意味着什么,并且可以将其计算给机器人。如果他们想让机器人在纽约市导航,就必须重新进行训练。
研究人员创建的系统的复杂程度达到了新的水平,这意味着它可以在任何新环境中运行,而无需长时间的培训过程。相反,它只需要环境的详细地图。
布朗特莱克斯实验室的博士后研究员安基特·沙阿(AnkitShah)表示:“我们基本上是从语言转向机器人执行的动作。”
为了测试该系统,研究人员使用OpenStreetMap在21个城市对软件进行了模拟。模拟显示系统在80%的时间内都是准确的。这个数字比其他类似的系统准确得多,研究人员表示,这些系统的准确率只有20%左右,并且只能计算简单的航路点导航,例如从A点到B点。此类系统也无法计算对于限制,例如需要避开某个区域或在前往A点或B点之前必须前往另一个地点。
除了模拟之外,研究人员还使用波士顿动力Spot机器人在布朗大学校园的室内测试了他们的系统。总体而言,该项目为泰勒克斯布朗大学实验室的高影响力工作增添了历史色彩,其中包括使机器人更好地遵循语音指令的研究、提高机器人获取物体能力的算法以及帮助机器人生产人类的软件。般的笔触。
从语言到行动
该研究的主要作者JasonXinyu,计算机科学博士。与Tellex合作的布朗大学学生表示,这款名为Lang2LTL的新软件的成功在于它的工作原理。为了进行演示,他举了一个例子:用户告诉无人机去主街的“商店”,但只有在访问“银行”之后。
他解释说,首先,这两个地点被撤掉。然后,语言模型开始将这些抽象位置与模型知道的机器人环境中的特定位置进行匹配。它还分析位置上可用的元数据,例如它们的地址或它们是什么类型的商店,以帮助系统做出决策。
在这种情况下,附近有几家商店,但主街上只有一家,因此系统知道要进行跳跃,“商店”是沃尔玛,“银行”是大通银行。然后,语言模型完成将命令翻译为线性时序逻辑,线性时序逻辑是表达这些命令的数学代码和符号。然后,系统获取当前映射的位置并将其代入其创建的公式中,告诉机器人前往A点,但只能在B点之后。
“本质上,我们的系统使用其模块化系统设计和在互联网规模数据上预先训练的大型语言模型来处理更复杂的基于方向和线性的自然语言命令,这些命令具有以前没有机器人系统可以理解的不同类型的约束,”Xinyu说。“以前的系统无法处理这个问题,因为它们的设计方式阻碍了它们基本上同时完成这个过程。”
研究人员已经在考虑该项目的下一步发展。
他们计划于11月在项目网站上发布基于OpenStreetMaps的模拟,用户可以自己测试该系统。网络浏览器的演示将允许用户输入自然语言命令,指示模拟中的无人机执行导航命令,让研究人员研究他们的软件如何进行微调。不久之后,该团队希望为该软件添加对象操作功能。
“这项工作是我们未来可以做的许多工作的基础,”新宇说。