想象一下,您想要搬运一个又大又重的箱子爬楼梯。你可以张开手指,用双手举起盒子,然后将其放在前臂上,靠在胸部上保持平衡,用你的整个身体来操纵盒子。
人类通常擅长全身操纵,但机器人却难以完成此类任务。对于机器人来说,盒子可能接触携带者手指、手臂和躯干上任何一点的每个点都代表一个它必须推理的接触事件。由于存在数十亿潜在的接触事件,因此规划这项任务很快就会变得棘手。
现在,麻省理工学院的研究人员找到了一种简化这一过程的方法,称为“接触丰富的操纵计划”。他们使用一种称为平滑的人工智能技术,将许多接触事件总结为较少数量的决策,甚至可以使用简单的算法来快速识别机器人的有效操纵计划。
虽然仍处于早期阶段,但这种方法可能使工厂能够使用更小的移动机器人,这些机器人可以用整个手臂或身体操纵物体,而不是只能用指尖抓取的大型机器人手臂。这可能有助于减少能源消耗并降低成本。此外,这项技术对于前往火星或其他太阳系天体执行探索任务的机器人也很有用,因为它们只需使用机载计算机就可以快速适应环境。
“如果我们能够使用模型来利用此类机器人系统的结构,而不是将其视为黑匣子系统,那么就有机会加速尝试做出这些决策并提出接触丰富的整个过程。计划”,电气工程和计算机科学(EECS)研究生、该技术论文的共同主要作者HJTerrySuh说道。
与Suh一起撰写该论文的还有共同主要作者TaoPang博士。'23,波士顿动力人工智能研究所机器人专家;杨路杰,EECS研究生;资深作者RussTedrake,丰田EECS、航空航天和机械工程教授,也是计算机科学和人工智能实验室(CSAIL)的成员。该研究本周发表在IEEETransactionsonRobotics上。
强化学习是一种机器学习技术,代理(例如机器人)通过反复试验来学习完成任务,并在更接近目标时获得奖励。研究人员表示,这种类型的学习采用黑盒方法,因为系统必须通过反复试验来了解世界的一切。
它已被有效地用于接触丰富的操纵规划,其中机器人寻求学习以指定方式移动物体的最佳方式。
但由于机器人在确定如何使用手指、手、手臂和身体与物体交互时必须推理数十亿个潜在接触点,因此这种试错方法需要大量计算。
“强化学习可能需要经过数百万年的模拟时间才能真正学习策略,”Suh补充道。
另一方面,如果研究人员利用他们对系统的了解以及他们希望机器人完成的任务专门设计一个基于物理的模型,那么该模型就会包含有关这个世界的结构,从而使其更加高效。
然而,当涉及到丰富的接触操作计划时,基于物理的方法并不像强化学习那么有效——Suh和Pang想知道为什么。
他们进行了详细的分析,发现一种称为平滑的技术使强化学习能够表现得如此出色。
机器人在决定如何操纵物体时可能做出的许多决定在总体规划中并不重要。例如,一根手指的每一次微小的调整,无论是否导致与物体接触,都没有多大关系。平滑平均消除了许多不重要的中间决策,留下了一些重要的决策。
强化学习通过尝试许多接触点然后计算结果的加权平均值来隐式执行平滑。根据这一见解,麻省理工学院的研究人员设计了一个简单的模型,该模型执行类似类型的平滑,使其能够专注于核心机器人与物体的交互并预测长期行为。他们表明,这种方法在生成复杂计划方面与强化学习一样有效。
“如果你对你的问题了解得更多一些,你就可以设计出更有效的算法,”庞说。
一个成功的组合
尽管平滑极大地简化了决策,但搜索剩余的决策仍然是一个困难的问题。因此,研究人员将他们的模型与一种算法结合起来,该算法可以快速有效地搜索机器人可能做出的所有可能的决策。
通过这种组合,标准笔记本电脑上的计算时间减少到大约一分钟。
他们首先在模拟中测试了他们的方法,其中机器人手被赋予诸如将笔移动到所需配置、打开门或拿起盘子等任务。在每种情况下,他们基于模型的方法都取得了与强化学习相同的性能,但所需时间却只是强化学习的一小部分。当他们在真实机械臂上的硬件中测试模型时,他们看到了类似的结果。
“实现全身操纵的相同想法也适用于灵巧的、类人的手进行规划。此前,大多数研究人员表示,强化学习是扩展到灵巧的手的唯一方法,但特里和陶表明,通过利用这一关键通过强化学习(随机)平滑的想法,它们也可以使更传统的规划方法发挥得非常好,”Tedrake说。
然而,他们开发的模型依赖于对现实世界的更简单的近似,因此它无法处理非常动态的运动,例如物体下落。例如,虽然对于较慢的操作任务有效,但他们的方法无法创建一个计划,使机器人能够将罐头扔进垃圾桶。未来,研究人员计划增强他们的技术,以便能够解决这些高度动态的运动。
“如果你仔细研究你的模型并真正理解你想要解决的问题,你肯定可以获得一些收获。做超出黑匣子的事情是有好处的,”Suh说。