密歇根大学一项关于人类和机器人如何在目标相互冲突的任务上协同工作的新研究首次证明,当机器人主动适应人类策略时,信任和团队绩效会得到改善。
相互冲突的目标涉及速度与准确性等权衡。当机器人事先不了解人类的偏好时,与人类的策略保持一致对于建立信任是最有效的。
该研究于 3 月 12 日在科罗拉多州博尔德举行的人机交互会议上发表。它可以在arXiv预印本服务器上获得。
研究人员开发的算法可以扩展到任何涉及目标冲突的人机交互场景。例如,康复机器人在分配适当的运动水平时必须平衡患者的疼痛耐受性和长期健康目标。
“在解决相互冲突的目标时,每个人都有不同的方法来实现目标,”工业与运营工程副教授、该论文的最后作者 Xi Jessie Yang 说。
有些患者可能希望快速恢复,以增加疼痛程度为代价增加强度,而另一些患者则希望以较慢的恢复时间为代价尽量减少疼痛。
如果机器人提前不知道患者对恢复策略的偏好,则使用该算法,机器人可以学习并调整锻炼建议以平衡这两个目标。
这项研究是一个更大的工作的一部分,旨在通过建立信任将机器人从一个用于执行孤立任务的简单工具转变为一个协作伙伴。
之前的研究主要集中在设计机器人以表现出值得信赖的行为,例如解释其行动的理由。最近,焦点转向使机器人目标与人类目标保持一致,但研究人员尚未测试目标对齐如何影响结果。
杨说:“我们的研究是首次尝试检验人类和机器人之间的价值一致性或代理人对实现冲突目标的偏好是否有利于信任和人机团队绩效。”
为了测试这一点,研究参与者被要求完成一个类似视频游戏的场景,其中人类机器人团队必须管理相互冲突的目标,即尽快完成搜索任务,同时保持士兵的健康水平。
参与者扮演一名穿越冲突地区的士兵。空中机器人评估建筑物内的危险级别,然后建议人类在进入时是否应该部署防护机器人。使用护盾可以保持较高的健康水平,但需要花费额外的时间来部署。
参与者接受或拒绝机器人的推荐,然后提供有关他们对推荐系统的信任级别(从零到完全信任)的反馈。
实验者测试了三种机器人交互策略:
非学习者:机器人假设人类的策略反映了它自己的预编程策略
非自适应学习器:机器人学习人类的信任估计和人类行为建模策略,但仍然优化自己的策略
自适应学习器:机器人学习人类的策略并将其作为自己的策略
他们进行了两项实验,一项是机器人拥有有关人类策略偏好的充分先验信息,另一项是从头开始。
当机器人从头开始时,机器人自适应学习增强了人类-机器人团队的能力,但当机器人拥有先验信息时,它就没有增强人类-机器人团队的能力,因此几乎没有改进其策略的空间。
“好处体现在很多方面,包括对机器人更高的信任和依赖、减少的工作量和更高的感知性能,”工业和运营工程博士生、该论文的第一作者 Shreyas Bhat 说。
在这种情况下,人类的偏好不会随着时间而改变。然而,策略可能会根据情况而改变。如果剩下的时间很少,那么增加冒险行为的转变可以节省时间来帮助完成任务。
“下一步,我们希望从算法中删除偏好保持不变的假设,”巴特说。
随着机器人在医疗保健、制造、国家安全、教育和家庭援助等领域相互冲突的客观任务中变得更加不可或缺,继续评估和提高信任将加强人机伙伴关系。