教机器识别人类行为有许多潜在的应用,例如自动检测在建筑工地摔倒的工人或使智能家居机器人能够解释用户的手势。
为此,研究人员使用显示人类执行动作的大量视频剪辑数据集来训练机器学习模型。然而,收集和标记数百万或数十亿个视频不仅昂贵且费力,而且这些剪辑通常包含敏感信息,如人脸或车牌号码。使用这些视频也可能违反版权或数据保护法。这假设视频数据首先是公开可用的——许多数据集归公司所有,不能免费使用。
因此,研究人员正在转向合成数据集。这些是由计算机制作的,该计算机使用场景、对象和人类的3D模型来快速生成许多不同的特定动作剪辑——没有潜在的版权问题或真实数据带来的道德问题。
但是合成数据和真实数据一样“好”吗?当要求对真实的人类行为进行分类时,使用这些数据训练的模型表现如何?麻省理工学院、MIT-IBM沃森人工智能实验室和波士顿大学的一组研究人员试图回答这个问题。他们构建了一个包含150,000个视频剪辑的合成数据集,这些视频剪辑捕捉到了广泛的人类行为,并用于训练机器学习模型。然后,他们向这些模型展示了六个真实世界视频数据集,以了解他们在学习识别这些剪辑中的动作方面的能力。
研究人员发现,对于背景对象较少的视频,经过综合训练的模型的性能甚至比在真实数据上训练的模型还要好。
这项工作可以帮助研究人员使用合成数据集,使模型在现实世界的任务中实现更高的准确性。它还可以帮助科学家确定哪些机器学习应用程序最适合使用合成数据进行训练,以减轻使用真实数据集的一些道德、隐私和版权问题。
“我们研究的最终目标是用合成数据预训练代替真实数据预训练。在合成数据中创建动作是有成本的,但一旦完成,您就可以通过更改生成无限数量的图像或视频姿势、照明等。这就是合成数据的美妙之处,”麻省理工学院-IBM沃森人工智能实验室的首席科学家兼经理、详细介绍这项研究的论文的合著者罗杰里奥·费里斯说。
该论文由主要作者Yo-whan"John"Kim'22撰写;AudeOliva,麻省理工学院苏世民计算学院战略行业参与主任,麻省理工学院-IBMWatsonAI实验室主任,计算机科学与人工智能实验室(CSAIL)高级研究科学家;和其他七个。该研究将在神经信息处理系统会议上发表。
构建合成数据集
研究人员首先使用三个公开可用的合成视频剪辑数据集来编译一个新数据集,这些数据集捕捉人类行为。他们的数据集名为SyntheticActionPre-trainingandTransfer(SynAPT),包含150个动作类别,每个类别包含1,000个视频剪辑。
他们根据包含干净视频数据的剪辑的可用性选择了尽可能多的动作类别,例如人们挥手或摔倒在地板上。
准备好数据集后,他们用它来预训练三个机器学习模型以识别动作。预训练涉及为一项任务训练模型,以便为学习其他任务提供先机。受人们学习方式的启发——我们在学习新知识时重用旧知识——预训练模型可以使用它已经学习的参数来帮助它更快、更有效地学习新数据集的新任务。
他们使用六个真实视频剪辑数据集测试了预训练模型,每个数据集都捕获了与训练数据中不同的动作类别。
研究人员惊讶地发现,在六个数据集中的四个数据集上,所有三个合成模型都优于使用真实视频剪辑训练的模型。对于包含具有“低场景对象偏差”的视频剪辑的数据集,它们的准确性最高。
低场景对象偏差意味着模型无法通过查看场景中的背景或其他对象来识别动作——它必须专注于动作本身。例如,如果模型的任务是对人们跳入游泳池的视频剪辑中的潜水姿势进行分类,则它无法通过查看水或墙上的瓷砖来识别姿势。它必须关注人的动作和位置来对动作进行分类。
“在场景-对象偏差较低的视频中,动作的时间动态比对象或背景的外观更重要,而且合成数据似乎很好地捕捉到了这一点,”Feris说。
“高场景对象偏差实际上可以成为障碍。模型可能会通过查看对象而不是动作本身来对动作进行错误分类。它会混淆模型,”Kim解释道。
提升性能
在这些结果的基础上,研究人员希望在未来的工作中包括更多的动作类和额外的合成视频平台,最终创建一个使用合成数据进行预训练的模型目录,共同作者、麻省理工学院的研究人员RameswarPanda说-IBM沃森人工智能实验室。
“我们希望构建的模型与文献中的现有模型具有非常相似甚至更好的性能,但不受任何这些偏见或安全问题的约束,”他补充道。
他们还希望将他们的工作与旨在生成更准确和逼真的合成视频的研究结合起来,这可以提高模型的性能,共同作者和CSAIL博士后SouYoungJin说。她还对探索模型在使用合成数据进行训练时如何以不同方式学习感兴趣。
“我们使用合成数据集来防止隐私问题或上下文或社会偏见,但该模型实际上学到了什么?它学到了什么不带偏见的东西吗?”她说。
既然他们已经证明了合成视频的这种使用潜力,他们希望其他研究人员能够在他们的工作基础上再接再厉。
“尽管获得注释良好的合成数据的成本较低,但目前我们没有一个规模可以与最大的注释数据集与真实视频相媲美的数据集。通过讨论真实视频的不同成本和关注点,并展示其功效合成数据,我们希望激励朝这个方向努力,”共同作者、波士顿大学(BU)的研究生SamarthMishra补充道。