首页 生活 > 内容

AI模型加速高分辨率计算机视觉

时间:2023-09-13 16:33:03 来源:
导读 自动驾驶车辆必须快速准确地识别遇到的物体,从停在街角的空转送货卡车到驶向即将到来的十字路口的骑自行车者。为此,车辆可能会使用强大的...

自动驾驶车辆必须快速准确地识别遇到的物体,从停在街角的空转送货卡车到驶向即将到来的十字路口的骑自行车者。

为此,车辆可能会使用强大的计算机视觉模型来对该场景的高分辨率图像中的每个像素进行分类,这样它就不会忽视低质量图像中可能被遮挡的物体。但这项称为语义分割的任务很复杂,并且当图像具有高分辨率时需要大量计算。

来自MIT、MIT-IBMWatsonAI实验室和其他地方的研究人员开发了一种更高效的计算机视觉模型,可以大大降低该任务的计算复杂性。他们的模型可以在硬件资源有限的设备上实时准确地执行语义分割,例如使自动驾驶车辆能够做出瞬间决策的车载计算机。

最近最先进的语义分割模型直接学习图像中每对像素之间的相互作用,因此随着图像分辨率的增加,它们的计算量呈二次方增长。因此,虽然这些模型很准确,但它们速度太慢,无法在传感器或手机等边缘设备上实时处理高分辨率图像。

麻省理工学院的研究人员为语义分割模型设计了一个新的构建块,它实现了与这些最先进模型相同的能力,但仅具有线性计算复杂性和硬件高效操作。

结果是一个用于高分辨率计算机视觉的新模型系列,当部署在移动设备上时,其执行速度比以前的模型快九倍。重要的是,这个新模型系列表现出与这些替代品相同或更好的精度。

这项技术不仅可以用来帮助自动驾驶汽车实时做出决策,还可以提高其他高分辨率计算机视觉任务的效率,例如医学图像分割。

“虽然研究人员长期以来一直在使用传统的视觉变换器,并且它们给出了惊人的结果,但我们希望人们也关注这些模型的效率方面。我们的工作表明,可以大幅减少计算量,因此实时图像分割可以在设备本地进行。”电气工程与计算机科学(EECS)系副教授、MIT-IBMWatsonAI实验室成员、该论文的高级作者SongHan说道描述新模型。

这篇论文的主要作者是EECS研究生HanCai。李俊彦,浙江大学本科生;胡慕彦,清华大学本科生;甘创(ChangGan),麻省理工学院-IBM沃森人工智能实验室的主要研究人员。该研究将于10月2日至6日在巴黎举行的国际计算机视觉会议上发表。它可以在arXiv预印本服务器上获得。

图片来源:麻省理工学院

简化的解决方案

对于机器学习模型来说,对可能具有数百万像素的高分辨率图像中的每个像素进行分类是一项艰巨的任务。一种强大的新型模型,称为视觉变换器,最近得到了有效的使用。

Transformer最初是为自然语言处理而开发的。在这种情况下,他们将句子中的每个单词编码为标记,然后生成注意图,该图捕获每个标记与所有其他标记的关系。该注意力图有助于模型在做出预测时理解上下文。

使用相同的概念,视觉转换器将图像切成像素块,并将每个小块编码为令牌,然后生成注意图。在生成此注意力图时,模型使用相似性函数来直接学习每对像素之间的交互。通过这种方式,该模型开发了所谓的全局感受野,这意味着它可以访问图像的所有相关部分。

由于高分辨率图像可能包含数百万个像素,分成数千个块,因此注意力图很快就会变得巨大。因此,随着图像分辨率的增加,计算量呈二次方增长。

在名为EfficientViT的新模型系列中,麻省理工学院的研究人员使用了一种更简单的机制来构建注意力图——用线性相似函数代替非线性相似函数。因此,他们可以重新排列操作顺序以减少总计算量,而无需更改功能和丢失全局感受野。通过他们的模型,预测所需的计算量随着图像分辨率的增长而线性增长。

“但是天下没有免费的午餐。线性注意力只能捕捉图像的全局背景,丢失局部信息,这使得准确性更差,”韩说。

为了补偿这种准确性损失,研究人员在他们的模型中添加了两个额外的组件,每个组件仅增加少量计算。

这些元素之一有助于模型捕获局部特征交互,从而减轻线性函数在局部信息提取方面的弱点。第二个是支持多尺度学习的模块,帮助模型识别大型和小型物体。

“这里最关键的部分是我们需要仔细平衡性能和效率,”蔡说。

他们设计的EfficientViT具有硬件友好的架构,因此可以更轻松地在不同类型的设备上运行,例如虚拟现实耳机或自动驾驶汽车上的边缘计算机。他们的模型还可以应用于其他计算机视觉任务,例如图像分类。

简化语义分割

当他们在用于语义分割的数据集上测试模型时,他们发现它在Nvidia图形处理单元(GPU)上的执行速度比其他流行的视觉转换器模型快九倍,并且具有相同或更好的精度。

“现在,我们可以两全其美,减少计算量,使其足够快,以便我们可以在移动和云设备上运行它,”韩说。

在这些结果的基础上,研究人员希望应用这种技术来加速生成机器学习模型,例如用于生成新图像的模型。他们还希望继续扩大EfficientViT的规模以用于其他视觉任务。

AMD公司人工智能算法高级总监陆天表示:“韩松教授团队首创的高效变压器模型现已成为检测和分割等多种计算机视觉任务中尖端技术的支柱。”不涉及本文。“他们的研究不仅展示了变压器的效率和功能,而且还揭示了它们在现实世界应用中的巨大潜力,例如提高视频游戏中的图像质量。”

Jay补充道:“模型压缩和轻量级模型设计是高效人工智能计算的关键研究课题,特别是在大型基础模型的背景下。韩松教授的团队在压缩和加速现代深度学习模型(尤其是视觉变换器)方面取得了显着进展。”杰克逊是甲骨文公司人工智能和机器学习全球副总裁,他没有参与这项研究。“Oracle云基础设施一直支持他的团队推进这一有影响力的研究,迈向高效、绿色的人工智能。”

标签:
最新文章