首页 生活 > 内容

研究人员使用大型语言模型来标记复杂系统中的问题

时间:2024-08-16 16:49:31 来源:
导读 识别风电场中一台故障涡轮机可能需要查看数百个信号和数百万个数据点,这无异于大海捞针。工程师通常使用深度学习模型来简化这个复杂问题,...

识别风电场中一台故障涡轮机可能需要查看数百个信号和数百万个数据点,这无异于大海捞针。

工程师通常使用深度学习模型来简化这个复杂问题,该模型可以检测每个涡轮机在一段时间内重复进行的测量中的异常,即时间序列数据。

但是,由于数百台风力涡轮机每小时记录数十个信号,训练深度学习模型来分析时间序列数据成本高昂且繁琐。此外,模型在部署后可能需要重新训练,而风电场运营商可能缺乏必要的机器学习专业知识。

在一项新研究中,麻省理工学院的研究人员发现,大型语言模型(LLM)有可能成为更高效的时间序列数据异常检测器。重要的是,这些预训练模型可以立即部署。

研究人员开发了一个名为SigLLM的框架,其中包括一个组件,可将时间序列数据转换为LLM可以处理的基于文本的输入。用户可以将这些准备好的数据输入到模型中,并要求模型开始识别异常。LLM还可用于预测未来的时间序列数据点,作为异常检测管道的一部分。

虽然LLM在异常检测方面无法超越最先进的深度学习模型,但它们的表现确实与其他一些AI方法一样好。如果研究人员能够提高LLM的性能,那么这个框架可以帮助技术人员在重型机械或卫星等设备出现问题之前就标记出它们,而无需训练昂贵的深度学习模型。

“由于这只是第一次迭代,我们并没有期望一开始就能取得成功,但这些结果表明,我们有机会利用LLM来完成复杂的异常检测任务,”电气工程与计算机科学(EE)研究生、SigLLM论文的主要作者SarahAlnegheimish说道。

她的合著者包括EE研究生LinhNguyen、法国国家可持续发展研究所研究主任LaureBerti-Equille以及信息与决策系统实验室首席研究科学家、资深作者KalyanVeeramachaneni。该论文发表在arXiv预印本服务器上,研究成果将在IEEE数据科学与高级分析会议上发表。

现成的解决方案

大型语言模型是自回归的,这意味着它们可以理解序列数据中的最新值取决于先前的值。例如,GPT-4等模型可以使用句子前面的单词来预测句子中的下一个单词。

由于时间序列数据是连续的,研究人员认为LLM的自回归特性可能使其非常适合检测此类数据中的异常。

然而,他们想要开发一种避免微调的技术,微调是指工程师使用少量特定任务数据重新训练通用LLM,使其成为某项任务的专家。相反,研究人员部署了现成的LLM,无需额外的训练步骤。

但在部署之前,他们必须将时间序列数据转换为语言模型可以处理的基于文本的输入。

他们通过一系列转换实现了这一点,这些转换捕获了时间序列中最重要的部分,同时用最少的标记表示数据。标记是LLM的基本输入,标记越多,计算量也就越大。

“如果你不非常小心地处理这些步骤,你最终可能会砍掉一些重要的数据,从而丢失这些信息,”Alnegheimish说。

在弄清楚如何转换时间序列数据后,研究人员开发了两种异常检测方法。

异常检测方法

对于第一个系统,他们称之为Prompter,他们将准备好的数据输入模型并提示它定位异常值。

“我们必须反复迭代多次才能找出一个特定时间序列的正确提示。要理解这些LLM如何提取和处理数据并不容易,”Alnegheimish补充道。

对于第二种方法,称为Detector,他们使用LLM作为预测器来预测时间序列中的下一个值。研究人员将预测值与实际值进行了比较。较大的差异表明实际值可能是一个异常值。

有了Detector,LLM将成为异常检测流程的一部分,而Prompter将自行完成任务。在实践中,Detector的表现优于Prompter,后者产生了许多误报。

“我认为,采用Prompter方法,我们要求法学硕士克服太多困难。我们给它设置了一个更难解决的问题,”Veeramachaneni说道。

当他们将这两种方法与当前技术进行比较时,尽管LLM不需要训练或微调,但Detector在他们评估的11个数据集中的7个上的表现优于基于Transformer的AI模型。

将来,LLM还可以通过其预测提供通俗易懂的语言解释,这样操作员就可以更好地理解为什么LLM将某个数据点识别为异常。

然而,最先进的深度学习模型的表现远远优于LLM,这表明在LLM用于异常检测之前仍有工作要做。

“要达到与这些最先进的模型一样好的水平,需要做些什么?这是目前摆在我们面前的百万美元问题。基于法学硕士的异常检测器需要成为游戏规则的改变者,才能证明这种努力是合理的,”Veeramachaneni说。

展望未来,研究人员希望看看微调是否可以提高性能,尽管这需要额外的时间、成本和专业知识进行培训。

他们的LLM方法也需要30分钟到2小时才能产生结果,因此提高速度是未来研究的一个关键领域。研究人员还希望探究LLM,了解它们如何进行异常检测,希望找到提高其性能的方法。

“当涉及到时间序列异常检测等复杂任务时,法学硕士确实是一个有力的竞争者。也许其他复杂任务也可以用法学硕士来解决?”Alnegheimish说。

标签: