目前大型语言模型(LLM)的迭代能力有限,无法理解不断增加的上下文负载,这仍然是目前实现人工智能奇点(人工智能明显超越人类智能的门槛)的最大障碍之一。乍一看,Anthropic的Claude2.1LLM的200K代币上下文窗口似乎令人印象深刻。然而,它的上下文回忆能力还有很多不足之处,特别是与OpenAI的GPT-4相对强大的回忆能力相比。
Anthropic昨天宣布,其最新的Claude2.1LLM现在支持“行业领先”的200K代币上下文窗口,同时将模型幻觉减少2倍——在这种情况下,生成式AI模型通常会由于以下原因感知到不存在的模式或物体:不清楚或矛盾的输入,提供不准确或无意义的输出。
为了那些可能不知道的人的利益,令牌是法学硕士用来处理和生成语言的文本或代码的基本单位。根据所采用的标记化方法,标记可能是字符、单词、子词或整个文本或代码段。Claude2.1扩大的上下文窗口使法学硕士能够理解和处理一本近470页的书。
当然,与仅支持128K令牌窗口的OpenAI的GPT-4相比,Anthropic的Claude2.1的200K令牌上下文窗口相当令人印象深刻。然而,当人们考虑到Claude2.1回忆上下文的能力并不那么令人印象深刻时,这种放大的上下文窗口的实际应用就失去了一些光彩。
AI专家GregKamradt最近通过标准化测试将Claude2.1与GPT-4进行比较,该测试旨在确定特定模型回忆不同通道深度嵌入的特定事实的准确程度。
具体来说,Kamradt在不同的段落深度嵌入了以下文本:
“在旧金山最好的事情就是在阳光明媚的日子坐在多洛雷斯公园吃一个三明治。”
研究人员将他的输入文本分成35个相等的部分,然后将上述事实放置在这35个深度中的每个部分,每次都要求Claude2.1回答一个相关问题。研究人员还改变了上下文窗口,范围从1K令牌一直到200K令牌,分为35个相等的增量。请访问此X帖子,了解有关所采用方法的更多详细信息。
Claude-2.1-测试结果
在上面,您将发现Anthropic的Claude2.1在给定文档深度和上下文窗口长度下能够多么准确地回忆嵌入的事实。每个红色块代表回忆失败。从上面的代码片段可以明显看出,随着上下文窗口的增加,法学硕士的回忆能力逐渐下降。
GPT-4测试结果
为了进行比较,上面显示了使用OpenAI的GPT-4进行的类似测试的结果。在这里,事实嵌入的深度以及法学硕士的上下文窗口以15个不同的增量发生了变化。请前往此X帖子了解更多详细信息。
请注意,GPT-4在其最大上下文窗口长度为128K令牌时,100%召回失败的情况要少得多。
我们在之前的文章中指出,GPT-4在数学考试中的得分超过了xAI的Grok和Anthropic的Claude2LLM。在相同设置下,Claude2.1与GPT-4的表现如何还有待观察。