洛桑联邦理工学院的研究人员表明,主要在英语文本上训练的大型语言模型似乎在内部使用英语,即使是在用另一种语言提示时也是如此。随着人工智能越来越多地影响我们的生活,这可能会对语言和文化偏见产生重要影响。
包括OpenAI的ChatGPT和Google的Gemini在内的大型语言模型(LLM)席卷了全世界,它们以看似自然的语音来理解和响应用户的能力令人惊讶。
虽然可以用任何语言与这些法学硕士进行交互,但他们主要接受了数千亿个英语文本参数的训练,并且一些人假设他们用英语进行大部分内部处理,然后翻译成目标语言在最后一刻。然而,到目前为止,几乎没有证据表明这一点。
测试骆驼
洛桑联邦理工学院计算机与通信科学学院数据科学实验室(DLAB)的研究人员研究了Llama-2(大型语言模型元人工智能)开源法学硕士,试图确定在计算链的哪些阶段使用了哪些语言。
“大型语言模型经过训练来预测下一个单词。它们本质上是通过将每个单词与数字向量(基本上是多维数据点)相匹配来实现这一点。例如,单词“the”总是会在完全相同的固定位置找到。数字坐标”,DLAB负责人RobertWest教授解释道。
“这些模型将80层相同的计算块链接在一起,每个计算块将表示一个单词的一个向量转换为另一个向量。在这80个转换序列的最后,得出的是代表下一个单词的向量。计算数量是通过计算块的层数来确定的——计算越多,你的模型就越强大,下一个单词就越有可能是正确的。”
正如他们的论文“LlamasWorkinEnglish?”中所解释的那样OntheLatentLanguageofMultilingualTransformers,可在预印本服务器arXiv上找到,而不是让模型完成80层的计算,而是每次尝试预测下一个单词West时,他的团队都会强迫模型在每个单词后回答他们能够看到模型此时会预测哪个单词。他们设置了各种任务,例如要求模型将一系列法语单词翻译成中文。
“我们给它一个法语单词,然后是中文翻译,另一个法语单词和中文翻译,等等,这样模型就知道它应该将法语单词翻译成中文。理想情况下,模型应该给出100%的概率中文单词,但是当我们强迫它在最后一层之前进行预测时,我们发现大多数时候它预测了法语单词的英文翻译,尽管英语在这个任务中没有出现在任何地方。只有在最后四层才出现从五个层面来看,汉语实际上比英语更有可能,”韦斯特说。
从文字到概念
一个简单的假设是,该模型将整个输入翻译成英语,并在最后翻译成目标语言,但在分析数据时,研究人员提出了一个更有趣的理论。
在计算的第一阶段,任何一个词都不存在概率,他们认为该模型涉及修复输入问题。
在英语占主导地位的第二阶段,研究人员认为该模型处于某种抽象语义空间中,在该空间中,它不是推理单个单词,而是推理其他类型的表示形式,这些表示形式更多地涉及概念、跨语言的通用性,并且更多地是一种模型世界。这很重要,因为为了很好地预测下一个单词,模型需要对世界有很多了解,而实现这一点的一种方法是拥有这种概念的表示。
“我们的理论是,这种用概念来表示世界的方式偏向英语,这很有意义,因为这些模型看到了大约90%的英语训练数据。它们将输入单词从浅层单词空间映射到更深层次的含义空间概念的集合,其中存在这些概念在世界上如何相互关联的表示,并且这些概念的表示方式类似于英语单词,而不是实际输入语言中的相应单词,”韦斯特说。
单一文化和偏见
英国的主导地位引发的一个关键问题是“这重要吗”?研究人员相信确实如此。大量研究表明,语言中存在的结构塑造了我们构建现实的方式,并且我们使用的词语与我们如何看待世界密切相关。韦斯特建议,我们需要开始研究语言模型的心理学,将它们视为人类,并用不同的语言进行询问、行为测试并评估偏见。
“我认为这项研究确实触动了人们的神经,因为人们越来越担心潜在的单一文化的此类问题。鉴于这些模型在英语中更好,许多研究人员现在正在探索的事情是提供英语内容和翻译回所需的语言。从工程角度来看,这可能可行,但我建议我们失去很多细微差别,因为你无法用英语表达的内容将不会被表达,”韦斯特总结道。