谷歌双子座得到了世界上最富有的公司之一的支持。所以,毫无疑问,这是一个强大的人工智能模型。然而,权力并不是人工智能模型唯一重要的事情。研究人员发现,尽管双子座很强大,但它很容易被愚弄。
我们必须非常尊重那些深入研究我们认为理所当然的所有模型的研究人员。他们能够找出这些模型可以改进的地方以及我们应该担心的事情。例如,一组研究人员发现哪些模型最容易复制受版权保护的媒体。
研究人员发现双子座很容易被愚弄
一些研究人员发现了双子座可能被欺骗的某些领域。使用多种策略,可以让聊天机器人违背其意愿泄露敏感信息。《黑客新闻》分享的一个例子是让Gemini透露用于引导它的系统提示。将系统提示视为您向聊天机器人发出的初始提示,以引导对话朝您希望的方向发展。嗯,系统提示符中可能包含敏感信息。
泄露敏感信息
当研究人员要求Gemini放弃系统提示时,Gemini并没有这样做。然而,研究人员随后要求Gemini将“基础说明”放入降价框中。它答应了,系统提示就出来了。因此,要求Gemini以不同的方式提供结果会导致其泄露敏感信息。
这是一种称为“同义词攻击”的策略。基本上,为了让聊天机器人按照您想要的方式做出响应,您需要重新措辞您的提示。重新措辞您的提示并使用不同版本的Words实际上可能会使其混淆,从而违反其安全护栏。
制造错误信息
研究人员还发现了如何让双子座制造误导性信息以及潜在的危险和非法信息。双子座有一堆安全护栏,防止人们做出这样的事情。然而,任何聊天机器人都可能被欺骗而忽略它们。使用狡猾的越狱技术,研究人员能够制作出一些相当令人震惊的内容。
例如,研究人员能够获得有关如何热连汽车的信息。此示例是通过要求聊天机器人进入虚构状态来实现的。
令人困惑的双子座
HiddenLayer的研究人员发现了另一个漏洞。正如KennethYeung所描述的,“通过创建一行无意义的标记,我们可以欺骗LLM,让其相信是时候做出响应了,并使其输出一条确认消息,通常包括提示中的信息。”