大型语言模型席卷了科技界。它们为AI工具提供支持——例如ChatGPT和其他会话模型——可以解决问题、回答问题、做出预测等等。但是,使用这些工具会带来很大的风险。众所周知,他们会做出看似合理但不真实的声明,生成有毒内容,并模仿AI训练数据中根深蒂固的偏见。
为了帮助研究人员解决这些问题,Meta在周五宣布发布一种名为LLaMA(大型语言模型元AI)的新型大型语言模型。该公司正在根据专注于研究用例的非商业许可提供它,并计划根据具体情况授予访问权限。它将提供给学术研究人员;隶属于政府、民间社会和学术界组织的人员;和世界各地的行业研究实验室。
顾名思义,大型语言模型非常大。它需要大量关于语言的数据(无论是口头语言、计算机代码、遗传数据还是其他“语言”)来创建一个足够复杂的人工智能模型来解决该语言的问题、找到答案或生成自己的作品。
“在大型语言模型空间中训练像LLaMA这样的较小基础模型是可取的,因为它需要更少的计算能力和资源来测试新方法、验证他人的工作和探索新的用例,”Meta指出。
为了训练一个相对“小”的LLM,Meta使用了“标记”——单词片段,而不是整个单词。Meta对LLaMA进行了20种使用人数最多的语言的文本训练,重点关注那些使用拉丁字母和西里尔字母的语言。
LLaMA实际上是模型的集合,参数范围从70亿到650亿。LLaMA65B和LLaMA33B使用1.4万亿个令牌进行训练,而最小的模型LLaMA7B使用1万亿个令牌进行训练。这些模型仅使用公开可用的数据集进行训练。
LLaMA模型虽小,但功能强大。Meta表示,LLaMA-13B在大多数基准测试中都优于GPT-3(175B),而LLaMA-65B可与最佳模型Chinchilla70B和PaLM-540B竞争。
LLaMA作为一组基础模型对研究界也很有价值。基础模型是在未标记的数据上训练的,这意味着它们可以针对广泛的用例进行定制。
Meta将提供多种尺寸(7B、13B、33B和65B参数)的LLaMA,并且还共享了一张LLAMA模型卡,详细说明了它是如何构建模型的。该公司还提供了一套评估模型偏差和毒性的基准评估,以便研究人员能够了解LLaMA的局限性并推进这些领域的研究。