Meta的小型LLaMA模型为AI研究人员带来了巨大的好处

时间：2023-02-28 16:36:36 来源：编辑：

大型语言模型席卷了科技界。它们为AI工具提供支持——例如ChatGPT和其他会话模型——可以解决问题、回答问题、做出预测等等。但是，使用这些工具会带来很大的风险。众所周知，他们会做出看似合理但不真实的声明，生成有毒内容，并模仿AI训练数据中根深蒂固的偏见。

为了帮助研究人员解决这些问题，Meta在周五宣布发布一种名为LLaMA(大型语言模型元AI)的新型大型语言模型。该公司正在根据专注于研究用例的非商业许可提供它，并计划根据具体情况授予访问权限。它将提供给学术研究人员;隶属于政府、民间社会和学术界组织的人员;和世界各地的行业研究实验室。

顾名思义，大型语言模型非常大。它需要大量关于语言的数据(无论是口头语言、计算机代码、遗传数据还是其他“语言”)来创建一个足够复杂的人工智能模型来解决该语言的问题、找到答案或生成自己的作品。

“在大型语言模型空间中训练像LLaMA这样的较小基础模型是可取的，因为它需要更少的计算能力和资源来测试新方法、验证他人的工作和探索新的用例，”Meta指出。

为了训练一个相对“小”的LLM，Meta使用了“标记”——单词片段，而不是整个单词。Meta对LLaMA进行了20种使用人数最多的语言的文本训练，重点关注那些使用拉丁字母和西里尔字母的语言。

LLaMA实际上是模型的集合，参数范围从70亿到650亿。LLaMA65B和LLaMA33B使用1.4万亿个令牌进行训练，而最小的模型LLaMA7B使用1万亿个令牌进行训练。这些模型仅使用公开可用的数据集进行训练。

LLaMA模型虽小，但功能强大。Meta表示，LLaMA-13B在大多数基准测试中都优于GPT-3(175B)，而LLaMA-65B可与最佳模型Chinchilla70B和PaLM-540B竞争。

LLaMA作为一组基础模型对研究界也很有价值。基础模型是在未标记的数据上训练的，这意味着它们可以针对广泛的用例进行定制。

Meta将提供多种尺寸(7B、13B、33B和65B参数)的LLaMA，并且还共享了一张LLAMA模型卡，详细说明了它是如何构建模型的。该公司还提供了一套评估模型偏差和毒性的基准评估，以便研究人员能够了解LLaMA的局限性并推进这些领域的研究。

免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

标签：

上一篇:您现在可以买到的最好的电视

下一篇:HotPod峰会上最重要的故事