在AWSre:Invent会议期间,AWS数据库、分析和机器学习副总裁SwamiSivasubramanian宣布在Bedrock上进行模型评估,现已提供预览版,适用于在其存储库AmazonBedrock中找到的模型。如果没有一种透明地测试模型的方法,开发人员最终可能会使用对于问答项目来说不够准确的模型,或者对于他们的用例而言太大的模型。
“模型选择和评估不仅仅是一开始就完成的,而是定期重复的,”Sivasubramanian说。“我们认为有人参与循环很重要,因此我们提供了一种轻松管理人工评估工作流程和模型性能指标的方法。”
Sivasubramanian在另一次采访中告诉TheVerge,一些开发人员通常不知道他们是否应该为项目使用更大的模型,因为他们认为更强大的模型可以满足他们的需求。他们后来发现他们可以在更小的基础上建造。
模型评估有两个组成部分:自动评估和人工评估。在自动化版本中,开发人员可以进入Bedrock控制台并选择要测试的模型。然后,他们可以根据摘要、文本分类、问答和文本生成等任务的鲁棒性、准确性或毒性等指标来评估模型的性能。Bedrock包括流行的第三方AI模型,例如Meta的Llama2、Anthropic的Claude2和StabilityAI的StableDiffusion。
虽然AWS提供测试数据集,但客户可以将自己的数据带入基准测试平台,以便更好地了解模型的行为方式。然后系统生成一份报告。
如果涉及人类,用户可以选择与AWS人类评估团队或他们自己的团队合作。客户必须指定任务类型(例如摘要或文本生成)、评估指标以及他们想要使用的数据集。AWS将为与其评估团队合作的人员提供定制的定价和时间表。
AWS生成人工智能副总裁VasiPhilomin在接受TheVerge采访时表示,更好地了解模型的执行方式可以更好地指导开发。它还允许公司在使用模型构建之前查看模型是否不符合一些负责任的人工智能标准,例如较低或过高的毒性敏感性。
“重要的是,模型要适合我们的客户,要知道哪种模型最适合他们,我们为他们提供了一种更好地评估这一点的方法,”菲洛明说。
Sivasubramanian还表示,当人类评估人工智能模型时,他们可以检测到自动化系统无法检测到的其他指标,例如同理心或友善程度。
Philomin表示,AWS不会要求所有客户对模型进行基准测试,因为一些开发人员可能之前使用过Bedrock上的一些基础模型,或者了解这些模型可以为他们做什么。仍在探索使用哪些模型的公司可以从基准测试过程中受益。
AWS表示,虽然基准测试服务处于预览阶段,但它只会对评估期间使用的模型推理收费。
虽然人工智能模型的基准测试没有特定的标准,但有一些行业普遍接受的具体指标。Philomin表示,Bedrock基准测试的目标不是广泛评估模型,而是为公司提供一种衡量模型对其项目影响的方法。