英特尔发布了2023年11月对其MLPerfTraining3.1结果的更新,与6月份预测的90%相比,性能提升了103%。目前只有三个加速器在MLPerf上提交GPT-3结果:Intel、NVIDIA和Google-这使得Intel的Gaudi2目前成为MLPerfAI工作负载的NVIDIAGPU的唯一可行替代品(这还是正确的术语吗?)。
英特尔在最新的MLPerf3.1中展示了与NVIDIA领先的Hopper芯片相比具有竞争力的性价比
英特尔还很快指出,Xeon是唯一在MLPerfBenchmark上提交训练结果的CPU。废话不多说,下面是幻灯片:
正如您所看到的,英特尔Gaudi团队最初预计FP8的性能将提高90%,但在GPT-3行业基准测试中却实现了103%的提升,将训练时间从311.94分钟缩短到几分钟(跨384个加速器)。5.2小时缩短至2小时多一点或153.58分钟。英特尔还展示了几张幻灯片,以帮助基于TCO(总拥有成本)的决策,展示Gaudi2芯片提供与NVIDIAH100类似的性能,同时具有较低的服务器成本-使其在性价比方面具有竞争力。
在GPTJ-99上,Gaudi2的表现更加出色,仅略落后于NVIDIA的新型Hopper芯片。虽然6月份的讨论是关于Gaudi2只是NVIDIA芯片的可行替代品,并且明显落后于H100(仅与较旧的A100型号相抵触),但现在Gaudi2芯片仅略微落后于H100和GH200-96G设置。在服务器吞吐量基准测试中,H100仅比Gaudi2快9%,而GH200-96G仅比Gaudi2快12%。在离线基准测试中,这一领先优势扩大到28%。在这两种情况下,Gaudi2的性能均优于A100近2倍。
最后,英特尔还指出,Xeon是目前唯一提交MLPerf基准测试的CPU,并强调了其对AI工作负载的承诺。
Gaudi2仍然是满足AI计算需求的NVIDIAH100的唯一可行替代方案,具有显着的性价比。Gaudi2的MLPerf结果显示了AI加速器不断提高的训练性能:
Gaudi2在v3.1训练GPT-3基准上展示了FP8数据类型实现2倍的性能飞跃,与6月的MLPerf基准相比,训练时间减少了一半以上,在384上用时153.58分钟完成了训练英特尔Gaudi2加速器。Gaudi2加速器支持E5M2和E4M3格式的FP8,并可以在必要时选择延迟缩放。
IntelGaudi2演示了使用BF16在20.2分钟内对具有64个加速器的稳定扩散多模态模型进行的训练。在未来的MLPerf训练基准中,稳定扩散性能将在FP8数据类型上提交。
在八个英特尔Gaudi2加速器上,使用BF16的BERT和ResNet-50基准测试结果分别为13.27分钟和15.92分钟。
关于第四代Xeon结果:英特尔仍然是唯一提交MLPerf结果的CPU供应商。第四代至强的MLPerf结果凸显了其强劲的性能:
英特尔提交了RESNet50、RetinaNet、BERT和DLRMdcnv2的结果。第四代英特尔至强可扩展处理器的ResNet50、RetinaNet和BERT结果与为2023年6月MLPerf基准提交的强大开箱即用性能结果相似。
DLRMdcnv2是6月提交的新模型,CPU仅使用四个节点即可展示227分钟的训练提交时间。