英特尔在最新的MLPerf基准测试中将Gaudi2的FP8GPT3性能提高了一倍

时间：2023-11-09 15:58:27 来源：

导读英特尔发布了2023年11月对其MLPerfTraining3.1结果的更新，与6月份预测的90%相比，性能提升了103%。目前只有三个加速器在MLPerf上提交GPT-3...

英特尔发布了2023年11月对其MLPerfTraining3.1结果的更新，与6月份预测的90%相比，性能提升了103%。目前只有三个加速器在MLPerf上提交GPT-3结果：Intel、NVIDIA和Google-这使得Intel的Gaudi2目前成为MLPerfAI工作负载的NVIDIAGPU的唯一可行替代品(这还是正确的术语吗?)。

英特尔在最新的MLPerf3.1中展示了与NVIDIA领先的Hopper芯片相比具有竞争力的性价比

英特尔还很快指出，Xeon是唯一在MLPerfBenchmark上提交训练结果的CPU。废话不多说，下面是幻灯片：

正如您所看到的，英特尔Gaudi团队最初预计FP8的性能将提高90%，但在GPT-3行业基准测试中却实现了103%的提升，将训练时间从311.94分钟缩短到几分钟(跨384个加速器)。5.2小时缩短至2小时多一点或153.58分钟。英特尔还展示了几张幻灯片，以帮助基于TCO(总拥有成本)的决策，展示Gaudi2芯片提供与NVIDIAH100类似的性能，同时具有较低的服务器成本-使其在性价比方面具有竞争力。

在GPTJ-99上，Gaudi2的表现更加出色，仅略落后于NVIDIA的新型Hopper芯片。虽然6月份的讨论是关于Gaudi2只是NVIDIA芯片的可行替代品，并且明显落后于H100(仅与较旧的A100型号相抵触)，但现在Gaudi2芯片仅略微落后于H100和GH200-96G设置。在服务器吞吐量基准测试中，H100仅比Gaudi2快9%，而GH200-96G仅比Gaudi2快12%。在离线基准测试中，这一领先优势扩大到28%。在这两种情况下，Gaudi2的性能均优于A100近2倍。

最后，英特尔还指出，Xeon是目前唯一提交MLPerf基准测试的CPU，并强调了其对AI工作负载的承诺。

Gaudi2仍然是满足AI计算需求的NVIDIAH100的唯一可行替代方案，具有显着的性价比。Gaudi2的MLPerf结果显示了AI加速器不断提高的训练性能：

Gaudi2在v3.1训练GPT-3基准上展示了FP8数据类型实现2倍的性能飞跃，与6月的MLPerf基准相比，训练时间减少了一半以上，在384上用时153.58分钟完成了训练英特尔Gaudi2加速器。Gaudi2加速器支持E5M2和E4M3格式的FP8，并可以在必要时选择延迟缩放。

IntelGaudi2演示了使用BF16在20.2分钟内对具有64个加速器的稳定扩散多模态模型进行的训练。在未来的MLPerf训练基准中，稳定扩散性能将在FP8数据类型上提交。

在八个英特尔Gaudi2加速器上，使用BF16的BERT和ResNet-50基准测试结果分别为13.27分钟和15.92分钟。

关于第四代Xeon结果：英特尔仍然是唯一提交MLPerf结果的CPU供应商。第四代至强的MLPerf结果凸显了其强劲的性能：

英特尔提交了RESNet50、RetinaNet、BERT和DLRMdcnv2的结果。第四代英特尔至强可扩展处理器的ResNet50、RetinaNet和BERT结果与为2023年6月MLPerf基准提交的强大开箱即用性能结果相似。

DLRMdcnv2是6月提交的新模型，CPU仅使用四个节点即可展示227分钟的训练提交时间。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：

上一篇:由于OLED显示屏将在iPadPro上亮相的传言不断增加苹果预计明年将停产Mini-LEDiPadPro

下一篇:最后一页

猜你喜欢

最新文章