首页 数码 > 内容

英特尔回击AMD的AI基准测试并发布结果称当前一代Xeon在AI方面比AMD的下一代128核EPYCTurin更快

时间:2024-07-31 10:48:52 来源:
导读 英特尔对AMD在Computex主题演讲中分享的最新AI基准测试进行了反击,AMD声称基于Zen5的EPYCTurin在AI工作负载方面比英特尔Xeon快5.4倍。英特...

英特尔对AMD在Computex主题演讲中分享的最新AI基准测试进行了反击,AMD声称基于Zen5的EPYCTurin在AI工作负载方面比英特尔Xeon快5.4倍。英特尔今天撰写了一篇博客,重点介绍了其当前一代Xeon处理器在其自身基准测试中的表现,声称其目前正在出货的第五代Xeon比AMD即将在2024年下半年推出的3nmEPYCTurin处理器更快。英特尔表示,AMD的基准测试“不能准确反映”Xeon的性能,并分享了自己的基准测试来反驳AMD的说法。

与往常一样,我们应该谨慎对待供应商提供的基准测试结果,并密切关注测试配置。我们在上面的相册中附上了英特尔的测试笔记。这些都是在双插槽服务器上测试的。AMD

的基准测试显示出比Xeon有一系列优势,但Llama2-7B聊天机器人的结果突出了最大的优势,显示128核Turin(总共256个内核)比英特尔64核EmeraldRapidsXeon8592+(总共128个内核)

有5.4倍的优势。英特尔自己的内部结果比AMD的基准测试快5.4倍,因此目前推出的64核Xeon比AMD未来的128核型号更具优势——这确实是一个相当令人印象深刻的说法,而且性能上有很大的变化。

英特尔表示,AMD没有分享其用于基准测试的软件的详细信息或测试所需的SLA,我们找不到所用批次大小的列表(下面的AMD测试说明)。无论如何,英特尔表示AMD的结果与其内部广泛使用的开源软件(英特尔PyTorch扩展)的基准测试结果不符。英特尔为其基准测试设定了“严格”​​的50msP99延迟约束,并使用了相同的INT4数据类型。

如果这个基准测试代表了真实的性能,那么这里可能存在的差异是英特尔对AMX(高级矩阵扩展)数学扩展的支持。这些矩阵数学函数极大地提高了AI工作负载的性能,目前尚不清楚AMD在测试英特尔时是否使用了AMX。值得注意的是,AMX支持BF16/INT8,因此软件引擎通常会将INT4权重转换为更大的数据类型以通过AMX引擎进行驱动。AMD的当前一代不支持本机矩阵数学运算,而且目前尚不清楚Turin是否支持。

AMD在台北国际电脑展(Computex)的基准测试中还显示Turin在AI驱动的摘要和翻译工作负载方面胜过第五代Xeon,分别声称具有3.9倍和2.5倍的优势。英特尔再次持不同意见,其自己的结果显示其性能比AMD使用Xeon8592+时高出2.3倍和1.2倍。

英特尔并未将其基准测试结果与AMDTurin的声明进行对比(我们在上面包含了AMD的声明)。相反,它选择与AMD的96核EPYC9754处理器进行比较,并将性能提升显示为相对于该的相对百分比。AMD的测试说明(上面最后一张幻灯片)并未表明其在摘要和翻译工作负载中使用了哪些模型,因此似乎无法计算出这些工作负载中Turin的相对性能。然而,Turin似乎仍会在这些基准测试中名列前茅,但优势较小。

值得注意的是,英特尔声称,即使是上一代Xeon也比AMD当前一代的EPYCGenoa快,而其较新的第五代比Genoa快2.5倍。

英特尔的博客指出,其更新的GraniteRapidsXeon6(未在此处进行基准测试)支持的内存带宽是此处使用的当前一代的2.3倍,这是从8个内存通道变为12个的副产品,同时还支持带宽提升的MCRDIMM。因此,它预计即将推出的在这些工作负载中的表现会更高。英特尔较新的还具有多达128个内核,这应该有助于英特尔相对于Turin的性能——这些比较是针对64核型号进行的。值得注意的是,英特尔并没有对AMD的说法提出反驳,AMD声称Turin在NAMD的分子动力学工作负载中快3.1倍。

标签: