2023年供货！全球首款专为大规模AI计算设计的CPU横空出世

原创：闪德资讯 2021-04-13

阅读量 3196

13日凌晨，英伟达在宣布400亿美元收购Arm的6个月后，在英伟达（NVIDIA）GTC大会上，英伟达发布了三款基于Arm IP打造的处理器，包括全球首款专为大规模人工智能和高性能计算应用而设计的CPU NVIDIA Grace，预计将于2023年供货。

据介绍，全新的BlueField-3 DPU预计将于2022年第一季度发布样品；以及业界首款1000TOPS算力的自动驾驶汽车SoC。此外，英伟达还公布了与亚马逊AWS、Ampere Computing、联发科和Marvell等基于Arm的CPU平台的合作伙伴关系。

英伟达方面表示，CPU NVIDIA Grace旨在填补NVIDIA AI服务器产品中CPU大小的空白。公司的GPU非常适合某些类的深度学习工作负载，但并非仅因为需要CPU来保持GPU饱食而已，所有工作负载并不是纯粹受GPU约束的。

据悉，英伟达当前的服务器产品通常依赖于AMD的EPYC处理器，该处理器对于一般的计算目的而言非常快，但缺少英伟达寻找的那种高速I / O和深度学习优化。尤其是英伟达目前因使用PCI Express进行CPU-GPU连接而成为瓶颈。它们的GPU可以通过NVLink在彼此之间快速对话，但不能返回主机CPU或系统RAM。

英伟达表示，最终结果将是一种高性能，高带宽的CPU，旨在与下一代NVIDIA服务器GPU协同工作。在英伟达谈论将每个NVIDIA GPU与一个Grace CPU集成在一块板上的情况下（类似于今天的夹层卡），不仅CPU性能和系统内存随GPU的数量而增加，而且通过回旋的方式，Grace将用作英伟达 GPU的各种协处理器。如果没有其他的话，这是解决问题的非常NVIDIA的解决方案，不仅可以提高性能，而且在传统上集成了AMD或Intel的处理器尝试某种类似的CPU + GPU融合的情况下，可以给他们一个反击。

到2023年，NVIDIA将达到NVLink 4，它将在SoC和GPU之间提供至少900GB /秒的累积（上下）带宽，在Grace SoC之间提供至少600GB /秒的累积带宽。至关重要的是，它大于SoC的内存带宽，这意味着NVIDIA的GPU将具有到CPU的缓存一致性链接，该链接可以以全带宽访问系统内存，并且还允许整个系统具有单个共享内存地址空间。NVIDIA将其描述为平衡系统中可用的带宽量，这没错，但还有更多。拥有嵌入式CPU是增加NVIDIA GPU可以有效访问和使用的内存量的主要方法，

总体而言，这是NVIDIA在数据中心CPU市场上的第二次成功，而且有可能成功。NVIDIA的Project Denver计划最初是在十年前宣布的，但从未像NVIDIA预期的那样成功推出。自定义Arm内核家族永远都不够好，也从未使用NVIDIA的移动SoC制成。相比之下，对于NVIDIA而言，Grace是一个更安全的项目。他们只是在授权Arm内核，而不是构建自己的内核，并且这些内核也将被许多其他方使用。因此，NVIDIA的风险得以降低，可以在很大程度上使I / O和内存检测正确无误，并保持最终设计的能源效率。

点击此处关注，获取最新资讯！