导航菜单

一个芯片随意组合?英伟达将深度学习推向极致

a3643e6bc1644d6780fbebdb296b72cd

[新智慧指南] NVIDIA推出了一款可以独立完成基础工作的微测试芯片;但是当36个芯片组合在一起时,性能可以提高32倍。与使用相同精度的先前原型相比,单个芯片具有至少16倍的面积效率和1.7倍的能量效率。

如何确保在不牺牲效率的情况下在大型和小型任务之间切换?显然,将单个实验性加速器芯片转换为可以随意组合的模块化形式是一种可行的解决方案,这就是Nvidia正在做的事情。

a274b6c3-0de6-4ca2-9221-219430df60c4

作为GPU发电厂,NVIDIA当然希望为各种规模的AI任务提供解决方案:从大规模数据中心任务到永远在线的低功耗神经网络(这些网络需要收听由语音助手)。

这不是一项简单的任务,通常需要混合使用多种不同的技术。但是,这种方法显然不如仅部署一种方法。

NVIDIA一直在寻找“一环统治它们”的解决方案:是否有可能构建一些可扩展的模块化产品,同时不会在整个过程中浪费更多的功率?它的首席科学家比尔达利说,Nvidia终于找到了答案。答案是肯定的。

在上个月举行的VLSI研讨会上,NVIDIA详细介绍了一个小型测试芯片,它可以独立完成基础工作,或者可以在一个模块中与多达36个相同类型的芯片紧密连接,以进行深度学习。这个级别繁重的任务,每个芯片都达到了大致相同的顶级性能。

单个加速器芯片通常被设计为深度学习的执行者而不是训练方。工程师测量这种“推理”芯片性能的方式通常是基于每焦耳或毫米面积的能量可以执行多少次操作。

7b2992bf-3da9-4b49-9943-9a2e9f9550d0

在NVIDIA原型芯片中,峰值可达到每秒4.01 Tera操作(相当于每秒1000亿次)和每毫米1.29 TOPS。

与之前在其他组中使用相同精度的原型相比,单芯片的面积效率至少是这些原型的16倍,能效至少为1.7倍。

当36个芯片连接成为芯片系统时,它达到了127.8 TOPS,相当于32倍的性能提升!

通过这项研究,Nvidia试图证明只用一种技术处理所有场景是可行和可行的。或者,至少,当这些芯片连接到多芯片模块中的NVIDIA网状网络时,您可以这样做。

这些模块基本上是小型印刷电路板或硅晶片,它们也可以作为一个大型IC处理多个芯片。这种形式正变得越来越流行,因为几个较小的芯片可以随机组装成一个系统(通常称为小芯片,相对于单个更大,更昂贵的大芯片)。下图是多芯片模块的图例:

5275dcfdb8ce458ea90ecbce39a2629e

Dally解释说:“多芯片模块的形式有很多优点。不仅适用于未来的可扩展(深度学习)加速器,还适用于构建具有不同功能的加速器产品版本。”

NVIDIA多芯片模块捆绑新深度学习芯片的关键是使用称为“地面参考”技术的芯片间网络。

顾名思义,GRS利用导线上的电压信号和公共地之间的差异来传输数据,同时避免了该方法的许多已知缺点。

它可以使用单线传输25GB /秒的数据,大多数技术需要一对线才能达到相同的速度。使用单行可以增加每秒每毫米边缘流量的数据量,最高可达每秒几TB。更重要的是,GRS的功耗仅为每比特几个皮焦点。

不仅如此,Dally还表示他们已经完成了将芯片的TOPS/W加倍的版本。他的团队不断推动新的加速技术,希望在保持可扩展性的同时达到200 TOP/W。

参考链接: