导读:子豪 发自 凹非寺 量子位 报道 | 公家号 QbitAI 还记得谁人全球面积最大、整块芯片比键盘还大的AI超算处理惩罚器Cerepas WSE吗? 方才,这款芯片宣布了 2代 。 作为第二代晶圆级引擎, WSE-2以 2.6万亿 个晶体管和 85万 个AI优化内核,再次刷新记录。 与一代WSE...
子豪 发自 凹非寺
量子位 报道 | 公家号 QbitAI
还记得谁人全球面积最大、整块芯片比键盘还大的AI超算处理惩罚器Cerepas WSE吗?
方才,这款芯片宣布了2代。
作为第二代晶圆级引擎, WSE-2以2.6万亿个晶体管和85万个AI优化内核,再次刷新记录。
与一代WSE对比,WSE-2固然在面积上没有变革(依然很大),二者看起来没什么不同。
可是,芯片的所有机能特征,包罗:晶体管数、内核数、内存、内存带宽和布局带宽,均比一代增加了一倍以上。
有哪些进级?
2019年8月,Cerepas推出了尺寸破记载的AI芯片“晶圆级引擎”(Cerepas Wafer Scale Engine,简称WSE),个中包括1.2万亿个晶体管。
而且在2020年,展示了基于WSE的AI计较机CS-1,计较速度超Joule 200倍以上。
我们将WSE-2与一代,以及A100举办了较量:
可以看到,WSE-2有很大幅度的进级,回收了7nm制造工艺,多项数据都是一代的两倍之多。
比起英伟达的A100,WSE-2多了2.55万亿个晶体管;内核数是A100的123倍;缓存是其1000倍;可提供的内存带宽,则到达了A100的13万倍。
为什么回收大芯片?
据Cerepas官方网站先容,
当今最先进的模子,需要几天或几周的时间举办练习,而且凡是在数十、数百甚至数千个GPU长举办漫衍式练习,以使练习时间更可控。
这些复杂的处理惩罚器集群很难编程,而且面对通信和同步用度高的瓶颈。
而WSE-2将用于业界最快的AI计较机CS-2。
△Cerepas系统(图源:spectrum)
CS-2专门为加快AI应用而设计,旨在实现快速、机动的练习和低延迟的数据处理惩罚,可以在更小的空间和更低的功耗下,提供更高的计较机能。
这使得CS-2拥有更高的计较密度、更快的内存和更高的带宽互连,从而将练习速度晋升数个数量级、使推理的延迟更低,而且易于陈设。
Cerepas芯片,将集群的AI计较和内存资源带到单个设备上,一个CS-2的机能相当于整个GPU集群的机能,同时具有单个设备的简朴性。
CS-2在一个芯片上有85万个内核,提供了集群局限的速度,同时制止了通信迟钝的问题。
同时这也意味着,纵然是最大、最巨大的ML模子,也不需要漫衍式练习或并行编程,因此能节减数周的模子调解和设置时间。
由于形成了最高带宽、最低延迟的通信布局,因此大型模子的及时推理延迟得以低落,无需量化、缩小局限和牺牲精度。
△Cerepas系统
晶圆级引擎的应用
此前,不少尝试室与计较机中心已经陈设了Cerepas WSE和CS-1。包罗:
爱丁堡大学的超等计较中心,操作WSE举办自然语言处理惩罚、基因组学和COVID-19的相关研究。
在美国阿贡国度尝试室(ANL),WSE被用于COVID-19研究、重力波检测和质料发明等;而且在癌症疗法研究中,使癌症模子的尝试周转时间,淘汰了300倍以上。
制药企业葛兰素史克的高级副总裁金布兰森,则暗示:
其增加了生成的编码器模子的巨大性,同时将练习时间淘汰了80倍。
……
按照开拓商兼刊行商Tiny Magicians果真的相关动静,自行车竞速游戏《审慎骑行》(Watch Your Ride)估量将于2021年第一季度在...[详细]
阅读(415)2021-09-14
阅读(415)2021-09-14
阅读(415)2021-09-14
阅读(415)2021-09-14
阅读(415)2021-09-14
阅读(415)2021-09-13
阅读(415)2021-09-13
阅读(415)2021-09-13
阅读(415)2021-09-13
阅读(415)2021-09-13
阅读(415)2019-11-07
阅读(415)2019-11-05
阅读(415)2019-11-05
阅读(415)2019-11-05
阅读(415)2019-11-05
阅读(415)2019-11-05
阅读(415)2019-11-05
阅读(415)2020-03-13
阅读(415)2019-11-05
阅读(415)2019-11-05