1.2万亿个晶体管,史上最大芯片的商用之路在哪里?

Lynn 1个月前 (08-20)

Cerebras Systems或将有可能颠覆现有的训练市场。

今天,一颗超大芯片引起了半导体界的轰动。

通过著名媒体《连线》,AI初创公司Cerebras Systems正式公布了史上最大的的单晶圆芯片——Cerebras Wafer Scale Engine,英伟达最大的GPU都不及它的“边角”。

简单来说,Cerebras 打破了传统的技术限制,将一整个300mm硅片直接做成了一颗芯片,因此“大”是人们对它的第一印象,但不止于大。

据悉,这款芯片拥有40万个核(4核处理器的10万倍),其处理能力能够支持大量计算,同时它利用了硅互连的先进封装工艺,实现硅片级别的高速通信和存储,这在理论上让整颗芯片能够用最快的速度调用算力处理极为复杂的AI任务。

Cerebras Wafer Scale Engine = 整个服务器集群

目前,官方透露出来的关键指标如下:

· 硅片大小42225平方毫米(边长大约22cm)

· 1.2万亿个晶体管

· 40万个AI内核

· 18GB的片上内存

· 存储带宽19PB/S

· 架构互联(Fabric型)带宽100PB/S

· 采用了台积电16nm工艺

从透露的消息可以看出,这颗芯片拥有史上最大的片上存储空间(英伟达最好GPU的3000倍)、最多的AI核(每一个核相当于一个小型计算机)和最高的通信速度(最高性能GPU的10000倍内存带宽)。

Cerebras Systems CEO Andrew Fieldman在一份声明中说,“Cerebras WSE专为AI而设计,其中包含了不少基础创新,解决了限制芯片尺寸的长达数十年的技术挑战,如单晶圆良率、功率输出、封装等。其中,所有架构设计都是为了优化AI工作的性能。总的来说,WSE只需要较小功耗和空间,就能提供数百或数千倍的现有解决方案的性能。”

图 |  Hot Chips活动现场介绍WSE

据悉,因具备了存储、计算和通信三大关键元素,且完全基于神经网络设计,现有AI系统所需要处理的张量处理操作、数据存储和通信都能够在WSE上完成,同时WSE将集群通信架构理念做进了这款芯片里,突破了传统带宽的限制,带来了低延迟,同时避免了不必要的性能损失。

将网络通信做进芯片里,这不仅带来AI芯片计算能力的改善,也让用户可以基于它建设更高质量的网络。所以与其说它是一台超级计算机,倒不如说,WSE更像是将一个服务器集群系统“做”进了晶圆里。

值得一提的是,考虑到单个晶圆在制造过程中会出现一些杂质,从而导致芯片故障的问题,Cerebras Systems 的芯片设计是留有裕量的,能够保证一个或者少量杂质不会使整个芯片失效,这也保证了芯片的稳定性。

散热会成为大问题吗?

很多人初次看到这样一种配置,不免会为Andrew担心:这么大一块芯片,散热要怎么做?

不得不说,目前为止,各大新闻中都未提及这款芯片的功耗问题。但不难想象,与我们看见的传统“指甲盖”大小的芯片相比,这款芯片的功耗一定不会低。

对此,Andrew表示,这款芯片不会单独销售,而是将被打包到Cerebras设计的计算机“设备”中。原因是它需要一个复杂的水冷系统去散热。据悉,这个水冷系统是一种灌溉网络,可以抵消以15千瓦功率运行的芯片产生的极端热量。

因为散热,这款芯片无法作为加速卡插入现有的任何服务器。在这种设计下,可以猜测它的功率一定会很高,但与它所要替代的系统集群比较来看,它的功耗也算是很低了。

不过相较于散热,业内人士更为关心它是不是能够按照预想跑起来,“目前来看,这款芯片真正的问题是大量内核,如何让40万个核保持协同和有效,这需要严格考量。”

商用之路在何方?

对于大家对WSE商用的怀疑,在斯坦福大学的Hotchips活动上,Cerebras已经透露,这款芯片并非空有其表,现在已经在跑客户的任务负载了。

目前,从计算角度来看,这一轮人工智能浪潮中最关键的算法应用是深度学习,将深度学习算法应用到AI场景中,需要完成两大核心运算:训练和推理。WSE是为AI专门设计的,因此可以猜测它的目标市场无非训练和推理。

但是这样一款在散热上、价格上都不会“轻松”的芯片,市场真的会买单吗?或者说哪部分市场可能会买单?

对此,Micron的研究员Eugenio Culurciello表示,Cerebras芯片的规模和雄心是疯狂的,不过它能解决大算力需求的场景(如自动驾驶)所需,虽然很昂贵,但有些人可能会使用它。

事实上,从市场需求的角度出发,WSE如果真的实测成功且能够量产,它将极有可能首先撼动英伟达的GPU市场,即训练市场。相比于推理市场,因训练任务重且训练时间长,训练市场多以算力至上,对芯片的价格、功耗并不敏感,所以Cerebras芯片更有可能在训练市场获得成功,这也将再次颠覆训练市场的格局。

而推理市场呢?从目前的情况来看,端侧推理市场没有过高算力需求,且对低功耗的要求十分严苛,WSE大概率不会出现在这部分市场。不过在云端和边缘侧的推理市场,WSE如果不能很好处理功耗和散热问题,这也都会为商用增加阻力。

据Andrew本人自己的估计,用WSE来部署云计算基础设施,总体成本将会是现有造价的1/10。

过于美丽、过于超出公众认知是这款芯片的最大特点,因此在Cerebras正式将这款芯片推出之前,大家对它的疑虑其实难以消除:

“在我们看到Benchmark测试结果之前,我们很难说它的AI设计有多好。”

如Cerebras在推特上告诉大家:Stay tuned。只能静候佳音。

最后,关于Cerebras Systems

Cerebras Systems成立于 2016 年,专注于为数据中心训练提供芯片产品,曾被CB Insights评为“全球最值得期待的100家芯片公司”。

资料显示,该公司曾于2016年完成2500万美元A轮融资,投资方为知名风投Benchmark,后又获得多轮融资,截止2017年9月共获得1.12亿美元融资,估值8.6亿美元。

公司的创始团队背景实力也十分强劲,联合创始人及CEO Andrew Feldman曾经创立过芯片公司SeaMicro,后在2012年,这家公司被AMD以3.34亿美元收购。

图 | Andrew Feldman

在Andrew创办Cerebras Systems之时,有两大重量级人物加盟。一位是曾在Sun担任过高级芯片设计师、低功耗芯片设计的元老级人物Gary Lauterbach,另一位是前 Intel 公司架构副总裁、数据中心首席技术官Dhiraj Mallick。

因为有强大的团队坐镇,Cerebras Systems成立之时就注定不容忽视。现在,这家公司已有194名员工。

最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!

镁客网


科技 | 人文 | 行业

微信ID:im2maker
长按识别二维码关注

硬科技产业媒体

关注技术驱动创新

分享到