《Chiplet技术的本质、优势与演进.docx》由会员分享,可在线阅读,更多相关《Chiplet技术的本质、优势与演进.docx(5页珍藏版)》请在第一文库网上搜索。
1、Chiplet技术的本质、优势与演进传统芯片设计发展到2012年之后,摩尔定律就开始失效。此后,实现设计的成本会越来越高,而不是再像之前那样,单位晶体管的成本每18个月减一半。想要彻底解决这个问题,就得跳出当前的冯诺依曼结构,比如存算一体。止匕外,还有其它的解决方法,比如使用模拟芯片,或者寻找硅基以外的新材料。甚至是寄希望于今天遥不可及、今后肯定会普及的量子计算机。但一切能彻底解决问题的方法都没法解决当前的困难,因为人们实在是等不起。这些刚刚出现萌芽的技术,想要发展到今天硅基材料、冯诺依曼结构的计算机的程度,至少还需要三四十年,甚至上百年的时间。这可是几代人职业生涯的跨度。那么,中间这段过渡期
2、,人们用什么解决芯片性能提升的困境呢?答案就是我们今天要介绍的Chiplet技术。1. Chiplet的本质Chiplet的意思是“小芯片”,也有翻译成“芯粒”的。实际上,这是一种用搭积木的方式,把一堆小芯片组合成一块大芯片的技术路线。而小芯片,指的就是那些积木的基础模块。为了更直观的介绍Chiplet的优势,我们打个比方,用“在一块玉上雕刻工艺品”的过程来说。传统的芯片工艺和封装大约是这样的:任务就好比是把一栋建筑物的内外结构通过工匠精湛的手艺,立体地雕刻在一块玉中。这类工艺,我们其实在故宫也见到过,有的是用木头雕的,有的是用一块玉雕的,有的甚至是用一整块象牙雕的。既然是雕刻建筑物,那就有简
3、单和复杂之分了。过去的年代,雕刻一间两居室就可以了。但随着雕刻工艺的进展和客户需求的提高,现在已经要求我们在一块玉里雕刻出一栋别墅了。到了这一步,工艺实在没法继续大幅提高了。但客户又提要求了,给我刻一套更复杂的北京地铁结构图。如果继续按从前的思路,这么复杂的结构需要的空间太大了,世界上压根就没有足够大的一整块玉来刻,没办法,那就放弃吧。但现在,正是因为有了Chiplet技术,这个任务还是能勉强完成的。具体方法是这样:首先,不再用一整块玉了,而是用N块,比如说3000块玉。把每块玉作为单独的模块,分别完成雕刻。比如说,西直门站用一块玉,东直门站用一块玉。如果有些地方结构太复杂,像北京南站那样的地
4、铁站,那么一层用一块玉,二层一块,三层一块。当这些站点都雕刻好了以后,中间的连线也不必用一整块玉去雕刻模拟,就简单的用细铜丝连接。然后,再把这3000块玉和互联的铜丝全部镶嵌在一个立体的、像蜂窝一样的木质结构中。这样一套北京地铁的雕塑,照样是精美的、满足客户要求的。对比来看,从前非要用一块整玉来实现这个任务,那是不可能完成的,但自从使用了Chiplet技术,任务勉强完成了。2. Chiplet技术的优势刚才咱们只是打个比方,现在问题来了,这个比喻分别对应了芯片设计、制造、封装的哪些环节?这么做又有什么好处呢?首先的好处就是刚才说的,太过于复杂的芯片,原本用过去的技术没法制造的,现在可以使用Ch
5、iplet技术分模块完成了。这里的关键词就是那个“一块整玉”,它对应半导体技术中的掩膜版(mask)。掩膜版是什么呢?你可以简单理解成是照相的底片。但和照相不同的是,一个完整设计的芯片,并不是由一张底片冲印出来的,而是由十儿张到儿十张底片按照特定的顺序,叠加后冲印出来的。之所以张数特别多,和工艺步骤有关。比如说,在制造芯片的过程中,首先,需要让A区域被光照射到,照射半小时后,A区域的顶层就被那种光晒没了。接着,需要把A区域挡住,用另外一种光围绕A区域的边缘一圈照射。这个过程就需要两张像幻灯片一样的掩膜版:一张A区域是透光的、其余部分不透光;另一张沿着A区域边缘一圈是透光的,其余部分不透光。但掩
6、膜版的尺寸是有限制的。今天,最大的掩膜版大约也只有850平方毫米。再大的话,特定的光透过掩膜版后,波长就会不那么精确,就会导致该融化的地方不融化。这就会直接导致芯片制造失败。而一旦要求太多的晶体管容纳在一起,比如说1000亿个晶体管在一个芯片里,需要的掩膜版就超过了最大限度。这就相当于要找出一块能把整个北京地铁都雕刻进去的玉,是不可能完成的任务。而现在,用了Chiplet技术,不用再找一块那么大的玉了,分模块就能完成。其次的好处就是,这样做便宜。什么意思呢?其实,哪怕客户提出的要求并没有超出单块整玉能雕刻的指标上限,但只要临近这个上限,制造成本就会很高。比如,掩膜版的尺寸上限是850平方毫米,
7、在这个尺寸下,生产出的芯片的合格率只有15%。但如果掩膜尺寸是250平方毫米,这时生产出的芯片合格率就高达90%o所以,如果能用250平方毫米的掩膜版制造出N个合格的小模块,再把它们合理的镶嵌在一起,这么做的成本,远比用850平方毫米的掩膜版一次成型要低得多。而除了良率高能降低成本之外,还因为可以使用不同工艺处理芯片不同的部分,于是也能降低成本。这是什么意思呢?我们都见过CPU的样子,就是一个PCB基板上扣着一个铜盖。但盖子下面是什么呢?从前,盖子下面就是一颗晶莹剔透但又非常脆弱的核心(die),但今天,如果你揭开一些CPU的铜盖,就会发现,里面有若干块晶莹剔透的核心。这就是传说中的多核心吗?
8、不是的,有些部分确实是计算核心,但有些部分是做其它事情用的。比如说,那些负责逻辑运算的部分,必须用5nm的工艺做,这样才能塞进更多的晶体管。但还有其它部分,比如内存控制器,或者一些处理输入、输出接口的控制器,就不是非要用5nm的工艺做了,用14nm的工艺一样没问题。以前没有Chiplet设计时,只有那么一颗晶莹剔透的核心,于是大家就都要用5nm工艺来实现。但现在,其中一部分用14nm这种很老旧的工艺就可以了,成本自然就能降下来。3. Chiplet的技术演进Chiplet的发展,经历过几个阶段:早在2012年,就有一些公司把同样性质的小核心单独制造,最后再把几个拼成一组、整体封装起来。在第一阶
9、段期间,小核心的设计都完全相同,相当于把一个营的步兵升级成一个团的步兵了。第二阶段中,拼在一起的小核心就具有不同的功能和不同的工艺了。就像我刚刚说的,一个铜盖子下既有5nm的核心,也有14nm的核心,它们分别承担不同的任务。这个叫作Chiplet的异构。第三阶段中,拼在一起的小核心不但功能和工艺不同,甚至使用的半导体材料都不一样。在第一和第二阶段里,那些小核心都是硅基材料,但到了第三阶段,有些小核心会采用氮化线(GaN),有的采用碳化硅(SiC),有的采用磷化钿(InP)o之所以用不同的材料,是因为芯片里集成了太多从前根本不可能容纳进来的设备,比如射频芯片、光电芯片、功率芯片等等。第四阶段是今
10、天正在进行当中的。之前三个阶段,芯片功能的丰富、性能的增加都是在二维平面展开的。你需要多一些计算性能,就多加一个计算核心的模块进去;需要光电芯片,就多加一个磷化钿为基底的模块就行。但是,第四阶段开始往三维空间发展,也就是垂直方向上也开始堆芯片了。最初让人惊讶的二维异构Chiplet芯片就是苹果手表里的那个S1芯片。这里除了有传统的APL0778处理器,负责逻辑计算;还有博通的BCM4334通信芯片,负责蓝牙和WiFi;还有来自AMS公司的NFC信号放大器;8GB的闪存与尔必达的512MB的运存;意法半导体的陀螺仪;ADI的触控模组和IDT的无线充电芯片所有这些都封装在一个铜盖子下。苹果的S1芯
11、片让二维异构芯片的概念一下子普及开来。这种创新直接点燃了智能手表行业。而三维的异构Chiplet,最早受启发于SSD硬盘里存储单元的开发。比如,三星已经做出了把176层存储单元堆叠在一个单位上的存储器,这让单位容量的SSD硬盘的价格大幅下降。而且,这项技术也能用来堆叠处理器内部的缓存。从前,一个CPU里有几MB的缓存就已经不得了了,而今天,我们能见到超过100MB的缓存。这其实就是靠这种垂直方向上堆积木的方式实现的。比如,AMD在2022年将要推出的处理器,内部缓存就要这样堆。其中,最高端型号能堆进768MB的缓存,简直骇人听闻。而如果能把逻辑运算部分也立体地堆起来,就能成倍的增加处理器的性能
12、。英特尔在2018年开发的Foveros3DChiplet就是这样的结构。而第一个能在处理器里把逻辑运算部分立体堆叠起来的企业,也正是英特尔。4. Chiplet技术的局限不过说到底,这依然是冯诺依曼结构走到末尾时的修补。Chiplet技术路线并不是没有障碍,比如业界讨论得最多、困难也最大的就是热管理技术跟不上。这个道理很好理解。如果仅仅是平铺,2平方厘米的面积,就能产生300瓦的峰值功率。稍微算一下,一平方厘米就是150瓦。而150瓦/平方厘米的发热,已经超过了典型的核反应堆的功率密度了,今天的散热设施还能勉强应付。假如再堆上6-7层。如果那时候,还是只能从CPU顶部铜盖这一个面散热的话,这个面的功率密度就要超过火箭发动机的喷口了。这么大的功率,现在的散热设施是搞不定的。而现在看来,人们好像打算在芯片内部嵌入一些像毛细血管的、立体的液体冷却通道,用液冷方式把热量带出来。总之,在真正摆脱冯诺依曼结构的处理器普及之前,Chiplet就是芯片结构发展的必由之路。这条路,可能还要走30年或者更久。