晶圆代工三巨头:从纳米时代转战埃米时代

  英特尔、三星和台积电这三家领先的芯片代工厂已开始做出关键举措,为未来几代芯片技术吸引更多订单,并为大幅度提高性能和缩短定制设计的交付时间创造了条件。

  与过去由单一行业路线图决定如何进入下一个工艺节点不同,这三家世界最大的晶圆代工厂正慢慢的变多地开辟自己的道路。但他们都朝着同一个大方向前进,即采用3D晶体管和封装、一系列使能和扩展性技术,以及规模更大、更多样化的生态系统。但是,他们在方法论、架构和第三方支持方面出现了一些关键性的差异。

  三者的路线图都显示,晶体管的扩展将至少持续到18/16/14埃米(1埃米等于0.1nm)的范围,并可能从纳米片和forksheet FET开始,在未来的某个时间点出现互补FET(CFET)。主要驱动因素是人工智能(AI)/移动计算以及需要处理的数据量激增,在大多数情况下,这些设计将涉及处理元件阵列,通常具有高度冗余和同质性,以实现更高的产量。

  在其他情况下,这些设计可能包含数十个或数百个Chiplet(小芯片或芯粒),其中一些Chiplet专为特定数据类型而设计,而其他芯片则用于更一般的处理。这些芯片以2.5D配置安装在基板上,这种方法因简化高带宽存储器(HBM)的集成而在数据中心和移动电子设备中获得了广泛的应用。移动电子设备还包含别的功能,如图像传感器、电源和用于非关键功能的附加数字逻辑。这三家代工厂也都在开发全3D-IC产品。此外,还将提供混合选项,即逻辑堆叠在逻辑上并安装在基板上,但与其他功能分开,以最好能够降低热量等物理影响,这种异构配置被称为3.5D和5.5D。

  与过去相比,最大的变化之一就是能更快地将特定领域的设计推向市场。虽然这听起来很普通,但对于许多尖端芯片来说,这是激烈竞争所必需的,它要求从根本上改变芯片的设计、制造和封装方式。要使这一方案奏效,需要标准、创新连接方案和工程学科的组合。而在过去,这些学科之间即使有互动,也很有限。

  这有时也被称为“大规模定制”,包括通常的功率、性能和面积/成本(PPA/C)权衡,以及快速组装选项。这就是异构Chiplet的前景,从扩展的角度来看,它标志着摩尔定律的下一阶段(即集成电路上可容纳的晶体管数目翻倍)。十多年来,整个半导体ECO一直在为这一转变逐步奠定基础。

  但是,如何让异构Chiplet(绝大多数都是来自多个供应商与代工厂的加固IP)协同工作,既是一项必要的工程挑战,也是一项艰巨的工程挑战。第一步是以一致的方式将Chiplet连接在一起,以实现可预测的结果,而这正是代工厂花费大量精力的地方,尤其是在通用Chiplet互连(UCIe)和Bunch of Wires(BoW)标准方面。虽然这种连接性是三者的关键要求,但也是分歧的主要领域之一。

  在全面集成3D-IC之前,英特尔代工厂目前的解决方案是开发业内人士所称的针对Chiplet的“插槽”。英特尔代工厂不是为商业市场确定每个Chiplet的特性,而是定义规格和接口,这样Chiplet供应商就可以开发这些功能有限的微型芯片,以满足这些规格要求。这解决了商业Chiplet市场的一大绊脚石。从数据速度到热管理和噪声管理,所有部件都需要协同工作。

  英特尔的方案在很大程度上依赖于2014年首次推出的嵌入式多芯片互连桥(EMIB)。英特尔技术开发副总裁Lalitha Immaneni说:“EMIB底座真正酷的地方在于,你能添加任意数量的Chiplet。我们在设计中使用的IP数量没有限制,也不会增加中间件的尺寸,因此它的成本效益很高,而且与工艺无关。咱们提供了一个封装装配设计工具包,它就像传统的装配PDK(工艺设计套件)。咱们提供设计规则、参考流程,并告知允许的结构。EMIB还会提供我们在装配时所需的任何辅助材料。”

  根据设计的不同,封装中可能会出现多个EMIB,并辅以热界面材料(TIM),以疏导可能滞留在封装内的热量。随着封装内计算量的增加,以及基板变薄以缩短信号传输距离,热接口材料慢慢的变常见。

  但是,基板越薄,散热效果就越差,这可能会引起热梯度随工作负荷而变化,因此难以预测。要消除这一些热量,在大多数情况下要TIM、额外的散热器,甚至有可能需要微流体等更奇特的冷却方法。

  台积电和三星也提供桥接器。三星在RDL(再分布层,是添加到集成电路或微芯片中以重新分配电气连接的金属层)内部嵌入了桥接器,并将其称为2.3D或I-Cube ETM。部分集成工作将预先在已知的良好模块中完成,而不是依赖插槽方法。

  Arm CEO Rene Haas在最近一次三星代工厂活动的主题演讲中说:“将两个、四个或八个CPU集成到一个系统中,这是非常成熟的客户知道怎么去做的事情。但是,如果你想构建一个拥有128个CPU的SoC,并将其连接到神经网络、内存结构、与NPU接口的中断控制器、连接到另一个Chiplet的片外总线,这将是一项艰巨的工作。在过去的一年半时间里,我们正真看到很多人都在构建这些复杂的SoC,希望从我们这里得到更多。”

  三星还一直在针对特定市场,建立Chiplet供应商联盟。最初的概念是由一个企业制造I/O芯片,另一个企业制造互连芯片,第三家公司制造逻辑芯片,当这样的做法被证明可行时,再加入其他公司,为客户提供更多选择。

  台积电已经尝试了许多不同的方案,包括RDL和非RDL桥接、扇出、2.5D CoWoS(Chip On Wafer On Substrate)和系统集成芯片(SoIC),这是一种3D-IC概念,使用非常短的互连线将Chiplet封装并堆叠在基板内。事实上,台积电几乎为每种应用都提供了工艺设计套件,并一直积极为高级封装开发组装设计套件,包括与之配套的参考设计。

  面临的挑战是,愿意投资这些复杂封装的代工厂客户越来越需要非常定制化的解决方案。未解决这一问题,台积电推出了“3Dblox”新语言,这是一种自上而下的设计的具体方案,融合物理和连接构造,允许在两者之间应用断言。这种沙盒方法允许客户利用任何一种封装方法,例如InFO、CoWoS和SoIC。这对台积电的商业模式也至关重要,因为该公司是三家代工厂中唯一一家纯粹的晶圆代工厂——尽管英特尔和三星在最近几个月都独立了他们的代工业务。

  台积电先进的技术和掩模工程副总裁Jim Chang在2023年3Dblox首次推出时的一次演讲中说:“我们的出发点是模块化概念。我们大家可以用这种语言语法加上断言来构建完整的3D-IC堆叠。”

  Jim Chang说,是因为物理和连接设计工具之间缺乏一致性。但他补充说,一旦开发出这种方法,就能在不同的设计中重复使用Chiplet,因为大部分特性已经明确定义,而且设计是模块化的。

  三星随后于2023年12月推出了自己的系统描述语言3DCODE。三星和台积电都声称自己的语言是标准,但他们更像是新的代工规则,因为这些语言不太可能在自己的生态系统之外使用。英特尔的2.5D方法不需要新的语言,因为其规则是由插槽规格决定的,这就为Chiplet研发人员缩短了上市时间,并提供了一种更简单的方法,从而权衡了一些定制化。

  Chiplet的优势显而易见,他们能够在任何合理的工艺节点上独立设计,这对模拟功能特别的重要。但是,如何将这些元件组合在一起并获得可预测的结果,一直是一项重大挑战。事实上,美国国防高级研究计划局(DARPA)最初提出的类似乐高积木的架构方案比最初设想的要复杂得多,需要广泛的生态系统不断做出巨大的努力才能使其发挥作用。

  Chiplet需要精确同步,以便立即处理、存储和检索关键数据。否则,就会出现时序问题,即一项计算延迟或与其他计算不同步,因此导致延迟和潜在的死锁。在任务或安全关键型应用中,一秒钟的损失都会造成严重后果。

  简化设计流程是一项极其复杂的工作,尤其是在特定领域的设计中,不能一刀切。所有三家代工厂的目标都是为开发高性能、低功耗芯片的企业来提供更多选择。据估计,目前30%~35%的尖端设计启动都掌握在谷歌、Meta、微软和特斯拉等大型系统公司手中,尖端芯片和封装设计的经济性已出现重大变化,PPA/C计算公式和权衡也是如此。

  为这些系统公司开发的芯片可能不会进行商业销售。因此,如果他们能实现更高的每瓦特性能,那么设计和制造成本就能被更低的冷却功率和更高的利用率所抵消,从而可能减少服务器数量。反之,在移动电子设备和商品服务器中销售的芯片则相反,高昂的开发成本能够最终靠巨大的销量来摊销。使用先进封装的定制设计的经济性对两者都有效,但原因却截然不同。

  我们假定,在这些复杂的Chiplet系统中,会有多种类型的处理器,有些高度专业化,有些则更通用。由于功耗限制,其中仅有一部分处理器可能会在最先进的工艺节点上开发。先进的节点仍旧能提供更高的能效,从而在相同的面积上容纳更多的晶体管,以提高性能。这对于人工智能/机器学习(ML)应用至关重要,因为要更快地处理更多数据,就需要在高度并行配置中进行更多的乘法/累加运算。更小的晶体管能提供更高的能效,使每平方毫米硅片能处理更多的数据,但需要改变栅极结构以防止漏电,这就是Forksheet FET和CFET即将问世的原因。

  简而言之,工艺领先仍然具有价值。率先将领先工艺推向市场有利于业务发展,但这只是更大难题中的一部分。所有三家代工厂都已宣布向埃米级范围推进的计划。英特尔计划今年推出Intel 18A(1.8nm),几年后再推出Intel 14A(1.4nm)。

  但进步不再仅仅与工艺节点相关。人们越来越关注特定领域的延迟和每瓦性能,而这正是在线D-IC配置中堆叠逻辑的优势所在,即使用混合键合将Chiplet连接到基板和彼此之间。在平面芯片上通过导线移动电子仍然是最快的(假设信号不需要从芯片的一端传输到另一端),但

  在最近的一次演讲中,三星晶圆代工业务开发副总裁兼负责人Taejoong Song展示了一个路线图,其特点是将逻辑叠加安装在基板上,将2nm(SF2)晶粒与4nm(SF4X)晶粒组合在一起,两者都安装在另一个基板上。这绝大多数都是2.5D封装上的3D-IC,也就是前面提到的3.5D或5.5D概念。Taejoong Song表示,晶圆代工厂将从2027年开始在SF2P上堆叠SF1.4。这种方法特别吸引人的地方在于散热的可能性。由于逻辑与其他功能分离,

  我想看看连接情况,以免出现开路和短路。3D-IC的负担更多在于代码设计,而不是执行。”

  Foveros允许将有源逻辑芯片堆叠在另一个有源或无源芯片上,基础芯片用于连接36微米间距封装中的所有芯片。通过利用先进的排序技术,英特尔声称能够保证99%的已知良品率,以及97%的组装后测试良品率。

  台积电的CoWoS则已被英伟达和AMD用于人工智能芯片的高级封装。CoWoS本质上是一种2.5D方法,通过硅通孔使用内插器连接SoC和HBM存储器。该公司的SoIC计划更为雄心勃勃,将逻辑存储器和传感器等其他元件一起封装在生产线D-IC中。这可以大幅度缩短多层、多尺寸和多功能的组装时间。台积电声称,与其他3D-IC方法相比,其键合方案能实现更快、更短的连接。一份报告称,苹果公司将从明年开始使用台积电的SoIC技术,而AMD也将扩大这种方法的使用范围。

  工艺和封装技术的到位为更广泛的竞争选择打开了大门。与过去由大型芯片制造商、设备供应商与EDA公司确定芯片路线图的情况不同,Chiplet世界为计算机显示终端提供了做出这些决定的工具。这在很大程度上要归功于封装所能容纳的功能数量与SoC的网孔限制所能容纳的功能数量之比。封装可以

  ,在某些情况下,仅通过垂直平面规划就能提高性能。但是,考虑到云计算和边缘技术的巨大商机,特别是AI在各地的推广,三大代工厂及其ECO正在竞相开发新的功能和特性。在某些情况下,这需要利用他们已有的技术。在其他情况下,则需要全新的技术。例如,

  这是第二次采用这种方法。早在2011年,三星和美光就共同开发了混合内存立方体(HMC),将DRAM堆栈封装在一层逻辑层上。在JEDEC将HBM变成标准后,HBM赢得了这场战争,而HMC则基本消失了。但是,HMC方法除了时机不对之外,并无另外的问题。

  在新形式下,三星计划提供定制的HBM作为选项。内存是决定性能的重要的条件之一,在内存和处理器之间更快地读写和来回移动数据的能力会对性能和功耗产生特别大的影响。如果内存的大小适合特定的工作负载或数据类型,而且部分处理工作可以在内存模块内完成,由此减少需要移动的数据,那么这一些数据就会大大提高。

  通过芯片背面供电可最大限度地减少此类问题,并减少布线拥塞。但这也增加了其他挑战,包括如何在不破坏结构的情况下在更薄的基板上钻孔。英特尔显然已经解决了这样一些问题,计划今年提供PowerVia背面供电方案。

  台积电表示,计划于2026/2027年在A16工艺提供背面供电。三星的计划也大致相同,将在SF2Z(2nm)工艺中实现。

  与背面供电一样,玻璃基板的处理问题也层出不穷。好的一面是,玻璃的热膨胀系数与硅相同,因此它与硅元件(如Chiplet)的膨胀和收缩兼容。经过多年的观望,玻璃突然变得很有吸引力。

  该生态系统至关重要。芯片行业是如此复杂多变,没有一个企业能做到面面俱到。未来的问题将是这些ECO的真正完整程度,尤其是在工艺数量持续增长的情况下。例如,电子设计自动化(EDA)供应商是必不可少的推动者,任何工艺或封装方法要想取得成功,设计团队都需要自动化。但是,工艺和封装选项越多,EDA供应商就越难支持每一个增量变化或改进,而且从发布到交付之间的滞后时间也可能越长。

  考虑到最近的供应链问题和地理政治学,美国和欧洲认为,要重新进行“离岸生产”和“友岸外包”。对半导体工厂、设备、工具和研究的投资是前所未有的。这对三家最大的代工厂有何影响还有待观察,但这无疑为共封装光学(CPO)、大量新材料和低温计算等新技术提供了一些动力。

  所有这些变化对市场占有率的影响越来越难以追踪。这已不再是哪家代工厂以最小的工艺节点生产芯片的问题,甚至也不再是芯片出货量的问题。一个先进的封装可能有几十个Chiplet。真正的关键是能否快速、高效地提供对客户至关重要的解决方案。在某些情况下,驱动因素是每瓦性能,而在另一些情况下,则可能是时间结果,功率是次要考虑因素。还有一些情况下,可能是多种功能的组合,而只有其中一家领先的代工厂才能提供足够数量的这些功能。但显而易见的是,代工厂的竞争比以往任何一个时间里都要复杂得多,而且慢慢的变复杂。