Chiplet架构：从异构集成到系统级封装的技术演进与工程实践

张

张建站

2026/5/12 15:34:17

10分钟阅读

1. 项目概述从“旧瓶”到“新酒”的Chiplet革命最近在整理资料时翻到一篇2021年关于Chiplet芯粒的行业讨论标题叫“More than Chiplets”。虽然文章是几年前的但里面提到的很多问题比如商业模式、接口标准、良率挑战恰恰是今天我们这些做芯片和系统设计的一线工程师每天都要面对的“硬骨头”。Chiplet这个概念说新不新系统级封装SiP、异构集成这些玩法早就有了。但说它不新它又确实在彻底改变半导体行业的游戏规则尤其是在数据中心、高性能计算这些对算力、功耗和成本都极度敏感的领域。这篇文章我就结合自己这几年参与的几个相关项目聊聊Chiplet到底“新”在哪里它带来的不只是技术变革更是一场从设计、制造到商业模式的全面重构。简单来说你可以把传统的单片式SoC想象成一家“全能型大公司”从CPU、GPU到各种I/O、内存控制器所有部门都挤在同一栋摩天大楼单片硅晶圆里。而Chiplet架构则更像一个现代化的“产业园区”。园区里有专门做计算的核心公司CPU Chiplet、做图形处理的专业公司GPU Chiplet、做高速通信的物流公司I/O Chiplet它们各自拥有独立、优化的“办公楼”小尺寸芯片但通过园区内的高速专用道路先进封装内的互连紧密协作共同完成复杂的任务。这种模式的优势显而易见每家公司Chiplet都可以采用最适合自己工艺的“建筑技术”制程节点比如计算核心用最先进的3nm以求极致性能模拟I/O部分用成熟的28nm以保证可靠性和成本最后通过先进的“园区规划”2.5D/3D封装集成在一起实现整体系统的最佳效能。2. Chiplet的核心驱动力为何巨头们纷纷入场2.1 经济性摩尔定律放缓下的必然选择驱动Chiplet发展的首要因素也是最现实的动力就是经济性。随着工艺节点向3nm、2nm甚至更小尺寸迈进单个大尺寸芯片尤其是那些面积动辄超过800平方毫米的“巨无霸”的制造成本呈指数级上升。这背后有两个关键原因一是先进工艺的掩膜版Mask成本极其高昂流片一次就是数千万美元二是大芯片的良率Yield问题。芯片制造过程中难免会有缺陷芯片面积越大包含缺陷的概率就越高。良率公式如泊松模型告诉我们在给定缺陷密度下芯片面积翻倍良率会急剧下降。将一个功能复杂的大芯片拆分成多个功能相对单一、面积更小的Chiplet每个小芯片的良率会显著提升从而大幅降低因单个缺陷导致整个大芯片报废的损失。实操心得在一个AI加速器项目中我们最初规划了一颗集成了16个计算核心、HBM2e内存控制器和高速SerDes的28nm单芯片。模拟测算下来芯片面积过大预估良率不到40%成本完全不可控。后来我们果断转向Chiplet方案将16个计算核心做成4个相同的“计算芯粒”采用更激进的12nm工艺以提升性能内存控制器和SerDes做成独立的“I/O芯粒”沿用稳定的28nm工艺。虽然增加了封装成本和设计复杂度但每个小芯片的良率都提升到了90%以上总体制造成本下降了约35%项目才得以继续推进。2.2 性能与灵活性异构集成的终极形态第二个驱动力是性能与设计的灵活性。正如原文中Open Compute Project (OCP)下属的开放域特定架构ODSA工作组所强调的Chiplet是实现“域特定架构”DSA的理想载体。不同的计算任务对芯片工艺的要求截然不同。数字逻辑部分如CPU/GPU核心渴望最先进的FinFET或GAA晶体管来提升速度和能效而模拟/混合信号电路如高速SerDes、射频前端和存储单元如SRAM在先进节点下的性能提升有限甚至可能因为电压降低、噪声增大而变差但它们却要承担高昂的工艺成本。Chiplet架构允许我们将这些不同“域”的电路模块分别用最适合的工艺节点去制造然后通过先进封装技术集成。例如可以将7nm的CPU Chiplet、6nm的AI加速器Chiplet、以及采用更成熟工艺的LPDDR5 PHY Chiplet和PCIe 5.0 Chiplet共同封装在一个基板上。这实现了真正的“异构集成”不仅让每个部分都运行在最佳状态还极大地加速了产品迭代。当需要升级CPU时只需更换新的CPU Chiplet而其他部分如I/O、内存可以复用这大大缩短了“Time-to-Market”。2.3 供应链与生态从垂直整合到水平分工第三个深层驱动力是供应链的重塑和生态的开放。传统的半导体模式是高度垂直整合的巨头们如Intel、AMD从头到尾包办设计、制造、封装。Chiplet有望催生一个更水平化的产业生态。未来可能会出现专业的“Chiplet供应商”他们只专注于设计并销售某类特定的芯粒例如专精于各种接口协议的I/O Chiplet库或经过硅验证的AI加速器Chiplet。系统厂商如云服务商、汽车制造商则可以像“搭积木”一样采购这些经过验证的芯粒快速组合出符合自己特定需求的定制化芯片产品。这正是ODSA等组织努力的方向建立开放的Chiplet接口标准、互连协议和商业模式。当接口标准化后不同供应商的Chiplet才能实现“即插即用”降低系统集成的门槛和风险。这类似于PC产业中的主板、CPU、内存条的分工模式将极大地激发创新活力。3. Chiplet的“税”技术挑战与成本权衡天下没有免费的午餐Chiplet架构在带来巨大优势的同时也引入了一系列新的挑战和成本业内戏称为“Chiplet Tax”。如果不能妥善解决这些问题Chiplet的经济模型就会崩塌。3.1 设计与测试复杂度激增首先设计复杂度从芯片级上升到了系统级。在单片SoC中所有模块通过片上网络NoC通信时序收敛、电源完整性、信号完整性的分析都在一个统一的硅片内进行。而在Chiplet系统中你需要考虑Die-to-Die (D2D) 互连这是Chiplet系统的生命线。信号需要从一个芯片的焊盘Bump发出经过封装基板或硅中介层Interposer上的微米级走线再进入另一个芯片。这引入了额外的寄生参数RLC导致信号衰减、延迟增加和串扰风险。功耗与热管理多个高功耗Chiplet密集集成在一个小封装内会产生巨大的热密度。热点Hot Spot问题比单片芯片更严重需要从架构初期就协同设计功耗分布、散热路径和封装散热方案如硅通孔TSV、微流道冷却。系统级验证验证工作从单一的芯片网表扩展到包含多个Chiplet、封装模型、甚至PCB部分模型的混合仿真。这需要新的EDA工具和方法学比如使用芯片-封装-系统CPS协同仿真平台。3.2 “已知合格芯片”与测试难题已知合格芯片KGD, Known Good Die是Chiplet量产的前提。在传统封装中芯片先进行晶圆级测试CP Test然后切割、封装再进行最终测试FT Test。对于Chiplet你必须在它被放入昂贵的先进封装如CoWoS之前就确信它是100%合格的。因为封装后如果有一个Chiplet失效整个多芯片模块MCM就可能报废损失远大于单个芯片。这就带来了测试经济学上的难题如何对一颗尚未封装、只有微小焊盘的裸芯片进行充分、高效且成本可控的测试测试探针卡的精度和成本、测试接口单元D2D PHY的自测试能力、以及测试覆盖率都面临挑战。原文中提到的“Unknown Ungood Die (UUD)”概念非常形象——如果一颗昂贵的大FPGA Chiplet和一堆便宜的存储Chiplet封装在一起最终因一颗廉价芯片失效而整体报废责任和成本如何划分这需要在供应商和系统集成商之间建立全新的商业协议和质保体系。3.3 封装成本与接口标准先进封装成本是另一项主要的“税”。2.5D封装使用硅中介层和3D封装使用硅通孔TSV堆叠的工艺极其复杂成本高昂。中介层本身就像一块“无源硅片”需要经过光刻、刻蚀等半导体工艺制造出超精细的互连线其成本不亚于制造一块简单的芯片。此外缺乏统一的D2D接口标准是当前最大的障碍之一。各大厂商都在推自己的互连方案英特尔有EMIB嵌入式多芯片互连桥和AIB高级互连总线。AMD凭借Infinity Fabric在其EPYC和Ryzen处理器中取得了巨大成功但这仍是其私有协议。开放标准有UCIeUniversal Chiplet Interconnect Express联盟推出的标准旨在成为Chiplet界的“PCIe”。还有OpenCAPI、OMI、BoW等竞争或互补的标准。选择哪种接口不仅关乎技术性能带宽、延迟、能效更关乎生态锁定和供应链安全。采用私有协议可能获得最佳优化但会绑定单一供应商采用开放标准则更灵活但可能在初期面临性能折衷和生态成熟度问题。4. 从理论到实践一个Chiplet系统设计案例拆解为了更具体地说明我来拆解一个我们团队曾参与预研的、面向边缘AI推理的Chiplet系统设计案例。目标是实现高能效的实时视频分析。4.1 系统架构定义与Chiplet划分核心需求在15W功耗预算内实现4路1080p视频流的实时目标检测与分类。架构决策放弃设计单一SoC采用1个主控Chiplet 4个AI计算Chiplet的异构方案。主控Chiplet (Die A)工艺22nm FD-SOI。选择此工艺是看中其优异的低功耗特性和良好的模拟/射频性能适合集成复杂的系统控制逻辑和多种低速I/O。功能包含一个四核ARM Cortex-A55集群负责任务调度、视频流解码、结果上报、DDR4/LPDDR4x内存控制器、千兆以太网、USB、SPI等系统外设以及一个负责与AI Chiplet通信的D2D接口主机Host控制器。AI计算Chiplet (Die B)工艺12nm FinFET。追求更高的计算密度和能效比。功能每个Die B都是一个独立的AI推理引擎包含专用张量处理单元TPU、本地SRAM缓存以及一个D2D接口设备端Device控制器。四个Die B完全相同以实现设计复用和成本优化。4.2 互连与封装方案选择D2D接口选型经过评估我们选择了当时已初步形成生态的AIBAdvanced Interface Bus协议的简化版本。主要原因有并行总线优势AIB是并行的裸片间接口相对于PCIe等串行协议在极短距离毫米级内能提供更高的带宽密度和更低的延迟这对于多个AI计算单元与主控单元之间需要频繁交换中间张量数据Tensor Data的场景至关重要。物理层简单采用源同步并行传输时钟与数据一起传送简化了时序收敛的设计难度。电气上使用1.2V或0.8V的LVCMOS电平在封装内短距离传输足够可靠功耗也低于高速SerDes。设计资源可用当时有第三方IP供应商能提供经过硅验证的AIB PHY和控制器IP缩短了开发周期。封装方案由于总共有5个芯片且对互连带宽要求高但成本敏感我们选择了基于有机基板的2.1D封装有时也称2.5D-lite。不使用昂贵的硅中介层而是在高密度有机基板上采用细间距Fine-Pitch的铜柱凸块Cu Pillar和重分布层RDL技术来实现芯片间的互连。主控Chiplet放在中心四个AI Chiplet呈十字形分布在四周通过基板内的超细走线线宽/线距可达10μm/10μm量级进行互连。这种方案的成本显著低于硅中介层虽然互连密度和性能稍逊但足以满足本项目需求。4.3 设计流程与协同仿真这是与传统设计差异最大的部分。我们建立了一个芯片-封装协同设计流程前期规划使用Apache的RedHawk和Ansys的SIwave等工具在架构阶段就对封装基板的布线、电源分配网络PDN和信号完整性SI进行初步分析。根据分析结果调整Chiplet的摆放位置和D2D接口的物理位置以优化走线长度和减少串扰。物理实现每个Chiplet分别进行独立的物理设计Place Route但有一个共同的“虚拟顶层”。这个虚拟顶层定义了所有D2D接口的焊盘Bump位置、电源/地环规划以及时序约束。封装团队同步进行基板布线设计。系统级签核设计完成后提取每个Chiplet的GDSII版图、带寄生参数的网表SPEF以及封装基板的S参数模型。将这些模型一起导入系统级仿真环境如Cadence Palladium或Synopsys Zebu进行全系统的功能验证、功耗分析和带寄生参数的时序仿真。这一步是为了确保信号在穿越芯片-封装边界后依然能满足建立/保持时间要求并且没有严重的SI问题。踩坑记录在第一次系统级时序签核时我们发现从AI Chiplet发回主控芯片的某个关键数据信号在封装走线上产生了意想不到的反射导致接收端眼图闭合。原因是封装模型中的一段传输线阻抗控制不连续。解决办法不是回头修改芯片设计而是与封装厂协作调整了基板上该走线的参考层和线宽并重新制作了仿真模型。这个案例凸显了芯片-封装协同设计的必要性。5. 未来展望与工程师的思考Chiplet的浪潮已不可逆转。对于身处其中的工程师而言这意味着知识结构的升级。我们不能再只盯着RTL代码和芯片版图必须将视野扩展到封装、系统、甚至供应链。关于标准之争我个人认为类似于PCIe在板级互连中取得的成功UCIe最有可能在长期成为业界事实上的通用Chiplet互连标准。因为它背靠英特尔、AMD、Arm、台积电、三星、日月光等全产业链巨头旨在打造一个开放的生态。但对于追求极致性能和差异化的头部企业如苹果、英伟达在可预见的未来仍会继续深耕其私有互连技术如Apple的UltraFusion NVIDIA的NVLink-C2C。市场可能会形成“开放标准”与“私有优化”两条路线并存的格局。对EDA工具的挑战现有的EDA工具链主要是为单片芯片设计的。Chiplet时代迫切需要新一代的“系统级EDA”工具能够无缝集成多芯片设计、先进封装布线、系统级电源/热/信号完整性分析、以及多芯片测试规划。这将是EDA行业的下一个爆发点。给初入行者的建议如果你是一名数字IC设计工程师除了深耕本职的架构、验证、后端设计技能外现在有必要开始了解D2D接口协议学习一两种主流协议如UCIe, BoW的基本原理、物理层和链路层。先进封装基础了解2.5D、3D、Fan-Out等封装技术的概念和制造流程。系统级思维尝试从整个系统的角度功耗、性能、成本去思考芯片设计而不仅仅是模块本身。Chiplet不是对过去MCM或SiP的简单重复而是在摩尔定律逼近物理极限时半导体产业的一次深刻范式转移。它把创新的主战场从晶体管的微缩部分转移到了芯片的架构、集成和系统级优化上。这场变革才刚刚开始充满了挑战也孕育着巨大的机遇。对于我们工程师来说保持学习拥抱变化才能在这场“More than Moore”的征程中不掉队。