现代新兴产业应用对芯片电压设计提出极高要求
无论采用何种工艺技术或瞄准何种市场,电压和完整的功率对芯片设计人员和架构师来说都变得日益关键和具有挑战性。
随着功能特性持续增加,工程师们需要应对日益复杂的约束条件和交互需求,确保电压系统可靠性。这些挑战包括电压转换难题、不同工艺节点上低压与高压功能的混用,以及因工作负载和使用场景变化而产生的热管理问题。通常来说,晶体管数量越多,电流要求就越高。但问题在于需求并非恒定,当SoC或多芯片封装中的多个器件同时获取电流时,就会引发电压下降和功率完整性问题。更大的电流可能导致线路和器件失效,而现代芯片晶体管数量的激增与工作频率的提升,更是让这一问题雪上加霜。
电压系统间的不一致性问题也日益凸显。在AI机架等系统中,通过从12V电源切换到48V电源来提升功率输出,同时保持电流不变。然而,将48V转换为半导体元件所需的较低电压存在技术挑战,容易导致功率损耗。人工智能、物联网、 HPC 和汽车等应用领域需要设备在低电压下运行,从而降低功耗并控制发热量。这种低电压设备运行模式会加剧工艺波动的影响,压缩噪声裕度,并增加时序不确定性。随着技术向7纳米及更小制程发展,电压设备与功率完整性相关挑战愈发突出。更低电压设备和更微小的几何尺寸放大了制造工艺波动的影响,使得器件行为的建模与仿真变得更加困难。更多器件的集成以及2.5D、3D等先进封装技术的应用,显著增加了芯片的热负荷,需要高效的散热管理才能确保设备稳定运行。
所有这些因素都需要在一开始就理解。据Synopsys Logic Library IP和IO IP产品线的产品管理高级总监Josefina Hobbs称,随着应用要求在不牺牲性能或可靠性的前提下不断降低功耗,围绕电压系统的设计压力正在加剧。
电压问题导致压力的应用领域包括:
o 人工智能和物联网:电压设备需要极高的能效才能延长电池寿命,通常在非常低的电压设备(0.4V及以下)下运行。人工智能处理器,特别是用于边缘和可穿戴设备的处理器,必须支持本地、低功耗计算和频繁的内存访问。
o 高性能计算: HPC系统面临着降低热能和能源成本的巨大压力。降低服务器群的电压系统有助于管理电力消耗和冷却需求。
o 汽车领域:电动汽车必须实现续航里程与可靠性的最大化,因此低电压设备运行成为关键。车载娱乐系统和传感器阵列等组件需在保持高性能的同时,将能耗控制在最低水平。
o 加密货币:加密货币专用芯片(SoC)需要处理高并发的海量计算任务,因此在数据挖掘业务中,能效表现对保持盈利至关重要。
这些细分市场对电压系统和功率完整性带来的挑战尤为敏感,因为它们需要高性能和能效来满足其特定需求。
西门子EDA数字设计平台分析部门产品管理高级总监Joseph Davis表示:“芯片设计的核心在于实现正确的功能和时序控制,但在整个设计过程中,工程师们往往默认从引脚到器件再到逻辑门的电压设备都能完美匹配。但到了最后阶段,才会进行实际分析。这么多元件都集成到芯片上,这些元件都在同时抢电,导致电压下降。提供的供电量够用吗?能让它们按预期工作?这时候电源完整性分析工具就会给出答案,确保它们在各自的工作窗口内按预期运行。”
日益复杂的挑战给芯片设计的方方面面带来巨大压力,因此在开发过程中尽早应对电压与功耗完整性问题变得愈发关键。面对这些现实挑战,设计人员开始深入探讨这些因素如何影响电压设备的长期可靠性,以及实际半导体系统中遇到的种种实际困难。
Davis说:“如果电流过大,会不会导致导线或器件失效?这个问题越来越严重,因为功能越多,电流更大,工作频率更高。而且我们制造的规模、集成的晶体管数量,以及器件尺寸的增大,都让问题更加棘手。看看NVIDIA芯片上的晶体管数量和门电路,它已经不再是单纯的芯片了,而是芯片组件。即便是最大的晶粒,也不再是独立的晶粒,而是电压系统。比如2.5D或3D系统,而非独立芯片。这意味着最大的问题就是规模。本质上还是同样的问题,只是因为规模更大,所以问题也更严重。”
一个有趣的问题是,一些电压系统,如AI机架,是如何从12V电源进入服务器机箱,然后将电源转换为5V、1V或更低的半导体组件。
Rambus公司研究员兼杰出发明家Steve Woo解释道:“从12伏转换到48伏的必要性在于,这样可以在不增加电流的情况下输送更多功率,同时还能利用现有的布线系统。但将48伏的高电压转换为半导体元件使用的低电压设备更具挑战性,因为电压转换过程中会产生损耗。而且要将48伏这样的高电压转换为半导体元件的标准工作电压也相当棘手。因此,关键挑战在于实现电压高效转换,可能需要采用新型电源管理组件来提升电压转换效率,并将电压转换过程置于靠近功耗设备的位置,从而确保电压转换后的电力质量始终如一。”
在IP设计领域,虽然面临相似的挑战,但具体问题各有不同。Synopsy公司的Hobbs指出:“特别是在基础IP嵌入式存储器和逻辑库方面,工程师们正面临一系列日益复杂的难题。当存储器位单元的工作电压降至0.5伏或更低时,可靠性问题就会显现,工艺波动和老化效应会降低读写稳定性。对于逻辑库而言,深度低电压操作会加剧对芯片内部参数变化的敏感性,压缩噪声裕度,同时增加时序不确定性,这使得器件的特性分析和验证工作变得更加复杂。”
在单个片上系统(SoC)中实现多种功率的集成,特别是在多轨架构中,会进一步增加电压系统设计和测试的复杂性。Hobbs 说:“转向7纳米及以下的先进工艺节点,这些挑战会更加凸显,晶体管的工艺差异更大,低电压设备对整体性能和良率的影响也更为显著。这些挑战在移动AI、汽车安全、大规模 HPC 等高性能超低功耗应用中尤为关键。解决这些问题,是实现高效可靠下一代解决方案的关键所在。”
电压系统相关挑战延伸至基础IP嵌入式存储器和逻辑库IP设计领域,随着技术向更低电压和更小尺寸的缩微化发展,这些电压设计的建模难度日益增加。
在较低电压设备和更小尺寸的器件中,制造工艺的波动对器件性能的影响更为显著,导致统计分布呈现非线性和不对称特征。其次,电压系统降低会削弱信号强度,使得建立时间和保持时间的违规现象更加隐蔽,更难以精准建模。第三,存储单元中因老化导致的写入故障等效应,往往需要经过长时间运行后才会显现,这就需要进行复杂的长期仿真。第四,随着设计中集成更多不同电压域的电路模块,细微的相互作用和临界工况下的故障发生概率显著增加。但这些现象在测试中更难准确预测。
验证问题
电压管理的日益复杂化与工艺波动性,为现代电压系统带来了更严峻的验证挑战。随着电压系统设计团队面临确保电压系统在多样化工况下可靠性的压力,数字与模拟验证的协同作用愈发显著,特别是在涉及动态负载和多域电源架构时。
Fraunhofer IIS自适应系统工程研究所先进系统集成组组长、高效电子学部门负责人Andy Heinig指出:“特别是在负载条件截然不同的电压系统中,验证所有这些不同状态和情况非常困难。以四核多核系统为例,会出现各种不同情况。某个核可能以10%的负载运行,其它核心则处于关闭状态。当某个核被激活时,其运行效率可达90%。这些动态负载使得我们很难准确评估所需的电压系统覆盖范围。”
Andy Heinig说:“这种现象在混合信号设计中尤为突出。数字验证工具与模拟信号的结合常常是个大问题,因为动态行为本质上属于模拟特性,而验证方法的整合难度极大。当我们需要与封装器件协同验证时,往往发现验证和确认工作存在不完整的情况。要么验证不彻底,要么确认不够充分。目前我们主要对数字元件本身及其功能进行验证。我们认为,未来由于电压设备调节器通过封装器件向晶体管传输电力时存在的不确定性,这类问题将会更加普遍。”
在高端封装和大型片上系统中,这个问题同样存在。Heinig表示:“英伟达经常在最新产品上遇到电源传输难题。AMD和英特尔过去的一些工艺流程也曾遭遇电源传输问题,英特尔甚至召回了部分处理器。虽然围绕这个问题展开了大量讨论,但最终仍无法确定是否属于电源传输问题。他们推出了软件修复方案,但问题依然存在,偶尔还会出现故障,具体原因尚不明确。我们推测部分问题可能源自电源传输网络。”
方案选择
深入分析电压缩放趋势会发现更多细微的挑战。随着电压技术节点持续缩小,关于电压能降低到什么程度以及对可靠性的影响的问题,对工艺工程师和IP设计人员来说变得越来越紧迫。
Rambus公司工程师Woo解释道:“降低电压难度很大,因为我们正逼近阈值电压。电压系统工艺工程师需要在每个新工艺节点上开发不同类型的晶体管,用于平衡电压设备性能与功耗。随着电压系统工艺制程不断缩小,这变得愈发困难。芯片设计师依赖电压系统工艺技术提供的晶体管,用这些基础元件组装芯片。”
从IP设计的角度来看,3纳米和2纳米工艺的电压微调更为复杂,因为此时工作电压已接近晶体管阈值,这会危及器件的可靠性和性能表现。Synopsys公司Hobbs解释道:“因此,为应对这些挑战,我们专注于在IP架构、先进辅助技术及精密表征方法上进行创新。除了实施先进的电压系统微调技术外,还需要考虑协同优化IP设计、构建稳健的辅助方案,并运用先进电压设备建模技术,在最尖端的节点上实现能效提升与可靠性保障。”
电压系统与可靠性问题与芯片设计的物理特性密不可分,尤其在器件尺寸不断缩小至微米级时更为显著。当讨论从电压缩放和功率域集成的理论层面转向实际应用时,必须重视这些因素对寄生效应、布线延迟以及信号时序和功耗完整性产生的具体影响。
Siemens EDA公司的Davis说:“随着电阻增大,电容也会增加,这使得器件间的寄生效应变得尤为重要。这还会对器件间的延迟产生影响。我们一直面临这个问题,但情况却越来越糟。当您在压缩设计余量时,几十年前我们常讨论的关键路径概念就派上了用场。什么是关键路径?如果只有少数关键路径,就会浪费芯片面积,因此需要尽可能将更多网络线推至关键路径状态,或尽可能接近该状态,从而高效利用芯片面积和电压设备性能。结果就是所有电压系统设计都处于临界状态,余量大幅缩水。这意味着必须提高电压系统建模精度,降低容错空间,而且随着电压设备技术代际更迭,这个问题只会愈发棘手,容错余量也会持续缩小。这要求我们必须改进电压系统建模方法,增加仿真场景,同时保持更严谨的审慎态度。”
随着物理和架构约束的日益加剧,对精确电压设备建模和高效验证的需求愈发迫切。这种挑战的叠加凸显了在功耗完整性分析中,特别是在先进电压系统工艺节点的制程缩微化背景下,精准度与实用性的平衡至关重要。
Davis说:“电源完整性说到底就是规模效应和近似处理,追求足够准确的精度。如果追求完美,永远无法完成。你得先完成完整提取并进行SPICE仿真,再过几年才能重新审视。电源完整性之所以成为独立市场领域,是因为在大型电路中根本无法实现完美。因此需要对寄生效应和器件工作特性进行近似处理,同时还要对电路运行机制进行建模。这些近似处理的精度至关重要,随着电压设备技术深入,必须模拟更多效应才能达到同等精度。此外,随着电压系统工艺制程向更小尺寸发展,现在出现了过去可以忽略的故障功率问题。当信号同时到达时,就会引发我们不希望的同步切换,或者信号稍有延迟,就会导致电路开始切换。”
新方法
在电压设备模型需求不断增长、设计余量不断缩小的背景下,工程师们正在探索解决现实应用中电源完整性和可靠性的新策略。一种获得青睐的方法是采用更细粒度的电压管理技术,这为先进的电压系统设计提供了机遇和权衡。
但Rambus的Woo强调,这是一种权衡。拥有更多的电压水平可以更好地根据电路需求调整电压设备,但这样一来,电压系统或芯片必须产生更广泛的电压范围,这可能会增加成本和复杂性。
主动式功耗管理是另一种可行方案,即在芯片内部部署传感器来监测电压降,并通过调整时钟频率或其它方式优化功耗和IR压降。Davis称其为一种切实可行且高效的解决方案。该技术在业内已应用多年,近年来更是不断推陈出新。从某种意义上说,这就像为电压系统投保。但主动管理能带来更深层次的优化,就像主动调仓能降低风险,这种管理方式能显著提升电压系统稳健性并优化性能参数。虽然传感器和控制模块会占用空间,但若能长期稳定达成可靠性与性能目标,这对长期运行和关键任务应用而言无疑是重大优势。 Siemens EDA公司已在高性能计算、人工智能等领域广泛采用此类技术。
在当前主动管理策略与电压设备工艺技术、验证方法持续演进的背景下,架构师和SoC设计人员应如何将这些有效方案融入设计流程?
Synopsys公司的Hobbs 表示:“实现可靠的低压设计需要采用全面的多层次策略。先进的电压设备表征与验证技术,包括基于机器学习的LVF 、基于矩的建模以及高精度蒙特卡洛模拟。对于准确捕捉电压设备工艺变化和时序行为至关重要。设计架构师应运用协同优化的IP模块、设计流程和EDA工具来应对变化性并确保可靠性。采用辅助技术如先进的读写方案、电源门控以及动态电压频率调节(DVFS)技术,在保证可靠性的同时有效管理功耗。对于具有严苛电压或性能目标的应用,可能需要与IP供应商合作开发定制化的存储器架构和逻辑单元。此外,通过引入额外的时序裕度、轨对轨脉冲校验以及时钟偏斜建议来增强设计稳健性也至关重要。持续创新与团队协作是实现成功电压设备低压解决方案的关键。”
Rambus公司的Woo 说:“同样,任何芯片的设计都涉及对工艺规则的理解及其对性能、功耗和面积的影响。设计团队研究工艺规则的影响,并在芯片设计中考虑它们。
此外,为了缓解设计初期提到的这些问题,我们还可以进行更多电压设备模拟验证。但 Fraunhofer的Heinig表示他不确定这是否会被视为重大问题。他说:“人们在电压设备功能验证上投入了大量时间和资金,确保电压设备逻辑确实能正常运作。但有时很难理解为何企业在电力传输网络上投入如此之少。我们曾看到汽车行业的案例,企业投入大量精力在电压设备功能安全上,却忽视了在封装层面设计电力传输网络。这种设计既不遵循功能安全原则,也不考虑处理器本身的特性。”
结论
面对这些多方面的挑战和不断变化的设计方法,建筑师和设计团队今天可以采取哪些实际步骤来主动管理电压问题,并避免在他们的项目中出现昂贵的陷阱?
Siemens公司的Davis说:“这个问题并不好回答,因为它本质上是个设计层面的难题,目前还没有能解决所有问题的万能工具。这比单纯使用工具复杂得多,因为这需要系统方法论,而针对这些环节的电压设备完美模型尚未形成,大家都在努力攻克这个难题。技术发展日新月异,工具也在快速迭代。但归根结底,现在最关键的是周密的规划、细致的划分以及扎实的工程实践。”
最后需要考虑的是,这些挑战并不仅限于最尖端的技术领域。Siemens公司的Davis说:“特别是在2.5D和3D技术中,我们开始看到先进技术和更成熟的技术在传感器及各类组件中的融合,这些组件被整合到日益复杂的电压系统中。即便是成熟技术领域,如今图像传感器和其它类型传感器也正经历重大变革。红外传感器、无线电传感器、激光雷达传感器和视觉传感器的应用范围已不再局限于汽车领域。其中部分技术已应用于智慧城市等自动化场景,以及各类创新领域。厂商们正在将图像传感器芯片进行堆叠封装,通过粘合工艺实现协同工作。这意味着现在需要解决的堆叠问题,可能涉及90纳米或180纳米工艺,而非2纳米工艺。前沿技术所面临的诸多挑战,实际上也在推动着成熟技术的发展。因此切勿认为这只是尖端领域的难题。”
从根本上说,芯片功耗完整性问题的关键在于芯片能否通过电压设备测试,完全取决于电路设计、使用方式以及具体实现方案。Davis补充道:“要想准确预测芯片是否达标,必须全面考虑芯片实际运行时的所有可能组合,并确保每个元件都能获得足够的电流和电压。这根本不是能解决的问题,只能通过近似估算来处理。”
广告
暂无评论