背板电缆技术在现代AI系统中得到极大发展
一直以来,高性能计算需要良好的背板电缆。为了匹配速度和带宽要求,已经历了几次演变。然而,随着下一代AI计算系统的普及,铜的性能已经到达实际极限,从而推动光学解决方案等新产品的发展。
传统背板技术和子卡设计多年来一直是大型系统的主要组装技术。当早期电子系统需要更多的PCB空间来安装元件时,通常会使用手工焊接将多个板堆叠并连接起来,这种背板技术解决方案成本高昂且可靠性差。
背板的主要功能是为插入其上的多个子卡提供高低速信号和电源连接。允许更换已修复或改进的子卡。背板技术简化了现场的维修和升级工作。背板上的子卡数量可以根据需求调整,实现性能的扩展。通过将背板电缆系统划分为可插拔的计算、存储、电源分配和输入输出模块等,背板简化了设计和制造过程。利用行业标准互连的模块化系统不仅降低了背板技术成本,还可能引入新的背板电缆特性,从而促进了子卡的互操作性。
随着背板电缆互连数量的增加,安装在背板上的连接器从简单的边缘卡连接器发展为两件式柱和插座接口。为了确保机械和电气兼容性,连接器类型、键控、极柱和引脚配置通常由Eurocard和紧凑型PCI等规范定义。该背板技术通过采用带状线和微带线规则减少阻抗,背板结构本身经过精心布局高速电路来升级。层数增加到30层或更多,同时PCB材料也进行了升级,从而改善插入损耗、回波损耗和串扰等。
随着背板电缆引脚数、带宽和功率需求的增加,标准的0.1英寸中心线连接器以多种方式发展。
为了使背板电缆阻抗受控,标准的网格配置被专用接地针和屏蔽取代。随着背板电缆差分信号的引入,连接器触点设计成屏蔽接触对,从而实现更高水平的背板电缆信号完整性。
通过创建双轴接触对的先进屏蔽技术,有效减少了阻抗不连续性和串扰。传统背板的通孔回流焊连接器被柔性压接端子所取代。背板技术制造工艺的创新提高了灵活性,并生产顶部和底部行直角触点之间信号延迟最小的模块。
为了解决从背板技术上的镀通孔到引脚头的信号失真问题,通过减小孔径并重新钻孔减少电短路。一些背板连接器设计完全取消了镀通孔,采用表面贴装压缩焊或热风回流焊技术焊接。
为了缩短背板上的铜通道长度,该背板技术引入了夹层架构堆叠PCB设计,以及中板架构。将背板从机箱后部移至机架中部,卡从两侧插入。
正交中板设计通过让每个子卡都能直接与其它子卡连接,从而取消了背板。这种设计在子卡访问和冷却气流设计方面带来了一些额外的挑战。
背板技术物理性能使得带宽和覆盖范围受到限制,这些背板技术限制在高级计算机应用中尤为明显。背板高速通道的设计者发现,即使是在机箱内的PCB线路很短也会导致不可接受的插入损耗和背板信号失真,同时产生更多功耗。这种背板高速信号的衰减不仅减少了关键通道的数量,还成为了高性能计算系统设计中的一个瓶颈。
一种背板技术解决方案是消除通过PCB迹线发送高速信号,并该背板技术通过具有更好的阻抗和隔离特性的双轴铜缆在板的表面进行传导。
背板电缆在靠近高速设备的位置立即终止,减少PCB导体中的信号传播路径。背板电缆的另一端通常直接连接到前面板上的I/O接口。这种背板技术设计已被证明对盒内关键电路非常有效,并已扩展到使用双轴铜缆和光纤。
这一背板技术概念的下一步逻辑扩展是将这项技术应用于用高性能双轴电缆替代背板中的铜I/O通道。低速和低功率电路则继续使用传统的铜背板连接器。选择背板电缆设计的决定基于IEEE 40dB插入损耗规范,该背板技术规范适用于通过PCB线路和背板电缆传输的高速以太网通道。
背板电缆已使用多年,主要用于高性能计算机,其中背板性能是首要的,而背板成本则是次要的。这些背板系统使用异常大的背板,导致点对点电路很长,这将引入不可接受的背板电缆信号损失水平。
安费诺推出了使用其最高性能背板连接器的背板电缆选项,这些背板连接器适用于双轴带状电缆和离散电缆。
背板高速信号通过安装在优化的差分对线束进行传输,而低速和电源电路则由安装在标准背板上的标准电源和同轴连接器处理。一些背板连接器系统使用母排将千瓦级的功率分配给每个机架。
大型导向柱可确保面板安装的背板连接器与配套服务器之间进行精确预对准。
先进的HPC和AI服务器滑橇可能使用内部板上背板电缆连接高速ASIC与前面板QSFP I/O,以及与后板连接。
高性能背板连接器,例如Amphenol Paladin HD2、Molex Inception、TE Adrenaline Slingshot和Samtec NovaRay®连接器(额定值为224G/s)等。
虽然背板技术在大型系统中实现更大的设计灵活性和优越的信号完整性,但它也带来了一系列挑战。
早期的电缆背板系统由大量的双轴电缆组成,虽然解决了背板性能问题,但制造、维修和电缆管理方面却是一团糟。
一些较小的背板电缆由点对点的离散双轴电缆集合组成。对于本地服务技术人员来说,在现场查找和修复单个背板故障可能很困难。
背板解决方案的一部分是将电缆组织成一个模块化组件,如果发生故障,可以拆除和更换。
模块化盒的概念已经出现,而不是单一的大型组件。为了解决可扩展性和服务问题,已经发展出几种盒概念。
大型盒式磁带体积庞大,重量也相当大,因此必须配备一个坚固的导向系统,包括对接连接器之间的较大间隙。机架公差也必须收紧。
背板盒适应各个客户的特定应用要求。现场维修问题没有简单的解决办法,除了将有缺陷的盒式磁带送回工厂进行维修。
背板组件制造商在发货前,会对其组件进行严格的100%测试,尽量减少此类问题。这些组件是在与供应商紧密合作下设计的。这需要工厂和全球现场支持提供先进的信号完整性分析设备以及丰富的经验丰富的工程资源。
由于高性能计算系统具有独特的电气和机械要求,所以背板是定制组件。但连接器最终组装应符合客户要求。
TE Connectivity最近展示了一个安装在大型服务器或交换机机架后面的盒式电缆背板组件的例子。
电缆背板市场仍然局限于高性能系统,但由于运行在112G、224G和更高频率的AI和HPC计算机集群的巨大需求,该市场继续保持增长。
显然,英伟达的工程师们在设计他们的新DGX GB200 NVL72 AI机架式计算机时,甚至没有考虑使用传统的PCB背板。该系统的核心NV交换芯片拥有500亿个晶体管,这引发了对相关技术的需求。机架内部实现了前所未有的连接性。
解决方案是使用了5000根NVLink铜缆,总长度达两英里,这些电缆被装入四个垂直的NV Link卡中。由于带宽翻倍会使铜缆的有效长度减半,设计者能够使用符合信号完整性和损耗要求的内部铜缆。虽然使用光纤可以提供一些速度和密度上的优势,但240万个光收发器的功耗将使系统总功耗增加40兆瓦。因此,他们选择了既能提供足够性能又能最小化功耗的铜缆。
机架现在已经成为一个巨大的GPU,可以被认为是节点的基本单元。下一代系统的带宽可能会将铜缆的长度限制在半个机架,使光纤成为更经济有效的解决方案。
英伟达已承诺在其旗舰超大规模网络平台中实施硅光子技术。他们最近宣布了一款基于硅光子CPO的新交换机,该交换机利用其Quantum -X800 ASIC,通过144 MPO光纤电缆实现115 Tb/s的性能。
随着下一代人工智能计算系统继续在铜的实际极限上进行设计,无论是铜缆还是最终的光纤,背板电缆将提供一个可行的替代方案。
暂无评论