目录
0 引言
1 PCIe线缆组件在不同冷却方式中的性能对比
1.1 配置Paddle card互连的电缆组件测试结果(cable-1)
1.2 直接焊接互连的电缆组件测试结果(cable-2)
1.3 一侧配置Paddle card、一侧直接焊接互连的电缆组件测试结果(cable-3)
2 不同冷却方式中的链路性能测试
2.1 测试台架
2.2 PCIe 6.0链路性能测试结果
2.3 PCIe 5.0链路性能测试结果
3 总结
0 引言
随着数据处理速率的快速增长,服务器的整体功耗也在增加,数据中心已经成为一个巨大的能源消耗体,空气冷却已经无法满足其对散热的需求,并且,随着碳排放量的增加,传统的空气冷却方案显然不符合环保的要求,此时,浸入式冷却逐步成为替代的解决方案,它在云数据中心、边缘计算、高性能计算和其他大规模数据处理应用中获得了广泛的关注。
但是,从设计角度而言,冷却液的使用会改变一些外部元器件和组件的电气性能,比如微带线、连接器、线缆、SMT电容等等,冷却液的高介电常数将导致这些部件的阻抗跌落,产生更多的能量反射,进而降低链路的通信质量,尤其当信号编码由NRZ过渡到PAM4时,单眼图变为三眼图,留给每个眼图的裕量被急剧压缩,此时的设计敏感度将愈发的显现,因此,当PCIe从5.0(32Gbps,NRZ)升级到6.0(64Gbps,PAM4)时,就不得不重新审视冷却液的使用对链路设计裕量的影响。
1 PCIe线缆组件在不同冷却方式中的性能对比
为进行充分验证,使用了三种PCIe线缆组件,分别在空气和两种不同冷却液浸没环境中,利用40GHz网络分析仪(以下简称“VNA”)提取S参数进行数据对比,其中,冷却液01的介电常数为1.89,冷却液02的介电常数为2.1。
并且,讨论中涉及了Paddle card的使用,众所周知,连接器SI性能的提高对提升设备整体的性能具有重要作用,如下图所示,该解决方案使用薄型连接器,可放置在散热器下方,并使用直接端接电缆连接到 I/O 连接器,从而最大限度地减少 PCB 走线长度,降低传输损耗,并且,通过用FPC替换现有的插头连接器,可以很容易地形成更强的接地路径和更短的共振区域,就可以在更高频率下提高信号完整性,因此,在PAM4的高速链路互连中被采用。
1.1 配置Paddle card互连的电缆组件测试结果(cable-1)
如下图(a)所示,电缆组件两端通过接口转换板(测试夹具),对接入VNA,图(b)展示了插入损耗的对比测试结果,与空气中的结果相比,冷却液中的损耗略有增加,并且在35GHz处产生了共振,图(c)展示了回波损耗的对比测试结果,同样可以观察到冷却液中的损耗比空气中要更为严重,TDR是采用所测的S参数,在20%~80%的上升时间为15ps时仿真生成的,图(d)展示了连接阻抗的全过程,VNA通过SMA连接器与测试夹具相连,测试夹具在SMA连接器和电缆连接器之间由PCB微带线互连,电缆连接器使用Paddle card与测试夹具相连,结果显示,空气中(蓝色曲线),测试夹具、电缆连接器和电缆都是85欧姆的差分阻抗,当浸入冷却液中时,微带线阻抗下降了约4欧姆,连接器部分的最小阻抗下降超过10欧姆,电缆线阻抗不变,因为屏蔽阻止了液体直接接触线缆内芯。 另外,值得注意的是,空气(蓝色)和液体(红色、绿色)之间的传播时间是不能对齐的,这是因为波在液体中的传播时间较长(相对介电常数增大的原因)。
由于该电缆组件使用Paddle card进行互连,从图(e)的放大区域可以观察到,最大的阻抗跌落发生在Paddle card处(如上图所示,因为此处有一段裸露的FPC微带走线区域)。
1.2 直接焊接互连的电缆组件测试结果(cable-2)
如下图(a)所示,使用了另外一款测试夹具以便于线缆的直接焊接,图(b)展示了插入损耗的对比测试结果,在这根电缆中,没有看到明显的共振,而且空气和冷却液之间的损失曲线表现得极为相似,值得注意的是,由于在空气测量中应用了一个额外的适配器,在空气中的测量显示了稍高的插入损失,但并不影响对于结果的判断,图(c)的回波损耗结果再次看到了差异,频率范围在10-20 GHz的最大差距达到10 dB,图(d)和(e)的TDR结果显示,与cable-1类似,微带线阻抗下降了约3-4欧姆,在连接器部分下降超过10欧姆,线缆部分保持不变,并且,由于采用了更短的互连形式,产生的传播延时并不明显。
1.3 一侧配置Paddle card、一侧直接焊接互连的电缆组件测试结果(cable-3)
如下图(a)所示,与前两组不同,这根线缆的一侧使用了Paddle card互连,另一侧电缆线焊接到一个小的PCB的背面,再通过PCB通孔连接到连接器引脚,图(b)展示了插入损耗的对比测试结果,与前两个测试结果类似,当电缆浸入冷却液中时,共振也会转移到更低的频率,图(c)的回波损耗结果再次观察到,在频率超过10 GHz时,空气中的回波损耗性能比冷却液中好得多,并且,这种现象在所有的3个电缆组件中都被一致地观察到,图(d)的TDR结果中,阻抗曲线由直接焊接处开始,由于这款连接器具有相对更大的尺寸和更长的引脚,因此,如图(e)所示,连接器的最大阻抗(~95欧姆)高于之前的两个电缆组件(~ 90欧姆),阻抗由95欧姆下降到80欧姆(蓝色曲线)。
2 不同冷却方式中的链路性能测试
如前文所述,冷却液较高的介电常数导致暴露组件的阻抗降低,产生更高的阻抗不匹配和信道反射噪声,从而损害链路的性能。对于具有PAM4信令的高速IO接口,如PCIe 6.0,链路性能对这种反射噪声更加敏感,因此,将3个电缆组件(cable-1、cable-2、cable-3)分别纳入PCIe 6.0(PAM4)和PCIe 5.0(NRZ)的系统测试,以检查链路性能的影响。
2.1 测试台架
PHY测试芯片被安装在一个测试板上,高速连接器安装在测试板的边缘,两者之间通过带状线(TX和RX)相连,3种电缆组件从外部连接在TX和RX之间,PHY测试芯片将被强制以PCIe 6.0的速度运行,并从发射机发送一个PRBS 23模式的码流,接收机有一个内部错误检查器用于报告链路的误码率,该台架先在25℃室温环境下完成测试,再置于同样保持25℃温度的冷却液中完成对比测试。
2.2 PCIe 6.0链路性能测试结果
当以PCIe 6.0的PAM4信令进行测量时,扫描了PCIe 6.0标准中定义的10个发射器均衡(TXEQ)预设,对于每个预设,重复相同的测试5-10次,以取得稳定的变化趋势,下图显示了测量数据汇总,红点和蓝点分别表示空气和冷却液状态下对应的误码率值。
PCIe标准只需要一个TXEQ设置来满足1E-6的目标误码率,因此,接收机时钟占空比循环恢复(CDR)不会锁定到所有的TXEQ设置,数据汇总时删除了CDR无法锁定的结果。
如图(b)所示,对于cable-1,空气中链路误码率可以在TXEQ(Q09)配置下实现最优(1E-7到1E-6之间),满足PCIe 6.0的目标,但是在冷却液中误码率降低至1E-5到1E-4;
图(c)中的cable-2也观察到了类似的影响,在空气中,误码率的最佳EQ为1E-7附近,而在液体中则增加到1E-5附近;
图(d)中的cable-3没有观察到显著的差异,一个可能的原因是cable-3中的连接器峰值阻抗(95欧姆)更高,在空气中,反射噪声已经很大了,浸入冷却液后,相应的峰值阻抗下降到~ 80欧姆,与85欧姆目标相反,但产生与空气冷却时类似的总噪声。
2.3 PCIe 5.0链路性能测试结果
使用NRZ信令对PCIe 5.0传输链路进行了测量,不论何种配置下,总是得到一个误码率 < 1E-11的眼图结果,但这并不意味着浸入式冷却对PCIe 5.0的传输没有影响,如图所示,转而通过汇总眼高的裕量数据,观察出了差异,这是为何呢?
分析认为,主要有如下的三个原因导致了这一现象的发生:
1. 在相同的速率下,NRZ信号对反射噪声的敏感性较低,因此,浸入冷却对PCIe 5.0的影响小于PCIe 6.0;
2. 所采用的PCIe 6.0的测试方案为PCIe 5.0留下了足够的设计空间,因此,浸没冷却的噪声影响被现有的裕量充分吸收;
3. PCIe 5.0的误码率目标为1E-12,这需要更长的运行时间来产生错误。
由于平台连接器类型的限制,只有cable-1和cable-3可以在这个平台上进行测试,但分别收集了四组不同链路的数据,Y轴表示PCIe 5.0的目标BER为1E-12时眼高的幅度裕量(mV),结果清楚地表明,即使在PCIe 5.0的速度下,浸入式冷却也会导致裕量下降,其中,cable-1裕量下降了17%,cable-3裕量下降了5%。
3 总结
本文证明了浸入式冷却对链路性能的影响,由于电缆组件广泛应用于PCIe拓扑中,并且在不同的冷却条件下可以有不同的电气行为,因此,对3种具有不同互连结构的PCIe电缆进行了测试,测量数据显示出了一些共性规律:
1. 浸入冷却液使得插入损耗的谐振频率会转移到较低的值,如果太接近奈奎斯特频点,这可能会影响正常的通信;
2. 浸入冷却液使得回波损耗更大,导致反射噪声增大;
3. 连接器区域的阻抗显著下降,而电缆线阻抗保持不变;
4. 相同的测试条件下,PCIe 6.0(PAM4)受到的影响明显高于PCIe 5.0(NRZ)。
本文翻译整理自DesignCon 2024中发表的“Immersion-Cooling Impact on PCIe 5.0 (NRZ) and PCIe 6.0 (PAM4) Link Performance from Measurements”。