关键特性
UCIe 电气物理层的一些关键特性如下:
- 支持 4, 8, 12, 16, 24, 32 GT/s 传输速率。
- 单端单向数据传输。
- 双端前向时钟,且支持 Clock Track。
- 支持标准封装和先进封装。
- 支持 Clock Gating 及 Power Gating。
- 点到点的 DC 耦合。
- 模块内长度匹配互连(这是啥?知识盲区)。
- 先进封装时为 Unterminated,标准封装支持 Rx Terminated 及 Unterminated。
封装
UCIe PHY 支持两种封装模式:标准封装(Standard Package)与先进封装(或称高等封装,Advanced Package)。标准封装 Module 采用传统封装技术,Bump Pitch 及 Channel Reach 相对较大。先进封装 Module 采用 EMIB、CoWoS 等先进封装技术,Bump Pitch 及 Channel Reach 相对较小。采用两种封装形式的 UCIe Die 分别如图 1,2 所示。
▲图 1:标准封装的 UCIe Die 互连
▲图 2:先进封装的 UCIe Die 互连
接口
两种封装的 UCIe Module 接口信号如图 3,4 所示。相同物理尺寸下,采用先进封装能够在 D2D 间容纳更多的 Lane。把接口 Lane 分为 Sideband 与 Mainband 两组,每一组分为 Tx、Rx 两个方向。仅从 Lane 的数量上来看(不含 Redundant Lane),标准封装的 UCIe PHY Module 与先进封装的 UCIe PHY Module 的 Sideband 接口相同,均为 (1 SB Data + 1 SB Clock) x 2。
先进封装下 UCIe Mainband 有 (2 Clock + 1 Valid + 1 Track + 64 Data) x 2,标准封装为 (2 Clock + 1 Valid + 1 Track + 16 Data) x 2,先进封装的 Data Lane 数目为标准封装的 4 倍。此外,先进封装的 Module 还提供有冗余 Lane 及 Bump,在 UCIe Link 上出现坏 Lane 时通过 Lane Remapping 实现坏 Lane 修复,以提高良率。Redundant Remapping 相关介绍(ONGOING)。
▲图 3:标准封装的 UCIe Die 互连接口
▲图 4:先进封装的 UCIe Die 互连接口
收发端结构 (MB)
UCIe PHY 收发端 Mainband 部分结构示意图如图 5 所示,主要包括 Clock Buffer、Data Tx/Rx 及 Track Tx/Rx 三部分。
▲图 5:UCIe PHY 收发端 Mainband 部分结构示意图
数据
Data
数据线,标准封装为 x16,先进封装为 x64+4。单 Lane 支持的传输速率有 4, 8, 12, 16, 24, 32 GT/s。接收端数据线可以做 2-way 或 4-way Interleave,速率较高时需要在收发端做 De-Skew。
不同封装速率下的 BER 或有不同:标准封装时,8 GT/s 及以下的 BER 为 1e-27,12 GT/s 及以上 BER 为 1e-15;先进封装时,12 GT/s 及以下的 BER 为 1e-27,16 GT/s 及以上 BER 为 1e-15。
Valid
Tx Valid 信号一方面用来表示数据帧有效,一方面用来控制 Clock Gating 使 PHY 能够快速进入或退出 Idle 状态。
时钟
双端前向时钟
发送端发送时钟由 PLL 产生,UCIe Link 两端的 Die 采用的参考时钟可以为 Common Clock,也可以为 SSC,但是不能存在 ppm 偏差。跟发送端数据一起传输的,还有一对相位不同的前向时钟。由于前向时钟的存在,接收端不需要进行时钟恢复 CDR。
刚才提到,发送端 UCIe Module 在每个方向都有一对相位不同的前向时钟,两相位称为 Phase-1 和 Phase-2。根据传输速率及时钟频率的不同,相位差也或有不同:时钟频率为二分传输速率时,两个前向时钟相位相差 180°;时钟频率为四分传输速率时,相位差 90°。
Clock Track
Track 信号是 Phase-1 的副本。为了消除电压缓变、温度缓变及晶体管老化对接收端 Clock Path 的影响,UCIe 提供了一根 Track 信号进行 Runtime 的时钟校正。Track 并不是主动供给的,在使用之前需要 Rx 通过 Sideband 发出 Track 请求。
Clock Gating
UCIe 支持 Clock Gating 及 Power Gating 的 Low Power 模式,不论哪种封装哪种速率,Idle Power 为 Peak Power 的 15%。
Rx Termination
UCIe 采用在 Rx 端并联电阻(下拉到地)的形式来减小传输线上的信号反射,称为 Rx Termination。UCIe 的 Rx Termination 只适用于标准封装模块,
▲图 6:UCIe Rx Termination
均衡
UCIe 的均衡也是分为发送端均衡跟接收端均衡,两者相互独立,收发端可以独立选择开还是不开均衡。UCIe 均衡比 PCIe 均衡要简单地多,PCIe 均衡技术介绍 可以参考我之前的博文。
发送端均衡
UCIe 发送端采用去加重的均衡方式。具体而言采用二抽头的 FIR 滤波器,均衡系数受最大 Unity Swing 的约束。16 GT/s 是建议进行发送端均衡,24 GT/s 及以上速率时必须进行发送端均衡,以消除 ISI 的影响。
接收端均衡
接收端可以采用 CTLE、Inductive Peaking 或一阶 DFE 做均衡。速率为 24,32 GT/s 时,接收端均衡是可选的,即便发送端没有开启均衡,接收端也能单独做均衡。针对更低的速率没必要做均衡。
Sideband
UCIe Sideband 部分包括 SB Clock 和 SB Message 两部分,工作在 Always-on 的 800MHz 时钟域。UCIe 物理层对外连接的 Sideband 信号,标准封装有 (1 Clock + 1 Data) x2,先进封装对每根 Sideband 信号都进行了冗余备份,为标准封装的两倍。更多 Sideband 相关看此文 -> UCIe Sideband 介绍 。
问题讨论
支持的几种传输速率有什么规律?为啥不支持 20, 28 GT/s ?
是 NRZ 编码吗?Phy Clock 是 32 GHz 吗?接下来怎么搞,PAM4 ? 64 GHz ?
Clock Track 是怎么做的?
参考
UCIe Spec r1.0, Chapter 5
UCIe 物理层介绍(逻辑物理篇)
PCIe 均衡技术介绍
UCIe Sideband 介绍
信号完整性之反射(二)
聊一聊DDR3中的ODT(On-die termination)
深入剖析xilinx的GTP/GTX核,掌握高速串行收发机制