Optical 202 · 未来篇

路由即光传输
与 AI 时代的全球神经网络

当 Routed Optical Networking 打破 IP 与光的百年边界,当硅光子把实验室奇迹变成指甲盖大小的商品, 当 AI 训练集群的流量以 Petabit 为单位奔涌—— 光通信正在经历从"传输介质"到"智能神经"的进化。这是 9 模块学习旅程的收官,也是未来 10 年的起点。

50% TCO 降幅
功耗节省
Pbps AI 集群带宽
1.6T 下一代速率

⏱ 阅读约 65 分钟 · 📘 2 个模块 · 12+ 核心概念 · 🗓 2026 年 4 月

TL;DR · 三句话读懂这趟收官之旅

01

RON 让 Transponder 消失

Routed Optical Networking 将可插拔相干光模块直接插到路由器上,消除独立 OTN/Transponder 层。三层(IP+OTN+DWDM)塌缩成两层(IP+光层),单位带宽 TCO 下降 30-60%,功耗下降 8 倍。

02

硅光子是 RON 的引擎

用 CMOS 工艺在硅片上集成调制器、探测器、波导——让相干光模块从机柜缩到指甲盖,从数千美元降到几千块,功耗从数百瓦降到 15-20W。Cisco 收购 Acacia,掌握核心技术栈。

03

AI 重塑光通信全景

万卡 GPU 集群对带宽的贪婪需求,催生了从 CPO(芯片内共封装光学)到海底光缆的全链条变革。光通信已从"数据管道"进化成"AI 神经系统"。

🧠 这篇文章的独特定位
Optical 101 / 102 打下物理与工程基础;Optical 201 讲透了 DWDM 与相干光。 现在 Optical 202 站在最高处,俯瞰 架构革命(模块 8 · RON)时代变局(模块 9 · AI 驱动)——这是整个旅程的升华与落地。
Module 08 of 09

Routed Optical Networking
融合 IP 与光的网络革命

第 7 章结尾我们看到了一个奇迹——曾经占满整个机柜的 100G 相干 Transponder,被压缩到了一支 U 盘大小的 QSFP-DD 模块里, 功耗从数百瓦降到 15-20W。那么,一个自然的问题是: 既然相干光都能直接插到路由器端口上了,为什么还需要独立的 Transponder 层? 这个问题的答案,就是 Cisco 主推的 Routed Optical Networking(RON)——当代光网络最重要的架构变革。

💭 模块引导问题
过去 20 年,每个运营商骨干网都是 "三明治" 架构:路由器(IP 层)在顶,OTN 交换机(传输层)在中,DWDM 设备(光层)在底。 每经过一层都要做一次 O-E-O 转换,每层都有独立的网管系统、独立的运维团队、独立的规划工具。 这种架构合理吗?一定要这样吗?能不能把中间层消灭掉? 提示:思考每一层存在的物理必要性。是物理定律要求的,还是工程妥协的结果?

§8.1 传统多层网络架构的痛点

8.1.1 传统"三明治"架构

从 2000 年代末到 2010 年代中期,几乎所有的服务提供商骨干网都采用这样的分层架构:

站点 A(北京) IP/MPLS 层 路由器 + 灰光模块 4×100G 灰光 OTN 层 OTN 交换 + Muxponder DWDM 彩光 DWDM 层 Transponder + ROADM 每层都有 O-E-O 转换 🔌 独立管理系统 👥 独立运维团队 📊 独立规划工具 💰 多重设备成本 光纤(DWDM 链路) 跨城 / 跨国 80-5000km 站点 B(上海) IP/MPLS 层 路由器 + 灰光模块 4×100G 灰光 OTN 层 OTN 交换 + Muxponder DWDM 彩光 DWDM 层 Transponder + ROADM 每层都有 O-E-O 转换 🔌 独立管理系统 👥 独立运维团队 📊 独立规划工具 💰 多重设备成本 图 8-1:传统三层网络架构——每层独立,功能冗余,O-E-O 累积

8.1.2 这种架构的六大痛点

① 多次 O-E-O 转换

IP → OTN → DWDM,每层都要把光变电、处理、再变光。每次转换都意味着额外的功耗、成本、延迟。一个 400G 波长从源到目的地可能经历 4-6 次 O-E-O!

② 管理域碎片化

IP 团队管路由器,传输团队管 OTN + DWDM,每层有独立的网管系统(NMS)、独立的规划工具(Cisco WAE vs ONP)、独立的告警系统。跨层故障定位往往需要几个团队开会数小时。

③ 资源利用率低

各层独立规划,相互不感知。常见情况:IP 链路利用率 40%,但对应的 OTN 时隙已经规划满;或者 DWDM 波长容量用了 80%,但 IP 层还有很多空闲端口。这种错配造成巨大浪费。

④ 部署周期长

新业务上线要跨三层协调:先在 DWDM 层规划波长、再在 OTN 层配置时隙、最后在 IP 层建立 MPLS 路径。典型周期 2-8 周——在 AI 时代这是致命的。

⑤ TCO 爆炸

硬件成本(路由器+OTN+Transponder+ROADM)、软件授权(多套 NMS)、机柜空间(多层设备)、功耗(多次 O-E-O)、运维人力(多团队)——每一项都是乘法叠加。

⑥ 技术迭代割裂

IP 层演进到 400G、800G 的节奏,与 DWDM 层的 Transponder 演进不同步。经常出现 IP 层容量翻倍但 DWDM 层跟不上,或反之——导致昂贵设备闲置。

8.1.3 一个具象化的例子:400G 跨城互联

假设你是一家运营商的网络架构师,老板要求在北京到上海之间建一条 400Gbps 的数据中心互联(DCI)链路。在传统架构下,你需要:

📦 传统方案的"食谱"(每端配置)
  1. 1 台核心路由器(如 Cisco ASR 9000),配 4 个 100GE QSFP28 灰光模块
  2. 1 台 OTN 交换机(如传统 OTN 平台),把 4×100GE 复用成 OTU4 或 ODUflex
  3. 1 台 Transponder 机箱(如传统 DWDM 平台),将 OTN 信号转成 DWDM 彩光
  4. 1 台 ROADM 节点(管理 DWDM 层的波长添加/下载)
  5. 中间 3-5 个 EDFA 放大节点(每 80km 一个)

单端总功耗估算:路由器 ~500W + OTN ~400W + Transponder ~400W + ROADM ~300W = 1600W+

部署周期:8-12 周(规划 + 施工 + 调测)

CAPEX:约 $500K - $1M(不含光缆)

现在你有三个独立系统要管理、三套规划要协调、三个团队要开会。每次变更都要穿越三个管理域。这种复杂性 × N 条链路 × M 个城市 = 运营商的日常噩梦。

而 AI 时代的带宽需求正在指数级增长——传统架构根本跟不上节奏。这就是 RON 登场的历史必然性。

§8.2 Routed Optical Networking 核心理念

8.2.1 What — RON 是什么?

Routed Optical Networking(路由光网络,简称 RON) 是 Cisco 在 2020 年代初主推的架构革命。它的核心理念用一句话概括:

"消除独立的 OTN 与 Transponder 层,将 DWDM 相干光传输能力直接集成到路由器中。路由器端口直接输出 DWDM 彩光,接入光层(ROADM 或直连光纤)。"

这不是小修小补,而是对过去 20 年网络架构根本范式的颠覆。从传统三层到 RON 两层的变革如下图所示:

传统三层架构 IP/MPLS 层 路由器 + 灰光 O-E-O #1 OTN 层 OTN 交换 + Muxponder O-E-O #2 DWDM 层 Transponder + ROADM 光纤 ✗ 每层独立 O-E-O 转换 ✗ 三套管理系统 ✗ 单端 400G 约 1600W ✗ 部署周期 8-12 周 ✗ CAPEX $500K+ 演进 RON 两层架构 IP + 相干光 融合层 路由器直接插 ZR/ZR+ 模块 直接输出 DWDM 彩光 🔌 单次 O-E-O 光层(仅保留) ROADM + EDFA(简化) 光纤 ✓ 单次 O-E-O 转换 ✓ 单一统一管理平面 ✓ 单端 400G 约 200W ✓ 部署周期 1-2 周 ✓ CAPEX 降低 40-60%

8.2.2 Why — 为什么 RON 会成功?

简化层次

从三层塌缩到两层,从"三明治"变成"双层蛋糕"。每减少一层,都意味着指数级的复杂度下降。

降低 TCO

消除 OTN/Transponder 专用设备层,减少 O-E-O 转换次数。典型 TCO 降幅 30-60%(ACG Research 独立测算)。

加速部署

单一管理平面(Cisco Crosswork),业务上线从"周"级降到"天"级。对 AI 时代的敏捷性至关重要。

提升效率

资源统一规划,IP 层与光层不再各管各的,容量利用率显著提升。典型从 40% 提升到 70%+。

降低功耗

单位带宽功耗从 1600W/400G 降到 200W/400G,降幅约 8 倍。对绿色数据中心建设意义重大。

面向未来

与 400G/800G 高速以太网演进同步,不再受传输层拖累。可自然演进到 800G ZR、1.6T。

8.2.3 How — RON 是如何实现的?

RON 的实现依赖三个关键技术使能:

RON 的三大技术基石

  1. 可插拔相干光模块(400G ZR/ZR+、800G ZR/ZR+):让路由器直接输出 DWDM 彩光,这是物理可行性的基础。
  2. 硅光子集成:使相干光模块达到 QSFP-DD 尺寸和 15-20W 功耗,这是经济可行性的基础。
  3. 统一管理自动化(Cisco Crosswork):让 IP 层和光层在同一个管理平面协同工作,这是运维可行性的基础。
如果说传统架构像"火车换乘体系"(地铁→高铁→国际列车,每次换乘都要拖行李、过安检), 那么 RON 就像"一站直达的飞机"——你从起点坐上去,中途不用换乘,终点直接下车。 可插拔相干光就是飞机本身;硅光子让飞机变得足够便宜可以大规模运营; Crosswork 就像空管系统,确保所有航班有序、高效、安全。

§8.3 可插拔相干光模块 —— RON 的关键使能技术

8.3.1 从 Transponder Chassis 到可插拔模块的演进

让我们用一条时间线,直观感受这场 15 年的技术飞跃:

~2010
第一代 100G 相干 Transponder:整机架(42U+),单端口功耗 400W+,成本数十万美元。 客户侧是 10×10GE,线路侧是专用 DWDM 端口。占据整个数据中心的机柜空间。
~2015
模块化相干 Transponder(如 Ciena WaveLogic 3、Infinera XR):单板卡形式,单端口功耗降到 100-200W。 仍然是专用设备,但密度大幅提升。
2017-2018
第一代 CFP2-DCO 可插拔相干光:虽然被称为"可插拔",但 CFP2 封装相对较大, 仍主要用于专用 Transponder 设备,未能真正插入到路由器端口。
2020
🚀 400G ZR 横空出世(OIF 标准):QSFP-DD 封装、15-18W 功耗、支持 80-120km、DP-16QAM 调制。 第一次可以直接插到路由器的 400GE QSFP-DD 端口上——RON 的物理前提出现了。
2022
400G OpenZR+(MSA 标准):Cisco/Acacia、Nokia、Juniper 等主导, 扩展距离到 1000km+,支持多种调制和速率(100G/200G/300G/400G)、支持 PCS 概率整形。 真正让 RON 走出 DCI,进入城域/区域骨干。
2023-2024
400G ULH(Ultra Long Haul)与 Bright ZR+:Cisco Acacia 推出增强型模块,TX 功率提升到 +1dBm, 支持距离延伸到 2500-3000km+。这让 RON 开始蚕食传统长距骨干市场。
2024-2025
🔥 800G ZR/ZR+ 规模商用:OSFP / QSFP-DD800 封装、25-30W 功耗、140GBaud DSP、 支持 PCS 概率整形。AI 数据中心互联从 400G 全面向 800G 迁移。
2026+
1.6T ZR 标准化进行中:OIF 正在制定 1.6T 相干标准,240GBaud 波特率、3nm DSP ASIC, 目标 2026-2027 商用。AI 超大规模数据中心互联的主力。

8.3.2 关键标准与互操作性

标准 制定组织 典型速率 调制 最大距离 适用场景
OIF 400ZR OIF 400G DP-16QAM @ 60GBaud ~120km DCI 短距
OpenZR+ Cisco/Acacia 等 MSA 100G-400G DP-QPSK/16QAM + PCS 1000km+ 城域/区域骨干
Bright ZR+ / ULH Cisco Acacia 400G DP-QPSK + PCS(灵活波特率) 2500-3000km+ 长距骨干、超长距
OIF 800ZR OIF 800G DP-16QAM + PCS @ 140GBaud ~120km AI DCI 主力
800G OpenZR+ MSA 400G-800G DP-16QAM/64QAM + PCS ~1500km 城域/区域
OpenROADM OpenROADM MSA 多速率 多种调制 - 多厂商光层互操作

8.3.3 功耗、尺寸、成本的飞跃

🏢 2010 年 100G Transponder
  • 尺寸:整机架(42U)
  • 功耗:400W+ / 端口
  • 成本:~$100K / 端口
  • 客户侧:10×10GE
  • 管理:专用 DWDM 网管
  • 部署:需独立机柜空间
🍫 2024 年 400G ZR+ 可插拔
  • 尺寸:QSFP-DD(如巧克力棒)
  • 功耗:15-22W / 端口
  • 成本:~$3K-$5K / 端口
  • 客户侧:直接是 400GE
  • 管理:路由器标准接口
  • 部署:插入路由器即用

这组对比令人震撼——15 年间,尺寸缩小 >1000 倍,功耗下降 ~20 倍,成本下降 ~30 倍,速率提升 4 倍。这不是渐进式改良,而是数量级的飞跃。正是这种飞跃让 RON 从 PPT 概念变成了现实。

⚡ 为什么功耗下降如此重要?
以一个大型运营商骨干网为例:假设有 1000 条 400G 链路。传统 Transponder 方案:1000 × 2 端 × 400W = 800kW 总功耗。 RON 方案:1000 × 2 端 × 20W = 40kW 总功耗。每年电费节省数百万美元,还不算机柜空间和冷却成本。 这就是为什么所有超大规模云厂商都在押注 RON。

8.3.4 深度解析:Cisco Delphi DSP 与 800G/1.6T 生态

要真正理解 RON 为什么能进入 AI 时代,我们必须走到最前沿——2024-2025 年正在规模商用的 Cisco Delphi 系列 DSP 与即将面世的 CIM16。这些产品定义了光通信的下一个 5 年。

🧠 Delphi DSP —— 4nm 工艺的相干光心脏

工艺节点:4nm CMOS(与最先进的手机 SoC 同级)

波特率:最高支持 131GBaud(行业领先)

调制能力:第一个支持 互操作 PCS(Probabilistic Constellation Shaping) 的商用 DSP——这意味着不同厂商的 800G ZR+ 模块可以互通,这是开放生态的里程碑。

功耗:800ZR <28W、800G ZR+ <30W(同容量下比前代降低 40%)

应用封装:QSFP-DD800 和 OSFP 双形态

关键创新:集成 EDFA 和 TOF(可调谐光滤波器)在模块内,进一步简化系统设计

🚀 CIM8 与 CIM16 —— 迈入 Terabit 时代

CIM8(2024 商用):单载波 1.2Tbps,140GBaud,基于 Acacia Jannu DSP(5nm)。已在 Verizon、Hawaiki 海缆等顶级网络部署,打破 1Tbps 单波长跨越 14 跨段的业界记录。

CIM16(研发中,2025-2026):单载波 2.4Tbps,240GBaud——这意味着一根光纤装进 >30Tbps 容量在商用系统中成为现实。

为什么重要:超长距、海缆等场景仍然需要"超高性能 Transponder",CIM 系列保证了 Cisco 在这些场景不落下风。RON 覆盖大部分场景,CIM 覆盖极限场景——两者互补,构成 Cisco 光网络的完整战略。

⚡ 垂直整合的终极体现
Delphi DSP(4nm)+ OE-MCM(光电多芯片模块)+ 自研 SiPh(硅光子 PIC)+ 自研激光器——Cisco 是目前唯一能在单一公司内完成全部这些技术模块的厂商。这种垂直整合能力直接转化为:更低的功耗(单位 Gbps)、更短的产品上市时间、更强的技术话语权。这也是为什么 Cisco 的 400ZR 模块累计出货量已超过 60 万只,在行业中遥遥领先。

Cisco 400G/800G 模块化路线图一览

产品系列 速率 波特率 距离 DSP 工艺 典型场景
100G ZR QSFP28 100G 30GBaud 80km (dark) / 300km (amp) Greylock 5G 接入、企业互联
QDD-400G-ZR 400G 60GBaud ~120km Greylock 16nm DCI 短距
QDD-400G-ZRP (OpenZR+) 100-400G 60GBaud 1000km+ Greylock 16nm 城域/区域
Bright ZR+ (HE0) 100-400G 60GBaud 扩展(+1dBm) Greylock 16nm ROADM 友好
400G ULH 400G 66-118GBaud 3000km+ Greylock 16nm 超长距骨干
Delphi 800ZR 800G 131GBaud ~120km 4nm AI DCI 主力
Delphi 800G ZR+ 400-800G 131GBaud 1500km+ 4nm AI 城域/区域
CIM8 (多跳) 400G-1.2T 140GBaud 18,400km (跨洋) Jannu 5nm 海缆/极限长距
CIM16 (2025+) 1.2T-2.4T ~240GBaud 长距 下一代 下一代极限

§8.4 硅光子技术(Silicon Photonics)—— RON 的"引擎"

上一节我们看到 400G ZR 模块从"机柜"缩到了"指甲盖"。但这是怎么做到的?答案是一个看似不可能的技术——硅光子(Silicon Photonics)

8.4.1 What — 硅光子是什么?

硅光子是利用标准 CMOS 半导体工艺,在硅芯片上集成光学元件(调制器、探测器、光波导、耦合器等)的技术。核心思想是:

"把光学组件像电子芯片一样批量制造——让光学从'手工作坊'进化为'半导体工厂'。"
想象传统光学组件是"机械手表"——每个齿轮、发条都是精密手工装配,无法大规模生产。 而硅光子就是"电子数字手表"——所有功能被集成到一块芯片上,成本从几千美元降到几美元, 还能大规模量产。这就是硅光子在过去 10 年给光通信带来的变革。

8.4.2 Why — 为什么硅光子如此重要?

硅光子的核心优势
  • CMOS 工艺成熟:可在现有 200mm/300mm 晶圆厂制造,不需建新厂
  • 规模化与低成本:单颗芯片成本可降到几美元
  • 光电集成:光学和电子功能在同一芯片内紧密耦合
  • 高密度:一颗芯片集成几十个光学元件
  • 可靠性高:半导体工艺带来的稳定性
硅光子的挑战
  • 激光器问题:硅无法发光(间接带隙半导体)
  • 光损耗:硅波导损耗略高于 III-V 材料
  • 温度敏感:硅的折射率随温度变化大
  • 高速调制挑战:早期硅调制器速率受限
  • 封装复杂:光纤与芯片的对准精度要求极高

8.4.3 How — 硅光子的核心技术构件

硅光子芯片核心组件示意图 SOI (Silicon-on-Insulator) 硅基板 外部激光器 InP 材料 (CW 光源) 光纤耦合 光栅耦合器 硅波导 MZM 调制器 (等离子色散效应) 电驱动信号 AWG WDM 复用 光纤输出 接收侧对称结构 Ge/SiGe 光电探测器 硅基兼容 相干接收 90° Hybrid 集成在硅光芯片 图 8-2:硅光子芯片上集成的关键光学元件
① 硅波导(Silicon Waveguide)

利用 SOI(Silicon-on-Insulator)工艺,在硅层上蚀刻出微小的波导结构。由于硅的折射率 (n=3.5) 与二氧化硅 (n=1.5) 差异大,光可被强力约束在波导内传播。波导宽度仅 450nm 左右。

② 硅调制器(Silicon Modulator)

利用"等离子色散效应"(Plasma Dispersion Effect)——通过注入或抽取电子/空穴改变硅的折射率。常用 Mach-Zehnder 结构,速率可达 100GBaud+。这是实现相干光调制的关键。

③ 锗硅探测器(Ge/SiGe PD)

由于硅对 1550nm 光不敏感,需要在硅基上沉积锗(Ge)层作为探测材料。锗-硅兼容性好,可集成在同一芯片。典型响应度 0.9A/W,带宽 50GHz+。

④ 光栅耦合器 & 边缘耦合器

解决"光纤 ↔ 芯片"的光学接口问题。光栅耦合器从芯片顶部垂直耦合(便于测试),边缘耦合器从芯片侧面耦合(低损耗)。都是硅光子的难点之一。

8.4.4 硅光的"阿喀琉斯之踵"——激光器问题

硅光子有一个根本性难题——硅无法发光

这是因为硅是间接带隙半导体:电子从导带跃迁到价带时,不直接发射光子,而是先以声子形式释放能量。这在物理上决定了硅无法制作高效的激光器。

三种主流解决方案

  1. 混合集成(Hybrid Integration):把 InP(磷化铟)或 GaAs(砷化镓)激光器芯片粘接到硅光子芯片上。这是目前最成熟、最主流的方案。缺点是对准精度要求极高,良率不够高。
  2. 异质外延(Heterogeneous Epitaxy):直接在硅基上生长 III-V 族材料(如 InP)。这是前沿研究方向。挑战是 III-V 与硅的晶格常数不匹配,缺陷密度高。
  3. 外部激光源(External Laser Source):激光器独立放置,通过光纤耦合到硅光芯片。适用于对激光器功率、稳定性要求极高的场景(如数据中心的 LASER-FORWARD 架构)。

8.4.5 Cisco Acacia 的故事 —— 把硅光子做到极致

2021 年,Cisco 完成了对 Acacia Communications 的 48 亿美元收购。这次收购至今被认为是光通信行业最重要的并购之一。

为什么?因为 Acacia 有两样核心资产:

  1. 业界领先的相干光 DSP ASIC:从 Jannu(5nm)到即将面世的 Delphi(4nm)DSP 芯片,决定了可插拔相干光的性能上限。
  2. 成熟的硅光子集成平台:自研的硅光子 PIC(Photonic Integrated Circuit),可以把相干光模块所需的所有光学元件集成到一颗芯片上。

Cisco 收购 Acacia 后的产品路线图:

产品系列 发布时间 速率 封装 核心特性
QDD-400G-ZR-S 2021 400G QSFP-DD OIF 400ZR 标准,DCI 短距主力
QDD-400G-ZRP-S 2022 100G-400G QSFP-DD OpenZR+,城域/区域骨干
DP04QSDD-HE0 (Bright ZR+) 2023 100G-400G QSFP-DD +1dBm TX 功率,扩展距离
DP04QSDD-ULH-A1 2024 400G QSFP-DD ULH(超长距),2500-3000km+
CIM 8 系列 2024 120G-1.2T CFP2 单波 1.2Tbps,多跳光学
Delphi 800G ZR/ZR+ 2024-2025 400G-800G QSFP-DD800 / OSFP 4nm DSP,AI DCI 主力
🔑 Cisco Acacia 的战略价值
收购 Acacia 后,Cisco 实现了从 DSP ASIC → 硅光子 PIC → OE-MCM 封装 → 光模块组装 的 100% 垂直整合。 这种端到端的控制力,让 Cisco 能在 800G/1.6T 时代提供比第三方更低的功耗、更强的遥测能力、更好的链路稳定性。 这就是为什么 Cisco 的 ZR/ZR+ 模块能在链路预算上领先行业——不是偶然,而是垂直整合的胜利。

Acacia 的收购也让 Cisco 成为目前全球唯一 100% 垂直整合的相干光模块厂商。竞争对手(如 Ciena、Juniper、Nokia)都在不同程度上依赖第三方 DSP 或硅光子供应商。

§8.5 RON 的系统架构

理论已经足够,现在让我们看看一个真实的 RON 部署长什么样子。

8.5.1 典型部署场景

一个典型的 RON 系统由以下核心组件构成:

Cisco 8000 系列路由器

基于 Cisco Silicon One ASIC 的高性能路由器,单机容量从 10.8T 到 259.2T。QSFP-DD 端口直接支持 400G ZR/ZR+ 插入。

NCS 5500 / 5700 系列

面向多业务、深缓冲的路由平台。NC57-24DD 单板卡 24 个 QSFP-DD 端口,可插入 24 个 400G ZR+ 模块。

400G ZR / ZR+ / ULH 模块

直接插入路由器 QSFP-DD 端口,线路侧直接输出 C 波段 DWDM 彩光,频率可配置。

NCS 1010 OLS

Cisco 的下一代开放光线路系统(OLS),支持 C + L 波段,自动化程度极高。

NCS 2000 ROADM

面向城域/长距的模块化 ROADM 平台,与 ZR/ZR+ 无缝配合。

Crosswork 自动化平台

统一的 IP + 光层管理、规划、自动化编排平台。

8.5.2 三种典型连接方式

RON 支持三种连接模式,从简单到复杂,覆盖所有业务场景:

方案 1:直连光纤(Dark Fiber) 路由器 A 400G ZR 直连光纤 <120km 路由器 B 400G ZR ✓ 最简单、最低成本 · 适合 DCI 短距 <120km 方案 2:经 EDFA 放大链(延长距离) 路由器 A 400G ZR+ EDFA +20dB EDFA +20dB EDFA +20dB 路由器 B 400G ZR+ ✓ 典型城域距离 · 200-600km · 无需 DWDM 传输层 方案 3:经 ROADM 光层(多波长/网状网) 路由器 A 400G ZR+ ROADM NCS 1010 / NCS 2000 EDFA × N ROADM 中间节点 (可选) ROADM 路由器 B ✓ 长距骨干/多波长 · 支持波长灵活上下 · 网状拓扑 图 8-3:RON 的三种典型连接方式 —— 按距离和业务复杂度递进

三种方案的对比与选择决策树

RON 连接方案决策树 两个数据中心需要互联 你该选哪种方案? 距离多远? <120km 120-1000km >1000km 方案 1:直连光纤 400G ZR + Dark Fiber 💰 最便宜 ⚡ 最简单 典型:同城 DCI 方案 2:EDFA 链 400G ZR+ + EDFA × N 🔧 无 ROADM 的中距 典型:省内骨干 方案 3:ROADM 光层 ULH ZR+ / CIM8 🌐 长距/多波长 典型:国家骨干 需要多波长聚合? 升级到方案 3 ROADM + WSS + 多波长 支持波长灵活上下 保持当前方案 更简单 · 更经济 大部分 DCI 场景
💡 决策心法
简单原则:能用方案 1 就用方案 1,能用方案 2 就用方案 2——越简单越好。只有当 ①距离真的超过 ZR+ 覆盖、或 ②需要光层灵活上下多个波长时,才需要引入 ROADM。 超大规模云厂商(AWS/Meta)的 DCI 互联大量使用方案 1 或方案 2,因为他们对"简单"的价值有极端的追求。

8.5.3 传统架构 vs RON 全方位对比

这是本章最重要的表格——它用数字量化了 RON 带来的革命性变化:

对比维度 传统三层架构 Routed Optical Networking 改善幅度
网络层次 IP + OTN + DWDM(三层) IP + 光层(两层) -33% 层次
设备种类 路由器 + OTN + Transponder + ROADM 路由器 + ROADM -50% 设备种类
单端 400G 功耗 1500-1800W 150-250W -85% 功耗
O-E-O 转换次数 3-5 次(沿路径累积) 1 次(仅路由器侧) -70% 转换
管理平面 多个独立(IP + OTN + DWDM) 统一 Crosswork N → 1
新业务部署周期 4-8 周 1-3 天 -95% 时间
CAPEX $500K-$1M(DCI 400G 单链路) $100K-$200K -60% CAPEX
OPEX 高(多团队、多电费、多机柜) 低(统一团队、低功耗) -45% OPEX
机柜空间 10-20U / 端 1-2U / 端 -80% 空间
灵活性 有限(跨层协调) 高(单层操作) 质变
适用距离 任意(包括超长距) ZR: 120km · ZR+: 1000km · ULH: 3000km+ 覆盖 95% 场景
演进性 受传输层制约 与以太网同步(400G → 800G → 1.6T) 质变
💡 独立研究报告印证
ACG Research 在 2023 年的独立 TCO 研究中对比了传统架构 vs RON,得出结论:RON 典型节省 46% TCO、35% CAPEX、57% OPEX。 不同网络场景的节省幅度有所差异,但核心结论一致——RON 在几乎所有场景下都显著优于传统架构。

8.5.4 RON 的典型应用场景

🎯 场景 1:DCI(数据中心互联)—— RON 的"甜蜜点"

距离:80-120km(典型同城 DCI)

典型配置:400G ZR 可插拔 + 直连光纤 或 Passive DWDM

部署者:AWS、Azure、Meta、Google 等超大规模云厂商

价值:对成本和功耗极度敏感,RON 完美匹配。AWS 早在 2020 年就率先规模部署 400 ZR。

🌆 场景 2:城域网(Metro)

距离:100-500km(城市内/城市间)

典型配置:400G ZR+ + ROADM 光层

部署者:电信运营商(Telecom SP)

价值:支持波长灵活上下,服务企业专线和消费者宽带。OpenZR+ 在这个场景大显身手。

🌐 场景 3:区域骨干(Regional Backbone)

距离:500-1500km(跨省/跨州)

典型配置:400G OpenZR+ 或 ULH ZR+

部署者:Verizon、Deutsche Telekom、Orange、Arelion 等顶级运营商

价值:传统骨干网升级,节省 45% CAPEX、70% 功耗(据 Cisco 报告)。

📡 场景 4:5G 回传与中传

距离:10-200km

典型配置:100G ZR / 400G ZR + 光层

部署者:移动运营商

价值:灵活的速率(可在 100G/400G 间切换)、更低的时延,支持 5G 前传/中传的严格要求。

🌊 场景 5:长距骨干(Long-haul Backbone)

距离:1500-3000km+

典型配置:400G ULH 或 专用高性能 Transponder

部署者:国家骨干网运营商、跨国运营商

价值:ULH ZR+ 正在蚕食传统超长距 Transponder 市场。CIM 8 等高性能模块支持跨洋应用。

§8.6 RON 的运维优势 —— Cisco Crosswork 自动化

我们已经讲了 RON 带来的硬件层面变革。但 RON 的真正魅力,在于它让运维变得前所未有的简单。这背后是 Cisco Crosswork 自动化平台的功劳。

8.6.1 为什么运维如此重要?

回顾传统架构:三层网络意味着三套运维系统、三个运维团队、跨团队协作必须开会。当发生故障时,故障定位时间(Mean Time to Repair, MTTR)往往是"小时"级甚至"天"级。

RON 的统一架构让这一切变得简单:一个平面、一个工具、一个团队

8.6.2 Cisco Crosswork 自动化堆栈

Crosswork Network Controller (CNC)

IP 网络的 SDN 控制器,负责配置、路径计算、业务编排。与 NSO 深度集成。

Cisco Optical Network Controller (CONC)

光网络域控制器,管理 NCS 1010 等光层设备。提供 TAPI 标准北向接口。

Crosswork Hierarchical Controller (CHCO)

分层统一控制器,实现 IP + 光的端到端可见性、规划、编排。多厂商支持。

Network Services Orchestrator (NSO)

业务编排引擎,通过 YANG 模型驱动配置。RON 核心功能包(CFP)实现多层服务管理。

Crosswork Data Gateway (CDG)

多协议遥测收集器,从设备到 Crosswork 云的数据管道。支持 gNMI、SNMP、CLI、Syslog。

Optical Network Planner (ONP)

光网络规划工具,支持光层可行性分析、BoM 生成、容量规划。

8.6.3 统一管理带来的核心能力

RON 统一管理的关键能力

  1. 端到端可见性:一个界面里能看到 IP 链路、对应的 DWDM 波长、经过的光层节点、实时 OSNR/BER 等光参数。
  2. 快速故障定位:光层故障(如 OSNR 劣化、PMD 增加)可直接关联到具体 IP 业务,故障定位从小时级降到分钟级。
  3. 自动化业务开通:通过 NSO RON ML 服务,新业务从"工单→规划→配置→测试"的周级流程缩短到分钟级。
  4. 意图驱动网络(IBN):运维人员只需描述"意图"(如"北京到上海建 400G 链路,保护率 99.99%"),系统自动选择路径、分配波长、配置设备。
  5. AI/ML 驱动分析:Cisco Crosswork Network Insights 使用机器学习分析光性能数据,预测潜在故障(如光纤劣化、设备老化)。

8.6.4 一个真实案例:从工单到上线的全流程

让我们跟随一次 RON 业务开通,看看 Crosswork 如何改变运维:

RON 业务开通工作流(典型 <30 分钟) Step 1 业务需求输入 源/目/带宽/SLA 2 分钟 Step 2 自动路径计算 CHCO 规划 IP+光 5 分钟 Step 3 自动化配置 NSO + CONC 下发 10 分钟 Step 4 自动测试验证 OSNR/BER/延迟 5 分钟 Step 5 业务上线 + 监控 Insights AI 分析 持续 传统流程:4-8 周 跨团队协调 · 手工配置 · 逐层测试 工单流转 · 规划会议 · 故障排查 RON 自动化:<30 分钟 意图驱动 · 自动规划 · 全自动化 统一管理 · 单点操作 · AI 分析
⚡ 运维的范式转变
RON + Crosswork 让运维从"被动响应"走向"主动智能"。传统模式下,运维人员等待告警→定位故障→修复。 RON 模式下,AI 预测潜在故障→自动采取预防措施→必要时自动切换业务路径——整个过程无需人工干预。 这是"自动驾驶"光网络的雏形。

8.6.5 真实世界的 RON 部署故事

理论再漂亮都不如真实案例有说服力。让我们看三个不同规模、不同场景的 RON 部署故事:

🇸🇪 Arelion(前 Telia Carrier)—— 跨越北美洲的 400ZR+ 网络

背景:Arelion 是全球顶级 Tier-1 网络运营商,运营全球最大的 IP 骨干网之一。

挑战:从 Denver 到 Chicago 的 2,253 公里链路需要升级,传统方案需要多跳 OEO 再生。

RON 方案:Cisco 8000 系列路由器 + 400G ULH ZR+ 模块 + 第三方 OLS 光层,112.5GHz 频谱。

成果

  • CAPEX 降低 35%(相对传统 Transponder 方案)
  • OPEX 降低 84%(主要得益于功耗和运维简化)
  • 单跨 2,253 公里无中继 OEO,创下 400G 商用网络跨距记录

🇺🇸 Internet2 —— 美国高校科研骨干网

背景:Internet2 连接美国主要大学和科研机构,需要承载 AI 训练数据流量。

项目:Albany → Boston → NYC → DC → Chicago → Indianapolis 的 3,040 公里链路。

RON 方案:Cisco 8000 + 400G ULH ZR+,第三方 OLS(19 个 ROADM + 25 个放大站)。

成果功耗降低 68%,为科研机构的 AI 工作负载提供更可持续的网络基础。

🇫🇷 Sipartech —— 欧洲光网络创新者

项目:法国 Sipartech 网络,1,337 公里 400G 链路,经过 8 个 ROADM 站。

亮点:Cisco Bright ZR+ 作为"Alien Lambda"(外来波长)在第三方 CDC ROADM 上即插即用。

"得益于 Cisco 设备的互操作性,我们可以用速度、简洁、灵活性来部署下一代 400G+ 服务, 满足客户需求的同时,也优化了能源消耗和碳足迹。"
—— Julien Santina, Sipartech CEO
📊 产业数据佐证
根据 Cisco 2024 年公开数据:累计已有 350+ 客户 进行 RON 评估与测试,200+ 客户 完成了网络建模与商业案例, 100+ 客户已开始生产部署 RON。超过 75% 的 RON 部署使用第三方光线路系统——这证明 Cisco RON 的开放互操作性已得到行业广泛认可。

RON 经济性:5 年 TCO 对比

以 100Gbps 和 400Gbps 的城域 DCI 场景为例,ACG Research 的独立 5 年 TCO 研究得出以下数据:

场景 传统方案(Carrier Ethernet) 传统方案(Wavelength Service) RON + Dark Fiber RON 节省幅度
100Gbps DCI(5 年) 基准 +10% -10% (vs CE) / -21% (vs WS) 最多 21%
400Gbps DCI(5 年) 基准 +15% -53% (vs CE) / -60% (vs WS) 高达 60%

更关键的是:容量越高,RON 优势越大。这意味着在 800G/1.6T 时代,RON 的经济性优势将进一步放大。

§8.7 挑战与权衡 —— RON 不是万能药

作为一个负责任的技术分析,我们必须承认:RON 不是所有场景的最优解。让我们客观看待它的局限。

8.7.1 技术局限

超长距仍需专用 Transponder

目前 400G ZR+ 可达 1000km,ULH ZR+ 可达 3000km+,但对于 4000km+ 的超长距海缆或跨洲骨干,专用高性能 Transponder(如 Cisco CIM 8)仍是更好选择。RON 正在缩小这个边界,但未能完全覆盖。

高密度聚合场景的 OTN 价值

在需要大规模低速业务聚合的场景(如从 10×1GE 汇聚到 400G),OTN 的电域交换能力仍然有价值。RON 更适合已经是高速端到端的场景。

散热与功率密度挑战

400G ZR+ 单模块 20-25W,800G ZR+ 达 25-30W。当一个路由器板卡插满相干光模块时,散热成为挑战。需要精心的热设计。

供应链深度依赖

RON 对硅光子、相干 DSP、高速 DAC/ADC 的依赖极深。这些是高度集中的供应链(Cisco Acacia、Marvell、Broadcom 等)。对运营商来说,供应链多样性是挑战。

8.7.2 组织与运维挑战

RON 不仅是技术变革,更是组织变革。这往往比技术本身更难:

🔀 组织转型的三大挑战
  1. IP 团队与传输团队的融合:传统上,这两个团队在技能、思维、工具上差异很大。RON 要求他们合并或深度协同。这可能涉及组织架构调整、人员培训、KPI 重设。
  2. 技能重建:IP 工程师需要学习光层基础,光工程师需要学习 IP/MPLS。这是痛苦但必要的转型。
  3. 文化变革:传输团队习惯"稳定优先"(慢但稳),IP 团队习惯"敏捷优先"(快但可能出问题)。如何在 RON 架构下找到平衡,是管理艺术。

8.7.3 经济权衡

虽然 RON 整体 TCO 降低,但在某些特定情况下,传统架构可能仍有优势:

§8.8 未来展望 —— RON 的下一个 5 年

8.8.1 技术演进路线图

2024-2025
800G ZR/ZR+ 规模商用:AI 数据中心互联从 400G 全面迁移到 800G。Cisco、Marvell、Broadcom 等主流厂商产品就绪。
2025-2026
CPO(共封装光学)商用试点:光引擎与交换 ASIC 共封装。解决电互联的功耗墙和密度瓶颈。模块 9 将详细讨论。
2026-2027
1.6T ZR 标准化完成、产品商用:OIF 1.6T 标准预计 2026 年完成,3nm DSP、240GBaud 波特率。
2027-2028
更深的 IP-光协同:光层实时性能数据驱动 IP 路由决策。带宽按需分配、光层感知路由。
2028+
AI 原生光网络:机器学习从"辅助运维"走向"自主决策"。光网络变成真正的"自动驾驶"系统。
2030+
3.2T 可插拔 + 新物理介质:多芯光纤、空芯光纤可能规模部署。容量进一步突破。

8.8.2 ROADM 的未来 —— 也会被集成吗?

一个自然的问题:既然 RON 消除了 OTN 和 Transponder 层,ROADM 是否也会消失?

答案是:可能部分集成,但 ROADM 本身难以完全消失。原因:

所以未来的网络层次很可能是:IP + 轻量光层 + 核心 ROADM/OXC——层次进一步简化,但不会完全消失。

🔮 一个大胆预测
到 2030 年,95% 的 DCI 和 80% 的城域光传输将采用 RON 架构。传统 Transponder 机柜将像 2010 年的 SONET/SDH 设备一样, 主要存在于长距骨干和特殊场景。这不是"会不会发生"的问题,而是"什么时候发生"的问题。

🎯 模块八:10 个核心要点

  1. 传统三层架构(IP+OTN+DWDM)已不适应 AI 时代——多次 O-E-O、多管理域、高 TCO、长部署周期是硬伤。
  2. Routed Optical Networking 是革命性的架构简化——从三层塌缩到两层(IP+光层),消除 OTN/Transponder 层。
  3. 三大技术使能:可插拔相干光、硅光子、统一管理——缺一不可。
  4. 可插拔相干光模块走过了"机柜 → 指甲盖"的 15 年飞跃——功耗降低 20 倍,成本降低 30 倍,尺寸缩小 1000 倍。
  5. OIF 400ZR、OpenZR+、800ZR 等标准是互操作性基础——开放生态让 RON 成为产业共识。
  6. 硅光子是 RON 的"引擎"——用 CMOS 工艺集成光学元件,让相干光模块经济可行。
  7. Cisco 通过收购 Acacia 实现 100% 垂直整合——从 DSP ASIC 到光模块封装,全链条自主。
  8. RON 在 DCI、城域、区域骨干场景全面领先传统架构——典型 TCO 下降 46%,CAPEX 下降 35%,OPEX 下降 57%。
  9. Cisco Crosswork 是 RON 运维自动化的基石——统一管理、意图驱动、AI 分析,让运维从小时级降到分钟级。
  10. RON 不是万能药——超长距、高密度聚合、组织变革仍是挑战。但整体趋势无可逆转。
💭 通往模块九的深度思考题

Q1:RON 消除了 OTN 层,但 ROADM 仍在——未来 ROADM 也可能被集成吗?极限在哪?

Q2:如果你是运营商 CTO,AI 时代的带宽爆发,你会选传统架构还是 RON?为什么?

Q3:硅光子是否会彻底颠覆 III-V 族光器件?对整个光学产业生态意味着什么?

Q4:RON 对传统光传输设备厂商(如 Ciena、Nokia、华为光传输)意味着什么?他们会如何应对?

带着这些问题,进入模块 9 —— AI 时代的光通信全景。
Module 09 of 09 · 收官之作

AI 时代的光通信
从 GPU 到全球网络的全景融合

恭喜你!你已经完成了从光的物理本质(模块 1)到 Routed Optical Networking(模块 8)的完整知识旅程。 现在,站在所有知识的制高点,让我们用这座"光通信的喜马拉雅山"俯瞰一个全新的时代—— AI 时代。这个时代对网络的需求,正在颠覆过去 30 年所有的工程假设。 而光通信,正是支撑这场革命的神经系统。

💭 模块引导问题
2024 年,GPT-4 和 Claude 这样的大模型训练使用了数万块 GPU 组成的集群。 Meta 的下一代 AI 数据中心功率将达1 吉瓦(1GW)——相当于一座小型城市的用电量。 NVIDIA 的 B200 GPU 单卡带宽达1800 GB/s,一个万卡集群的后端网络带宽总和可达数十 Pb/s。 这意味着什么?传统网络架构完全无法支撑——我们需要把光通信技术推向一个全新的高度。从芯片内(CPO)到海底光缆, 光正在重塑每一寸数字基础设施。

§9.1 AI 基础设施对网络的颠覆性需求

9.1.1 AI 大模型训练的网络需求

为了理解 AI 对光通信的冲击,让我们先理解 AI 训练到底在做什么,以及它为什么对网络如此"饥渴"。

万卡/十万卡时代

GPT-4 训练使用约 25,000 块 A100;GPT-5 据传使用 50,000-100,000 块 H100;Meta 计划构建 35 万块 H100 集群。单个训练任务的 GPU 数量已达"一座小型超级计算机"规模。

All-Reduce 梯度同步

每一轮训练,所有 GPU 必须交换梯度(模型参数的导数)。10 万块 GPU 同时 All-Reduce,瞬间产生 TB 级流量。这是典型的"全互联"通信模式。

All-to-All 张量切分

模型太大装不下单卡,需要把张量(Tensor)切分到多卡。每次前向/反向传播,张量都要在 GPU 间传输。这是典型的"全交换"通信。

无损传输要求

AI 训练对丢包极度敏感。TCP 重传会导致 GPU 空转,严重拖累训练效率。需要 RDMA、RoCEv2、InfiniBand 等无损网络技术。

9.1.2 单 GPU 的带宽爆炸

让我们感受一下 GPU 带宽的恐怖增长:

GPU 代际 发布年份 NVLink 带宽 (双向) 网络侧带宽 单机 8 卡集群后端带宽
V100 2017 300 GB/s 100 Gbps 0.8 Tbps
A100 2020 600 GB/s 200 Gbps 1.6 Tbps
H100 2022 900 GB/s 400 Gbps 3.2 Tbps
H200 / B200 2024 1800 GB/s 800 Gbps 6.4 Tbps
GB300 / B300 2025+ 3600 GB/s 1.6 Tbps 12.8 Tbps

每代 GPU 带宽翻倍——这对网络意味着:网络必须同步翻倍,否则 GPU 性能无法充分发挥。这就是 400G → 800G → 1.6T 演进的核心驱动力。

9.1.3 集群网络的两级结构

AI 集群的两级网络结构 Scale-Up(机柜内) 高带宽、超低延迟 · NVLink / InfiniBand · TB/s 级 GPU 1 H100 GPU 2 H100 GPU 3 H100 ... × 8 NVLink Switch (NVSwitch) 1800 GB/s 双向带宽 ConnectX-7 NIC × 8 8× 400Gbps = 3.2Tbps ✓ 主要介质:铜缆 / DAC / ACC ✓ 少量短距光:AOC / CPO 距离:通常 <3 米 Scale-Out(机柜间) 海量并行 · RoCEv2 / IB · Pb/s 级总带宽 Spine Layer · 800G Ethernet / InfiniBand Leaf Switch 1 ... Leaf Switch N Rack 1 (8 GPU) ... Rack N (8 GPU) ✓ 主要介质:单模/多模光纤 ✓ 400G / 800G / 1.6T 可插拔光模块 距离:5m - 2km 万卡集群总带宽:Pbps 级
把 AI 集群想象成一个超级工厂
Scale-Up 就像工厂内部的机械臂群——彼此距离很近(几米),必须以极高速度精密协作,用的是"硬连接"(NVLink、铜缆)。
Scale-Out 就像工厂之间的物流网络——距离更远(米级到公里级),用的是"柔性传输"(光纤、光模块)。
AI 训练成功与否,取决于这两级网络是否都能以 GPU 的速度同步运转——任何一级成为瓶颈,整个集群就像"有无数优秀机械臂却没有物流的工厂",效率大打折扣。

深度拆解:一次 LLM 训练迭代的网络流量

让我们用一个具体的场景理解 AI 网络流量:训练一个 1 万亿参数(1T)的大模型,每个参数用 FP16(2 字节)表示,一次训练步骤会发生什么?

📊 流量计算(单次训练迭代)

  • 模型总大小:1T × 2 字节 = 2 TB
  • 梯度大小(与参数同数量级):2 TB
  • Optimizer 状态(通常为梯度的 2-4 倍,如 Adam):4-8 TB
  • 分布式训练方式:数据并行 + 模型并行 + 流水线并行
  • 每次 All-Reduce 传输量:约 4 TB(在 10K GPU 间)
  • 每次迭代耗时目标:< 1 秒(否则训练效率太低)
  • 所需网络带宽:4 TB/s = 32 Tbps——这只是一个通信步骤
🧠 为什么 AI 集群需要 400G/800G/1.6T?
在 10,000 块 GPU 的集群中,每块 GPU 需要与其他 9,999 块 GPU 交换梯度。如果单卡网络只有 100Gbps, 一次 All-Reduce 需要 数十秒——而 GPU 自身只需要 0.5 秒计算。这意味着 99% 的时间 GPU 在空等网络。 把单卡带宽升级到 400G/800G 后,通信时间缩短到 <1 秒,与计算时间匹配——这就是光通信速率演进的本质需求。

AI 网络的四大关键指标

① 带宽(Bandwidth)

决定单位时间能传多少数据。单卡 400G/800G/1.6T 是硬指标。

② 延迟(Latency)

微秒级延迟即可影响大模型训练。InfiniBand 的 1-2μs 延迟是黄金标准。

③ 无损(Lossless)

单次丢包可能导致整轮 All-Reduce 重传。需要 PFC、ECN 等流控机制。

④ 对称拓扑(Symmetric)

所有 GPU 之间任意通信延迟一致,避免拖尾效应。这是"Rail-Optimized"设计的基础。

9.1.4 AI 推理服务的网络需求

训练只是 AI 生命周期的一部分。模型训练好之后,还要部署为推理服务(Inference Service),响应用户请求。推理对网络的要求与训练截然不同:

短连接 · 高并发

ChatGPT 同时服务数亿用户。每个请求可能只有 KB 级,但总并发数可达百万。典型的"短平快"流量模式。

延迟极敏感

用户输入一个问题,期望几百毫秒内开始看到回答。每一毫秒的延迟都影响体验。"首 Token 延迟"是关键指标。

地理分布

为降低延迟,推理服务部署到多个区域。"边缘推理"将模型推到靠近用户的位置——这需要大量低延迟 DCI 链路。

多 AZ 互联

高可用推理服务需要跨多个可用区(AZ)部署。不同 AZ 间的高带宽低延迟互联,正是 RON 的甜蜜点。

9.1.5 超大规模 AI 数据中心的爆发

为了支撑 AI 训练和推理,超大规模云厂商正在建造前所未有的庞大数据中心:

2024-2026 AI 数据中心建设狂潮

  • Microsoft/OpenAI "Stargate" 项目:据传投资 $1000 亿,建造超大规模 AI 数据中心,功率可达 5GW。
  • Meta AI Cluster:目标 35 万块 H100,单集群功率 500MW+。
  • xAI Colossus:一期 10 万块 H100 集群,2024 年 9 月在田纳西州孟菲斯建成(创下 122 天极速部署记录),计划扩容至 100 万 GPU,届时功率将达 GW 级。
  • Google TPU v5p Pod:8960 块 TPU 互联,FP16 算力达 4.1 EFLOPS。
  • Amazon AWS Trainium2:自研 AI 芯片,EC2 UltraClusters 规模达 10 万块。

每一个数字都在挑战人类对"数据中心"这个词的认知。而支撑这一切的,是光通信基础设施的同步进化。

§9.2 光通信在 AI 基础设施中的分层应用

现在让我们从 GPU 最近的位置(芯片内)开始,一层层走到最远的位置(海底光缆)。在每一层,我们会看到前面八个模块学到的技术如何组合应用。

9.2.1 芯片间 / 板间互联(<5m)—— 光电融合的前沿

这是最近的网络——同一块主板上,GPU 芯片之间、GPU 与交换芯片之间的互联。距离很短,但对带宽密度和功耗要求极高。

当前状态:电互联为主

目前这一层主要用铜缆(DAC)、PCB 走线、或短距 AOC(有源光缆)。但随着速率进入 200G/lane 时代,电互联遇到了"功耗墙"——驱动长铜线需要大量功耗(约 10-15pJ/bit)。这已成为 AI 数据中心扩展的瓶颈。

🔥 CPO(Co-Packaged Optics)—— 下一个大浪潮

What:将光引擎(硅光子芯片)与交换 ASIC 共封装在同一个模块内。

Why:传统可插拔模块的电信号要从 ASIC 经过 PCB 走线到模块(可能 20cm+),功耗高、信号损耗大。CPO 把光引擎搬到 ASIC 旁边(几毫米),电路径缩短 100 倍,功耗降低 50%+。

How:NVIDIA 在 2024 年 GTC 上展示了 CPO Spectrum-X 交换机;Broadcom 的 Tomahawk 5 CPO 版本已送样;Intel、Marvell 也在积极推进。

关键点:CPO 的核心就是硅光子集成——这正是模块 8 我们学过的技术。CPO 可以看作"硅光子在芯片级的终极形态"。

💡 CPO 与可插拔光模块:共存还是替代?
短期(2-5 年):共存。CPO 在芯片间/超短距优势明显,可插拔光模块在中远距灵活性更强。
长期(5-10 年):CPO 会吃掉一部分短距市场,但可插拔光模块因其灵活性、可维护性、供应链多样性,不会完全消失。

🏆 Cisco 在 AI 光互联的独特定位

Cisco 是目前唯一同时拥有交换 ASIC(Silicon One)、硅光子(Cisco SiPh)、AI 光模块、网络自动化(Crosswork)的综合性厂商。这种全栈能力在 AI 时代带来独特价值:

  • 端到端验证:Cisco 可以在自己的 Silicon One ASIC + Nexus 交换机 + UCS 服务器 + 光模块之间做全面的兼容性测试,避免多厂商组合时的"黑天鹅"故障。
  • AI 级可靠性:Cisco 数据显示——单个故障光模块可能导致整个 AI 训练集群性能下降 40%(因 All-Reduce 同步机制)。Cisco 通过严格的 Avalanche 测试框架模拟各种极端场景,确保 AI 集群级可靠性。
  • 丰富的遥测:VDM(Versatile Diagnostics Monitoring,多功能诊断监测)让每一只光模块都能实时上报 pre-FEC BER、SNR、激光器寿命等 10+ 项指标。在大规模 AI 集群中,这种监测能力至关重要。
  • FW 可现场升级:光模块固件可以远程更新,无需拔模块——对动辄数万只光模块的 AI 集群来说,这是运维的救命稻草。
💰 AI 时代的"高质量光模块"经济学
根据 Cisco 研究:一块 H100 GPU 约 $30K,一台 8 卡 AI 服务器约 $500K+。如果光模块故障导致 GPU 空转,每小时损失 $2K-$12K。 一次故障的损失远超光模块本身的价格。这就是为什么 AI 数据中心不能省光模块的钱——可靠性才是真正的成本中心。 Cisco 的测试框架显示:在 100G/400G 模块设计验证中,58 个不同厂商的模块有 43 个不符合 Cisco 规格,29 个功能不稳定——这些如果部署到 AI 网络,会造成极大损失。

9.2.2 机架内 / 机架间短距(5m - 500m)

从服务器到 ToR(Top-of-Rack)交换机、ToR 到 Leaf 交换机,这个距离是 AI 集群中最常见的光互联场景。

多模光纤 + VCSEL + PAM4

典型产品:400G SR4/SR8、800G SR8、400G BiDi

为什么用多模?对准容差大(50μm 纤芯 vs 9μm 单模)、VCSEL 激光器便宜(~$20 vs DFB $100+)、整体成本最低。

距离:~100m(OM4 光纤)

单模光纤 + 硅光 + PAM4

典型产品:400G DR4(500m)、800G DR8、800G DR4(下一代)

趋势:数据中心正在单模化。因为硅光子让单模模块成本接近多模,而单模距离更远、未来升级更顺畅。

距离:500m-2km

9.2.3 数据中心建筑间中距(500m - 2km)

园区内多个数据中心建筑之间的互联。典型距离 500m-2km。

9.2.4 数据中心之间互联 DCI(2km - 120km)

🎯 这是 Routed Optical Networking 的核心舞台!

AI 训练数据的同步、多 AZ 推理服务的互联、模型检查点(Checkpoint)的分发——所有这些都需要 DCI。

典型方案:路由器(Cisco 8000 系列)+ 400G/800G ZR/ZR+ 可插拔相干光 + 直连光纤/ROADM

距离:2-120km(ZR)或扩展到 1000km+(ZR+)

TCO 优势:相比传统 DCI 方案,典型降本 30-60%

领先部署者:AWS、Azure、Meta、Google、Verizon、Deutsche Telekom、Arelion 等。AI 基础设施几乎都在用 RON 做 DCI。

9.2.5 城域网与骨干网(Metro & Long-haul)

城域(Metro)

100-500km。典型方案:ROADM + 400G/800G 相干光 + IP/MPLS。RON 是主流架构。支持 DCI 扩展、企业专线、5G 回传。

长距骨干(Long-haul)

500-3000km。需要高性能相干光(400G-1.2T per wavelength)。C+L 波段扩展,增加总容量。调制格式随距离调整——长距用 DP-QPSK,短距用 DP-64QAM。

RON 在长距的边界

400G ZR+ 覆盖 ~1000km,ULH ZR+ 覆盖 2500-3000km+。超过这个距离仍需专用高性能 Transponder(如 Cisco CIM 8,支持 1.2T per λ)。

9.2.6 海底光缆系统(Submarine)—— AI 的"全球神经"

你可能没想到——AI 训练数据的全球流动,依赖海底光缆。当数据中心分布在多大洲(如北美、欧洲、亚太),大模型的数据副本、模型参数、推理请求都要跨越海洋。

海底光缆的独特挑战

  • 超长距:跨太平洋 >10,000km,跨大西洋 >6,000km
  • 不可维护:海底数千米深,故障修复需要专用船只,耗时数月
  • 功率受限:水下供电极其有限,EDFA 必须极低功耗
  • 容量需求爆发:AI 驱动下,新一代海缆容量从 Tbps 级跃升到几百 Tbps

🌊 AI 时代的海缆明星项目

  • Google Grace Hopper(2022):跨大西洋,英国-美国-西班牙,SDM 设计,总容量 >300 Tbps。
  • Meta 2Africa(2023-2024):环非洲海缆,46,000km 长,单缆容量 180 Tbps。
  • Google Firmina(2024):南美-美国,集成可重构光增益均衡器。
  • Cisco CIM 8 在 Hawaiki 海缆:实现 4522km 单跨 600G 传输,创造纪录。

最新技术:SDM(空分复用)海底光缆——单缆集成多达 24 对光纤(传统 8 对),配合 C+L 波段,总容量突破 500 Tbps。这是光通信对 AI 时代的"物理级"回应。

§9.3 产业趋势与技术前沿

9.3.1 速率演进路线图

年份 每通道速率 典型调制 波特率 主流模块速率 驱动应用
2020 100G NRZ 50 Gbps 400G 云数据中心普及
2022 100G PAM4 50 GBaud 400G/800G AI 训练兴起
2024 200G PAM4 100 GBaud 800G/1.6T 大模型爆发
2026+ 400G PAM6 / PCS 200 GBaud 1.6T/3.2T 万亿参数模型
2028+ 800G 相干 / 新方案 ~400 GBaud 3.2T/6.4T AGI 基础设施

9.3.2 可插拔相干光的持续演进

我们在模块 8 看到了相干光从机柜到指甲盖的旅程。未来它将继续演进:

2024-2025
800G ZR/ZR+ 规模部署,OSFP/QSFP-DD800 封装,25-30W
2026-2027
1.6T ZR 商用,OSFP-XD 或下一代封装,3nm DSP,240 GBaud
2028+
3.2T 可插拔探索,可能结合 CPO 或新型封装

9.3.3 CPO —— 下一个大浪潮

我们在 §9.2.1 提到了 CPO。让我们更深入地看看它为什么重要:

🧠 CPO 解决的核心矛盾
随着交换 ASIC 容量从 51.2T 跃升到 102.4T、204.8T,I/O 密度成为瓶颈——需要越来越多的可插拔光模块围绕 ASIC 分布。 但 ASIC 周围的物理空间有限,且电路径越长功耗越高。CPO 的答案是:把光引擎直接"焊"在 ASIC 附近, 像 CPU 旁的 HBM 内存一样。这样可以突破"电路径功耗墙",让交换 ASIC 容量继续翻倍。
CPO 的优势
  • 功耗降低 50%+
  • I/O 密度大幅提升
  • 延迟降低(电路径短)
  • 未来扩展性更强
CPO 的挑战
  • 热管理更复杂
  • 可维护性下降(光引擎故障需换整块板)
  • 供应链集中化风险
  • 成本短期内较高

CPO 家族:从 Retimed 到 LRO 到 LPO 到 CPO 的演进光谱

为了降低光模块功耗,业界正在探索一条从"全处理"到"零处理"的光谱:

光模块功耗降低的四条路径 Retimed (标准) DSP (完整) O/E 转换 Optics 25-30W 完整互操作 LRO (半线性) DSP (部分) O/E 转换 Optics 17-22W 兼容 Retimed LPO (全线性) 无 DSP O/E 转换 Optics 12-15W 需宿主 SerDes 强 CPO (共封装) 交换 ASIC + 光引擎 (同一封装) 光引擎 (硅光) <10W 彻底改变 从左到右:功耗递减,集成度递增,但灵活性递减
Retimed(标准可插拔)

包含完整 DSP,处理所有电/光信号的均衡、时钟恢复、FEC 等。这是目前主流的 400G/800G 模块形态。功耗 25-30W,但互操作性最好。

LRO(Linear Receive Optics)

只保留 DSP 的接收侧,发送侧使用线性驱动。功耗降到 17-22W,且兼容 Retimed 模块(即可与标准 Retimed 互通)。是一个渐进式优化。

LPO(Linear Pluggable Optics)

完全去除 DSP,依赖宿主设备的高质量 SerDes 直接驱动光器件。功耗 12-15W,延迟极低。但对宿主要求高,互操作性受限。AI 后端网络的热门选择。

CPO(共封装光学)

光引擎与交换 ASIC 在同一封装内,电路径从 20cm 缩短到几毫米。功耗 <10W,I/O 密度最大。但可维护性、热管理、可靠性仍是挑战。

🔮 未来十年的光互联光谱
这四种方案不会只活一种。未来 10 年:CPO 占领超高端 AI 集群短距(<100m,功耗敏感)、 LPO 占领 AI 后端网络中距(100-500m)、Retimed/LRO 占领数据中心中长距(2-10km)、 相干光可插拔占领 DCI 与城域(2-2000km)。每种方案在其甜蜜点发光发热。 这就是"没有一个方案统治一切,但每一个方案都不可或缺"的现代光通信生态。

9.3.4 空分复用(SDM)与新型光纤

我们在模块 5 学过:单根标准光纤的容量已逼近香农极限。怎么继续突破?答案在"空间维度"和"新型光纤":

多芯光纤(Multi-Core Fiber, MCF)

一根光纤内有多个纤芯(如 4 芯、7 芯、19 芯),每个纤芯独立传输。容量倍增但共用一个光缆外壳。主要挑战:纤芯间串扰、制造良率。已在海底光缆中试点。

空芯光纤(Hollow-Core Fiber, HCF)

光在空气(而非玻璃)中传播。优势:延迟降低 33%(光速接近真空)、低非线性、低色散。挑战:损耗仍高(目前 ~0.3dB/km,仍略高于单模光纤)、制造良率低。应用场景:低延迟金融交易、AI 训练集群互联。

少模光纤(Few-Mode Fiber, FMF)

利用 MIMO 技术在同一纤芯内传输多个模式,实现容量倍增。实验室演示已突破 Pbps 级容量。商用仍需时间。

9.3.5 AI / ML 驱动的智能光网络

很有趣的一个反向闭环——AI 需要光网络,反过来又在改造光网络:

9.3.6 量子通信与光通信的交集

虽然还在早期,但量子通信(特别是量子密钥分发,QKD)是基于光纤的。未来的"量子互联网"将依赖现有光通信基础设施。一些运营商(如中国国家骨干网、Deutsche Telekom)已经部署了商用 QKD 链路。

这意味着你学过的光通信基础知识,不仅支撑今天的 AI,还将支撑明天的量子互联网。

§9.4 全景融合图 —— 一张图串联所有知识

现在,让我们把前九个模块的所有知识串联起来——从一块 GPU,到全球网络的端到端光通信全景图:

🌍 从 GPU 到全球 —— 光通信端到端全景

每个环节标注了用到的核心技术,以及在哪个模块学过:

从 GPU 到全球网络的光通信全景 Level 1 · 芯片内 / 板间(<5m) GPU ↔ CPO/硅光子 ↔ 交换芯片 技术:硅光子集成(模块 8)· CPO 共封装光学(模块 9)· 电互联(铜缆/AOC) Level 2 · 机架内短距(5-100m) 多模光纤 + VCSEL + PAM4 + QSFP-DD 模块 技术:光纤物理(模块 2)· PAM4 调制(模块 3)· VCSEL 激光器(模块 4)· 400G SR8 / 800G SR8 Level 3 · 机架间中距(100m-2km) 单模光纤 + DFB 激光器 + PAM4 + 硅光子集成 技术:单模光纤(模块 2)· DFB 激光器(模块 4)· 400G DR4 / FR4 · 800G DR8 / FR4 Level 4 · 数据中心互联 DCI(2-120km)⭐ Routed Optical Networking 核心舞台 路由器 + 400G/800G ZR/ZR+ 可插拔相干光 + 直连光纤 或 简化 ROADM 技术:相干光检测(模块 7)· DWDM(模块 6)· 硅光子(模块 8)· Cisco Crosswork 自动化 价值:TCO 降低 46%、功耗降低 8×、部署加速 10× Level 5 · 城域网(100-500km) ROADM + 400G/800G 相干光 + EDFA 放大链 + C/C+L 波段 DWDM 技术:DWDM(模块 6)· ROADM/WSS(模块 6)· 相干光 DSP(模块 7)· EDFA(模块 4) Level 6 · 长距骨干(500-3000km+) 高性能相干光(DP-QPSK/16QAM + PCS)+ C+L 波段 + 分布式拉曼 + 专用 Transponder 或 ULH ZR+ 技术:DP-QPSK/16QAM(模块 3/7)· PCS 整形(模块 7)· 拉曼放大(模块 4)· C+L 波段扩展(模块 6) Level 7 · 海底光缆系统(3000-10000+ km) 多芯光纤 SDM(空分复用)+ 超低噪声 EDFA + 1.2T per λ Transponder 技术:SDM 新型光纤(模块 9)· 超长距相干光(模块 7)· C+L 波段 · 光学增益均衡 连接全球 —— AI 数据的跨洋流动、全球推理服务的基础 图 9-1:从 GPU 到全球网络 —— 你所学的每项技术都在此汇聚
🎓 这张图的意义
你学过的每一项技术——光纤全内反射、DWDM、相干光、PCS、硅光子、RON——都在上图的某一层找到了归宿。 这不是巧合,而是光通信产业的必然:每一项技术都是针对特定物理约束的优化,它们组合起来,支撑着从芯片到全球的完整数据流。 没有哪一层可以独立存在;没有哪一层可以被忽略。

§9.5 终极思考 —— 光通信技术演进的核心驱动力

完成了整个旅程,我们现在可以回答一个深刻的问题:究竟是什么推动着光通信技术持续进化?

9.5.1 三股永恒的驱动力

⚛️ 物理定律(天花板)

香农极限、非线性薛定谔方程、色散方程、量子噪声——这些是宇宙给光通信设定的"天花板"。人类所有的技术创新,都是在这些极限内舞蹈。

💰 经济规律(地板)

摩尔定律、CMOS 工艺成熟度、光器件成本曲线——这些是经济可行性的"地板"。一项技术即使物理可行,也必须经济可行才能大规模部署。

🚀 需求驱动(引擎)

从互联网普及到云计算、从视频流媒体到 AI 训练——应用需求是真正的"引擎"。需求决定了物理和经济创新的方向与速度。

9.5.2 三者的相互作用

这三股力量并非独立,而是深度耦合:

这是一个正反馈循环:需求驱动技术 → 技术降低成本 → 成本下降扩大需求 → 新需求驱动新技术……

9.5.3 我们是在逼近还是远离"理论极限"?

🔬 答案:既在逼近,也在逃离
逼近:单波长的频谱效率已达香农极限的 80-90%。在"单通道"维度,我们几乎到顶了。
逃离:但我们正通过"新维度"突破——空分复用(更多纤芯)、新型介质(空芯光纤)、新拓扑(RON 简化层次)。
深层规律:每当一个维度逼近极限,人类就会打开一个新维度。这是科技史反复上演的剧本。

§9.6 苏格拉底提问 —— 整个学习旅程的反思

我们即将结束这趟旅程。请花 10 分钟,独立思考以下六个问题。它们没有标准答案,但会帮你把所学内化为自己的思维框架。

反思题 1 · 澄清与反思

九个模块中,哪个概念对你的认知冲击最大?为什么?哪个是理解其他所有内容的"基石"?

参考思路:很多人会提到"相干检测 + DSP"——因为它重新定义了光通信的可能性边界。而基石往往是"光的电磁波本质"或"香农极限"——它们支撑了后续所有技术。

反思题 2 · 探究假设

我们假设"带宽需求会持续指数增长"——这一定成立吗?如果 AI 训练需求见顶(如模型参数规模不再指数增长),光通信演进方向会怎样变化?

参考思路:历史上,带宽需求有过阶段性平缓。如果模型规模见顶,重点可能转向"单位比特功耗优化"、"延迟优化"、"可靠性提升"——从"更大"转向"更好"。

反思题 3 · 考虑其他视角

Routed Optical Networking 代表"IP 吞噬光传输层"的趋势。从传统光传输设备厂商(如 Nokia、Ciena、华为光传输)的视角,他们会如何看?反对/应对的理由?

参考思路:他们的核心资产是专用 Transponder 和 OTN 设备。面对 RON,他们的策略通常是:① 强调超长距场景的技术优势;② 发展自己的可插拔相干光;③ 转型为软件/自动化公司;④ 深耕特定垂直市场。

反思题 4 · 探讨影响

如果可插拔相干光模块成本降到与灰光模块相当,产业链会发生什么变化?谁消失?谁崛起?

参考思路:独立 Transponder 厂商将大规模萎缩;相干光模块供应商(如 Acacia、InnoLight、Source Photonics)地位提升;硅光子代工厂(如 GlobalFoundries、TSMC)成为关键;DWDM 网络规划工具和自动化软件需求激增。

反思题 5 · 元反思

我们用"第一性原理"学习光通信。这种方法有哪些局限?哪些实际工程知识是第一性原理推导不出,必须靠经验积累的?

参考思路:第一性原理能解释"为什么",但无法告诉你"具体参数调优"、"厂商兼容性问题"、"现场故障排除经验"。这些需要数千小时的实战积累。第一性原理是地图,但不能替代行走的经验。

反思题 6 · 未来展望

作为一个即将进入光通信领域的学习者/从业者,你认为未来 10 年最值得投入的技术方向是什么?理由?

参考方向:① 硅光子集成电路设计;② 相干光 DSP 算法;③ CPO 系统工程;④ 光网络自动化与 AI 运维;⑤ 量子通信基础设施;⑥ 新型光纤(空芯、多芯)工程化。每个方向都有巨大机会。

🎯 整个 9 模块学习旅程的 18 个核心要点

  1. 光是电磁波——麦克斯韦方程统一了光学与电磁学,光速是时空本身的属性。(模块 1)
  2. 光的频率 200 THz——比微波高 5-8 个数量级,这是大容量通信的物理基础。(模块 1)
  3. 香农公式 C = B·log₂(1+SNR)——定义了通信的理论天花板,一切技术都是在逼近它。(模块 1)
  4. 光纤基于全内反射——纤芯 n>包层 n 是光纤导光的物理基石。(模块 2)
  5. 1550nm 是黄金波段——衰减最低(0.2 dB/km)+ EDFA 增益窗口,成就了长距通信。(模块 2)
  6. 色散与非线性是光传输的核心挑战——它们定义了"不可能三角",需要系统性权衡。(模块 2)
  7. I/Q 调制器是相干光的"画笔"——让光波可以承载任意振幅+相位的星座图。(模块 3/4)
  8. EDFA 是 DWDM 的使能技术——C 波段全波长透明放大,改变了全球通信的经济性。(模块 4)
  9. 光通信的核心优势来自物理本质——大带宽、低损耗、抗 EMI、物理安全、轻量细径。(模块 5)
  10. DWDM 把一根光纤变成彩虹高速公路——96+ 波长共享,容量达数十 Tbps。(模块 6)
  11. ROADM 让波长"软件定义"——CDC ROADM + Flex Grid 是软件定义光网络的基石。(模块 6)
  12. 相干光 + DSP 是过去 20 年最大的光通信革命——色散、偏振、相位从物理难题变成数字问题。(模块 7)
  13. PCS 概率整形逼近香农极限——1-1.5 dB 整形增益,距离延长 20-30%。(模块 7)
  14. Routed Optical Networking 是架构级革命——三层塌缩到两层,TCO 降低 46%,功耗降低 8 倍。(模块 8)
  15. 硅光子是 RON 的引擎——让相干光模块从机柜缩到指甲盖。(模块 8)
  16. AI 时代重塑光通信全景——从 CPO 到海底光缆,每一层都被 AI 需求驱动进化。(模块 9)
  17. 光通信演进的三股驱动力——物理定律(天花板)、经济规律(地板)、需求驱动(引擎)的永恒博弈。(模块 9)
  18. 每当一个维度逼近极限,人类就打开一个新维度——这是科技演进的永恒规律。(模块 9)

⚠️ 常见误解与陷阱(Common Misconceptions)

作为 Optical 系列的收官,我们延续前三篇的传统——列举 RON 与 AI 时代光通信中最容易踩的"坑",帮你建立更精确的心智模型。

误解 #1:"RON 就是把 Transponder 插到路由器上"

真相:这只是 RON 最表面的特征。RON 的核心是网络架构范式的转变——从分层独立走向融合协同。没有统一的自动化平台(Crosswork)、没有 IP 与光的深度集成,就只是"往路由器上插彩光模块"——这不是 RON。

误解 #2:"硅光子必然淘汰传统光器件"

真相:硅光子在数据通信(短中距、大批量)领域确实占统治地位。但在超长距海缆、高功率特殊应用、特定波长要求等场景,InP/GaAs 等 III-V 族光器件的性能仍不可替代。两者是互补而非替代关系。

误解 #3:"AI 集群只用 InfiniBand,不需要以太网光模块"

真相:2024 年以来,以太网在 AI 后端网络(Ultra Ethernet Consortium)的份额快速上升。以太网的开放性、多厂商生态、与前端网络的一致性使其越来越成为主流选择。Meta、Microsoft、Google 的新一代 AI 集群都大规模使用 800G Ethernet。

误解 #4:"CPO 出来后可插拔光模块就会被淘汰"

真相:CPO 在芯片间/超短距有功耗优势,但其灵活性、可维护性、供应链多样性劣势明显。在所有需要"拔出来换一只"的场景(运维、升级、混合网络),可插拔光模块依然是首选。未来 10 年是 CPO 与可插拔共存互补的时代。

误解 #5:"800G ZR 马上就能替换所有 400G ZR"

真相:800G ZR 的OSNR 要求更严、链路预算更紧、距离更短。在现有光基础设施上,很多场景仍然需要 400G ZR/ZR+。正确的升级策略是:短距先升 800G,中长距继续用 400G+PCS,按需选择。

误解 #6:"光模块越便宜越好,反正都是按标准做的"

真相:在 AI 数据中心,光模块可靠性远比单价重要。Cisco 实测显示:在 100G/400G 模块中,不同厂商的性能差异可达数量级。一次故障可能导致 AI 训练任务失败,损失远超数千只光模块的成本差。

误解 #7:"SDM 空芯光纤明年就能普及"

真相:空芯光纤实验室演示很漂亮(接近真空的光速、极低非线性),但商用良率、损耗、接续都未完全解决。短期(2-3 年)只会在极少数低延迟金融交易、AI 超低延迟训练集群中试点。大规模替换 SMF 至少需要 10 年。

误解 #8:"Cisco 做全栈,锁定风险大"

真相:Cisco 的全栈能力建立在开放标准之上——OIF 400ZR/800ZR、OpenZR+、OpenROADM、OpenConfig YANG、IETF RFC 等。Cisco 的差异化来自优化与整合,而非封闭。超过 75% 的 Cisco RON 部署使用第三方光线路系统就是最好的证明。

🧭 技术判断的北极星
在快速变化的光通信领域,避免被单一厂商/单一技术的宣传带偏——回到第一性原理,问三个问题: ①这项技术解决了什么物理问题?②它的经济性成立吗?③真实的市场应用数据支持吗? 这是 Optical 系列留给你的终极思维武器。

📚 完整术语表(Glossary)

本术语表汇集 Optical 202(模块 8 + 9)涉及的所有核心术语,Optical 101 / 102 / 201 的术语请参考对应文章。

术语 英文全称 简要释义
RON Routed Optical Networking 路由光网络 —— Cisco 主推的架构革命,将 DWDM 相干光直接集成到路由器,消除独立 OTN/Transponder 层
CPO Co-Packaged Optics 共封装光学 —— 将光引擎与交换 ASIC 共封装,解决电互联功耗墙。下一代 AI 数据中心的关键技术
LPO Linear-drive Pluggable Optics 线性驱动可插拔光学 —— 去除光模块内 DSP,使用线性驱动器降低功耗的新型光模块
硅光子 Silicon Photonics (SiPh) 在硅芯片上集成光学元件的技术,是 RON 和 CPO 的核心支撑
SOI Silicon-on-Insulator 绝缘体上硅 —— 硅光子制造的主流衬底工艺
PIC Photonic Integrated Circuit 光子集成电路 —— 硅光子芯片的统称,集成波导、调制器、探测器等
OpenZR+ Open ZR+ MSA 开放 ZR+ 多源协议 —— 扩展 400ZR 的多厂商互操作标准,支持多种速率和更远距离
OpenROADM OpenROADM MSA 开放 ROADM 多源协议 —— 多厂商 ROADM 与相干光的互操作标准
ULH Ultra Long Haul 超长距 —— 指 2500-3000km+ 的传输距离,Cisco ULH ZR+ 是代表产品
Bright ZR+ Bright ZR+ 高 TX 功率版 ZR+ 模块 —— Cisco Acacia 的增强型模块,+1dBm TX 功率扩展距离
NVLink NVIDIA NVLink NVIDIA 的 GPU 间高速互联协议,用于 Scale-Up 网络,带宽可达 1800 GB/s
RDMA Remote Direct Memory Access 远程直接内存访问 —— AI 集群的核心通信技术,避免 CPU 参与数据传输
RoCEv2 RDMA over Converged Ethernet v2 以太网上的 RDMA —— AI 数据中心主流的无损网络协议
All-Reduce All-Reduce 集合通信原语 —— 所有 GPU 交换并求和数据,AI 训练中梯度同步的核心操作
Scale-Up Scale-Up Network 纵向扩展网络 —— 机柜内 GPU 间的超高速互联,以 NVLink 为代表
Scale-Out Scale-Out Network 横向扩展网络 —— 机柜间 GPU 集群的互联,以 400G/800G Ethernet 为代表
SDM Space Division Multiplexing 空分复用 —— 通过多芯/少模光纤在空间维度扩展容量,突破单纤香农极限
MCF Multi-Core Fiber 多芯光纤 —— 单根光纤内有多个纤芯,每个纤芯独立传输
HCF Hollow-Core Fiber 空芯光纤 —— 光在空气中传播而非玻璃中,延迟降低 33%,低非线性
FMF Few-Mode Fiber 少模光纤 —— 利用 MIMO 技术在同一纤芯内传输多个模式
Crosswork Cisco Crosswork Cisco 网络自动化平台 —— 包括 Network Controller、Data Gateway、Optical Network Controller 等
NSO Network Services Orchestrator Cisco 网络业务编排平台 —— 基于 YANG 模型驱动的多厂商配置管理
IBN Intent-Based Networking 意图驱动网络 —— 运维人员描述"意图",系统自动实现,运维的高级阶段
TCO Total Cost of Ownership 总拥有成本 —— CAPEX + OPEX 的综合,评估网络经济性的核心指标
Stargate Stargate Project Microsoft/OpenAI 的超大规模 AI 数据中心项目 —— 投资约 1000 亿美元,功率 5GW
QKD Quantum Key Distribution 量子密钥分发 —— 基于量子力学原理的加密通信技术,基于光纤基础设施

🎓 旅程的终点,也是起点

从一颗光子在 10,000 公里海底光缆中的量子漫游,
到一束彩光在 Cisco 8000 路由器 QSFP-DD 端口中的相干翻译,
再到万卡 GPU 集群中硅光子芯片的微米级舞蹈——

你已经走完了光通信的全景旅程。

九个模块、20+ 万字、数百个公式、无数类比——
这不仅仅是知识的学习,更是思维方式的训练
从第一性原理出发,用苏格拉底式追问深入,
以类比打开理解,以结构化表达内化。
这些方法论,你可以迁移到任何领域的学习中。

🚀 接下来,你可以做什么?

  1. 动手实践:如果你有 Cisco 设备访问权限,配置一条 RON 链路。如果没有,用 Cisco Modeling Labs 或 EVE-NG 仿真。
  2. 深入专项:根据你的兴趣,选一个方向深入——硅光子、DSP 算法、网络自动化、海底光缆……
  3. 关注前沿:订阅 Light Reading、Fierce Telecom、OFC 会议论文。光通信每年都有新突破。
  4. 加入社区:IEEE Photonics Society、OIDA、Cisco Live、Cisco CCIE 光学方向认证。
  5. 分享传播:把你学到的知识讲给同事、写成博客、做成视频。教学相长,传播本身就是最好的学习。

AI 时代才刚刚开始,光通信的黄金十年才刚刚开始。
每一个挑战,都是属于你的机会。
每一项物理约束,都等待被新思路突破。
每一次技术飞跃,都可能因为你而发生。

愿光与你同在。 🌟

May the light be with you, always and forever.