Cisco Secure AI Factory 全景图

将海量数据转化为智能的超级现代工厂——从硅片到应用的端到端技术深度解析

🏭 AI Factory 架构 🔒 全栈安全 ⚡ 800G 以太网 🧠 Agentic AI 📊 可观测性

背景:为什么需要 AI 工厂?

核心隐喻:将整个 AI 基础设施想象为一座"生产智能的超级现代工厂"——数据是源源不断的原材料,GPU是高并发流水线上的核心工人,精密的软硬件调度系统是车间主管,超低延迟、超高带宽的高性能网络是连接所有车间的无缝传送带,而最终交付给终端用户的各类 AI 应用,则是这座工厂产出的定制化智能商品。[1]

📈 规模扩展定律的驱动

大语言模型(LLM)的参数量正以指数级增长——从数亿到如今的数千亿乃至万亿。传统的通用 CPU 计算架构已触及天花板,传统数据中心的核心衡量指标不再是服务器在线率,而是"Token 生成速率"——这是 AI 时代最基础的制造单元。[1]

🏗️ 从数据中心到 AI 工厂

NVIDIA 提出的 AI Factory 概念:专门为规模化生产"智能(Intelligence)"而建造的新型基础设施。它将"原始数据"和"电力"作为输入,以极高的效率批量输出"智能和 Token"。每个企业都将需要一座 AI 工厂来交付快速、可重复、灵活且高效的 AI 成果。[2][3]

⚠️ 企业面临的三大挑战

Cisco 将企业落地 AI 的障碍归纳为三大核心挑战:基础设施约束(缺乏高性能、集成化的计算/网络/存储)、信任赤字(AI 模型存在安全漏洞与幻觉风险)、以及数据鸿沟(数据是 AI 的燃料,但访问与治理面临巨大挑战)。[4]

Cisco 的回应Cisco Secure AI Factory with NVIDIA——一套模块化参考设计,将高性能基础设施与全栈安全和可观测性相融合。它不仅仅是硬件堆叠,而是从芯片到系统到分布式 AI 流水线每一层都嵌入安全的完整解决方案。[4]

Cisco Secure AI Factory 四层架构全景图

下图以"智能工厂"为隐喻,将整个 Cisco Secure AI Factory 划分为四个核心层级。从最底层的物理硬件与高性能网络(工厂的地基与传送带),经过计算框架与通信加速层(核心流水线),到模型编排与推理服务层(车间调度),直至最顶层的 AI 应用与业务层(最终交付的智能商品)。安全(Security)与可观测性(Observability)贯穿所有层级。

🔒 Cisco Security(全栈安全) 📊 Splunk Observability(可观测性) 第一层:AI 应用与业务层 — 交付最终价值(智能商品) 隐喻:工厂产出的定制化高端商品 LLM 大语言模型 Llama 3 / GPT 系列 涌现能力·零样本学习 多语言代码编写 RAG 检索增强生成 向量数据库 + 嵌入模型 减少幻觉·知识实时更新 单次检索→线性流水线 Agentic AI 智能体 自主规划·迭代推理·工具调用 Agentic RAG 多步检索 NVIDIA AI Blueprints AI 安全与护栏 Cisco AI Defense 模型验证·运行时保护 Prompt 注入防御·护栏 第二层:模型编排与推理服务层 — 车间调度 隐喻:工厂的智能车间管理系统——让 GPU 资源物尽其用 Kubernetes + Run:ai GPU 动态资源池化 · 弹性伸缩 MIG 硬件空间分割 (物理隔离) Time Slicing 时间分片 (软件共享) NVIDIA NIM 推理微服务 预优化容器 · 一行命令部署 In-flight Batching (IFB) 动态批处理 Tensor Parallelism 张量并行 管理与编排平台 Red Hat OpenShift / Upstream K8s Cisco Intersight (UCS 管理) Cisco Nexus Dashboard (网络管理) 第三层:计算框架与通信加速层 — 核心流水线 隐喻:流水线工人的专属语言(CUDA)与极速物流通讯系统(NCCL) PyTorch + CUDA 动态计算图 · 即刻执行 GPU Kernel → SM (流多处理器) 海量线程并行矩阵运算 (SIMT) NCCL 集合通信 All-Reduce / Broadcast / Scatter Ring → 双二叉树 O(log k) 跨数据中心网络拓扑感知 NVIDIA 软件栈 NVIDIA AI Enterprise 6.0+ GPU Operator · Network Operator TensorRT-LLM · Triton Server 第四层:高性能网络与硬件基础设施层 — 传送带与地基 隐喻:绝不堵车的高速物流系统 + 坚实的工厂地基 GPU 计算节点 Cisco UCS C885A M8 8×NVIDIA HGX H200 GPU NVLink 节点内互联 BlueField-3 SuperNIC 后端网络 (E/W) Nexus 9364E-SG2 (800G) RoCEv2 无损以太网 RDMA · GPUDirect 自适应路由 · Packet Spray 前端网络 (N/S) Nexus 9364D-GX2A 管理·存储·推理用户流量 EVPN VXLAN 多租户 QoS 优先级保障 存储 VAST · NetApp · Pure 全闪存 NVMe NVIDIA 认证存储 训练·检查点·RAG 向量 数据 (原材料) ➜ GPU 计算 (流水线) ➜ 网络同步 (传送带) ➜ Token 输出 (智能商品)

第一层:AI 应用与业务层

智能商品 位于系统架构最顶层——底层庞大而专精的硬件算力在这里被抽象为具体的认知、推理、协作与决策能力。大语言模型(LLM)成为核心认知引擎,应用范式正经历从被动的信息检索向自主的智能体(Agentic AI)的深刻演变。[1]

1.1 大语言模型(LLM):核心认知引擎

LLM(如 Llama 3、GPT 系列等)通过在海量互联网文本上进行自监督学习,吸收了人类世界广大的知识与语言逻辑。这些模型拥有海量参数权重,不仅能理解和生成自然语言,还展现出"涌现能力(Emergent Abilities)"——包括零样本学习、复杂逻辑链推理以及多语言代码编写。[1]

LLM 的工作原理(推理流水线)

  1. Token 化:文本被分词器切分为基本单元(Token),转换为数字 ID。模型处理的不是文字,而是这些数字编码。
  2. 预填充阶段(Prefill):GPU 一次性并行处理所有输入 Token,注意力机制计算词间关联,生成 KV Cache(键值缓存)存入显存。
  3. 解码阶段(Decode):模型利用 KV Cache 进行矩阵乘法,预测下一个最可能的 Token。每次只输出一个 Token(自回归),循环往复直至遇到结束符。屏幕上"打字机效果"的根本原因就在于此。
  4. 去 Token 化:数字 ID 序列被转回人类可读的自然语言文本。

关键性能指标TTFT(Time to First Token,首字延迟)——用户看到第一个字符弹出的等待时间;ITL(Inter Token Latency,Token 间延迟)——生成每个后续字符的时间间隔。NIM 的 IFB 和张量并行直接优化这两个指标。

然而,一个裸露的基础大模型类似一个拥有最高智商却被关在密室中的学者——它既不知道当前时间,也无法访问企业内部的保密数据,更无法直接操作外部软件系统。为此,LangChainLlamaIndex 等中间件框架充当了大模型与外部世界的桥梁。[1]

1.2 检索增强生成(RAG):为模型注入实时知识

LLM 存在两个致命弱点:知识过时(训练数据有截止日期)和幻觉(Hallucination)(对缺乏内部知识的问题倾向于"一本正经地胡说八道")。RAG(Retrieval-Augmented Generation)通过引入外部知识库优雅地解决了这些问题。[1]

RAG 工作机制三步曲

① 索引(Indexing) 企业私有数据(合规文档、 内部维基、客户记录) → 分割为文本块(Chunks) → 嵌入模型转为高维向量 → 存入向量数据库 ② 检索(Retrieval) 用户提问 → 向量化 在向量数据库中 进行相似度检索 → 召回最相关的 Top-K 文档段落作为上下文 ③ 生成(Generation) 原始提问 + 检索到的 真实上下文一起"喂"给 LLM → 模型基于提供的上下文 进行总结和回答 → 事实准确、可追溯

尽管 RAG 在提升事实准确性方面表现优异,但其本质上仍是一个单轮、基于单次检索的静态流水线。传统 RAG 擅长"找到正确的信息",但不具备"根据信息采取行动"的能力。[1]

1.3 Agentic AI(智能体 AI):从"回答"到"行动"

为突破传统 RAG 的局限,Agentic AI 概念迅速崛起并成为当前企业 AI 转型的核心方向。如果说 RAG 改善了模型"回答之前所知道的信息",那么 Agentic AI 则赋予了模型"自主行动与执行的能力"。[1]

智能体不再是被动等待提示词的反应器,而是被赋予了自主规划、迭代推理、调用工具以及上下文记忆的数字化员工。[1]

评估维度 传统 RAG Agentic AI / Agentic RAG
核心机制 线性流水线:查询 → 单次静态检索 → 文本生成 循环推理迭代:规划 → 工具调用 → 评估 → 动态检索 → 执行[1]
LLM 角色 语言与特定知识的合成器和事实校验工具 具备跨系统路由、异常处理和事件驱动动作执行的中央大脑[1]
优势场景 高精度知识点问答(如法规查询、产品说明书解析) 异步多步任务、复杂工作流自动化(如实时仓库调度、深度科研摘要与推理)[1]
基础设施需求 单次长上下文生成(10-20× Token) 高频、海量的外部工具并发调用与多步连续决策(50-200× Token[4]
部署风险 依赖高质量结构化文档和精确向量检索 存在策略漂移和误执行风险,高度依赖沙盒隔离、严格权限治理以及"人机协同"(Human-in-the-loop)控制[1]

Token 需求的通货膨胀:从简单的"单次应答"(10-20× Token)到深度的"智能体推理"(50-200× Token),AI 基础设施必须从支持单次长上下文生成的静态响应模式,转型为能够支撑高频、海量且复杂的外部工具并发调用与多步连续决策的弹性模式。这正是 Cisco Secure AI Factory 存在的根本意义。[4]

1.4 AI 安全:Cisco AI Defense

AI 模型和应用构成了全新的网络攻击面——Prompt 注入、模型窃取、训练数据投毒、幻觉导致的财务/法律/声誉损害等威胁层出不穷。[4]

🛡️ AI 模型与应用验证

通过算法化红队测试(Algorithmic Red Teaming)自动检测模型中的漏洞,自动生成映射到 AI 安全标准的报告,并针对特定模型漏洞创建防护栏。[4]

🚧 AI 运行时应用保护

在模型实时服务期间,强制执行Guardrails(护栏)——拦截恶意 Prompt 和不安全的模型响应(包括亵渎、仇恨言论、敏感信息泄露、偏离主题等),实现输入/输出双向防护。[4]

Cisco AI Defense 采用云管理、混合执行架构——通过 Cisco Security Cloud Control 集中管理策略,但验证和运行时保护服务可在本地 AI POD 或云端工作负载中灵活执行。[4]

第二层:模型编排与推理服务层

车间调度 当企业开发出高价值的 AI 应用后,如何将其高效、经济、可靠地部署到物理服务器上运行,是决定业务可行性的关键。在这一层,底层庞大的算力资源被虚拟化、池化,并根据应用需求进行动态调度。[1]

2.1 Kubernetes + NVIDIA Run:ai:GPU 资源的智能调度

Kubernetes(K8s)是云原生时代管理容器化应用的操作系统标准。然而传统 K8s 主要为调度 CPU 资源和无状态 Web 应用设计。面对 AI 工作负载——训练一个大模型可能需要数百上千 GPU 节点连续运行数周——原生 K8s 暴露出对底层异构硬件感知不足、资源隔离粒度粗糙等问题。[1]

NVIDIA Run:ai 作为运行在 K8s 之上的高级调度器,引入了动态 GPU 资源池化与精细化分割机制。[1][4]

GPU 分割的两大技术路线

硬件级

MIG(Multi-Instance GPU)硬件空间分割

NVIDIA 硬件架构层面的创新。允许在物理层面将单张 GPU 划分为最多 7 个完全独立的实例。每个 MIG 实例被分配了专属的显存、二级缓存和计算核心(SM)。[1]

绝对优势:严格的物理隔离——一个分区上的应用崩溃或高负载计算绝对不会影响同一张显卡上其他分区的性能。[1]

核心适用:多租户云环境的计费隔离、SLA 级别的生产推理服务。[1]

软件级

Time Slicing 时间分片

让多个进程"拼车"共享 GPU。系统通过并发调度让多个进程交替占用 GPU 的全部计算资源。[1]

优势:最具弹性,可支持数十个轻量级应用同时搭载,超额分配能力强。

缺陷:缺乏底层显存和算力的硬隔离。当多个重负载任务同时运行,容易产生"嘈杂邻居效应(Noisy Neighbor)",导致性能波动不可预测。[1]

核心适用:研发测试环境(Dev/Test)、交互式 Jupyter Notebook 调试。[1]

2.2 NVIDIA NIM:一行命令部署的高性能推理微服务

传统的模型部署需要开发者手动配置复杂的 CUDA 环境、编译底层库、选择推理框架,耗时数周。NIM(NVIDIA Inference Microservices)将预训练的开源基础模型(如 Llama 3)或微调模型,与高度优化的推理引擎(如 Triton Inference Server 和 TensorRT-LLM)统一封装为企业级软件容器。开发者只需一行简单命令,几分钟内即可在任何云环境或本地数据中心启动一个符合行业标准 API 的推理接口。[1][4]

NIM 的核心性能优化技术

⚡ In-flight Batching (IFB) 动态批处理

传统批处理要求等待当前批次中所有用户请求都生成完毕才能处理下一批,导致 GPU 大量闲置。NIM 启用的 IFB 技术允许在每一个生成步骤(Token 级)动态评估——当新请求到达时,立即将其插入正在执行的批处理流中,实现 GPU 利用率的最大化。[1]

🔀 Tensor Parallelism 张量并行

对于参数量超出单张 GPU 显存容量的超大模型,NIM 提供开箱即用的张量并行能力。模型的权重矩阵被物理分片(Sharding),各分片分布到多张 GPU 上,推理时 GPU 并行执行矩阵乘法,并通过最高速网络交换部分计算结果。这不仅解决了内存瓶颈,还有效缩短了首字生成时间(TTFT)。[1]

基准测试:在单张 H100 GPU 上处理 200 个并发请求时,未经优化的 Llama 3.1 8B 模型吞吐量仅为 613 tokens/s、Token 间延迟(ITL)37 ms;启用 NIM 优化后,吞吐量骤增至 1201 tokens/s,延迟下降至 32 ms,实现了接近两倍的产能飞跃。[1]

2.3 管理与编排平台

Red Hat OpenShift

本参考架构以 Red Hat OpenShift(v4.18+)为中心提供企业级工作负载编排。管理集群(≥3 控制节点)部署在独立的 Cisco UCS X-Series Direct 上,与 GPU 工作负载集群物理隔离。[5]

Cisco Intersight

SaaS 或本地私有部署的 IT 运维平台,提供所有 Cisco UCS 基础设施的统一实时视图和全生命周期管理——从部署配置到合规安全。[5]

Cisco Nexus Dashboard

统一管理和运维后端、前端双 Fabric 的平台。提供基于最佳实践的 AI 部署蓝图模板,支持自动化滚动部署和简化的生命周期管理。单一 API 端点驱动整个 Fabric 自动化。[5]

第三层:计算框架与通信加速层

核心流水线 上层应用的业务逻辑最终要被转译为硬件能够理解的数学运算指令。这一过程由 PyTorch 等深度学习框架与底层的 CUDA 及 NCCL 通信库紧密协作完成。[1]

3.1 PyTorch 与 CUDA:GPU 的操作手册

PyTorch 动态计算图

PyTorch 采用动态计算图(Dynamic Computational Graphs)机制——图的结构在每次前向传播代码运行时动态生成。这种"即刻执行(Eager Execution)"的特性赋予了模型开发空前的直观性和灵活性,使得定义复杂神经网络、设计损失函数以及控制梯度反向传播训练循环,就像编写普通 Python 脚本一样简单。[1]

CUDA 并行计算微架构

然而 Python 本身是顺序执行的。要处理深度学习中数以亿计的参数矩阵相乘,必须依赖底层并行计算平台。CUDA(Compute Unified Device Architecture)是 NVIDIA 推出的解锁 GPU 所有并行计算潜能的钥匙。[1]

  1. Kernel(内核函数):开发者使用 C++ 编写特殊函数并通过 __global__ 修饰符声明其在 GPU(Device)而非 CPU(Host)上执行。[1]
  2. SM(流多处理器):GPU 硬件的微架构被组织为层级系统。以 T4 GPU 为例,单卡封装了 40 个 SM,共包含 2560 个 CUDA 核心,每个 SM 可同时维持多达 1024 个活跃线程的并行上下文。[1]
  3. 线程组织:Grid → Block → Thread:启动 Kernel 时通过特殊语法 <<<numBlocks, threadsPerBlock>>> 定义并行规模。CUDA 运行时将线程组织为由多个线程块(Thread Blocks)组成的网格(Grid),硬件调度器动态分配给可用 SM 执行。[1]
  4. SIMT 范式:每个线程通过内置环境变量(threadIdx.x, blockIdx.x)精确计算自身负责的数据索引,海量线程同时对不同数据元素执行相同指令——这就是 GPU 以比单线程 CPU 快数千倍的速度完成矩阵运算的根本机制。[1]

3.2 NCCL:跨 GPU 集合通信的极速物流系统

当模型规模达到 GPT-4 的数万亿参数级别时,任何单一节点的显存都无法容纳完整的计算图。分布式计算成为唯一出路。数据并行(Data Parallelism)和张量并行(Tensor Parallelism)要求成百上千张 GPU 协同工作——而在每一次反向传播周期的末尾,分散在各个 GPU 上的节点必须同步梯度参数,之后才能进行下一次迭代。NCCL(NVIDIA Collective Communication Library)正是为解决大规模 GPU 集群间的通信瓶颈而设计。[1]

核心集合通信原语

原语功能
Broadcast将数据从一个节点广播到所有节点
Scatter将数据分割发给各个节点
Gather从各个节点收集数据
All-Reduce(全规约)分布式深度学习中最核心的操作——所有 GPU 同时交换并聚合梯度数据[1]

算法演进:从环形到双二叉树

🔄 环形全规约(Ring All-Reduce)

所有 GPU 逻辑组成一个环,每个 GPU 仅与直接邻居通信。分为 Reduce-Scatter 和 All-Gather 两阶段。优势:充分利用每个节点的入站和出站带宽。瓶颈:需要 2(k-1) 个严格串行通信步骤,延迟随 GPU 规模 k 线性增长。集群达到千卡以上时延迟不可接受。[1]

🌳 双二叉树算法(Double Binary Trees)

NCCL 后续版本引入的革命性算法。系统内部构建两棵互补的二叉树。规约阶段数据从叶子节点层层向上汇总到根节点;广播阶段根节点将合并完毕的数据快速向下分发。通信步骤从线性 O(k) 骤降为对数级 O(log k),成为当代超大规模集群的首选算法。[1]

跨数据中心拓扑感知

随着单体数据中心电力和物理空间的硬约束,跨越多个物理数据中心构建统一的 AI 训练集群成为新趋势。NCCL 引入了网络拓扑感知机制与 Fabric ID——智能识别物理拓扑,避免在低带宽的广域网(WAN)链路上进行粗暴的数据搬运。All-Reduce 流程被动态重组为:在数据中心内部利用最高速的 NVLink 完成局部 Reduce-Scatter → 仅通过跨数据中心链路交换最小化的汇总数据 → 各自数据中心内再进行快速的 All-Gather 广播。[1]

3.3 NVIDIA AI Enterprise 软件栈

Cisco Secure AI Factory 验证的软件栈包括:[5]

组件版本功能
NVIDIA AI Enterprise6.0+企业级 AI 全栈软件平台(含 NIM、NeMo 等)
NVIDIA GPU Driver570.172.08+GPU 驱动程序
CUDA12.8+并行计算平台
GPU Operator25.3.4+K8s 中自动管理 GPU 驱动与运行时
Network Operator25.7.0+K8s 中自动管理 RDMA/RoCE 网络
DOCA-OFED Driver3.0.0+BlueField DPU/SuperNIC 驱动
NIM Operator2.0.2+K8s 中自动部署 NIM 推理微服务

第四层:高性能网络与硬件基础设施

地基与传送带 在 AI 工厂中,单打独斗的时代已经结束。要让数万张 GPU 如同一台统一的超级计算机般齐心运转,网络通信的带宽和延迟直接决定了整座机器的利用率上限。[1]

4.1 GPU 计算节点:Cisco UCS C885A M8

Cisco UCS C885A M8 是一台 8RU 的高密度 GPU 服务器,基于 NVIDIA HGX 架构,遵循 2-8-9-400(2 CPU – 8 GPU – 9 NIC – 400GbE/GPU)参考配置模式设计。[5][6]

规格详情
CPU2× AMD EPYC 9575F(3.3 GHz,Max Boost 5 GHz)
GPU8× NVIDIA HGX H200 SXM(141 GB HBM3e / 每卡)
GPU 内部互联NVLink(节点内 GPU-to-GPU 高速总线,带宽可达 900 GB/s+)
后端 NIC(E/W)8× NVIDIA BlueField-3 B3140H SuperNIC(各 1×400GbE)
前端 NIC(N/S)2× NVIDIA BlueField-3 B3220(各 2×200GbE)
内存24× 96GB DDR5-6000 MT/s(最高 3 TB)
本地存储最高 30 TB NVMe SSD
管理Cisco Intersight(SaaS 或本地私有部署)

为什么需要 NVLink? 一个 4050 亿参数的大模型,仅存储其权重(FP16)就需要约 810 GB 显存,远超单卡 141 GB。通过 NVLink 在节点内将 8 张 H200 的显存统一为一个共享内存池(8×141=1128 GB),使单节点即可容纳超大模型的推理负载,且 GPU 间数据交换无需经过缓慢的 PCIe 和 CPU。[6]

4.2 后端网络(East-West):GPU-to-GPU 的无损高速公路

后端网络是专用于 GPU 间集合通信的隔离网络,直接决定分布式训练的作业完成时间(JCT)。其核心要求:无阻塞、无损、超高带宽、极低尾部延迟[5]

4.2.1 拓扑设计:四路 Rail-Optimized Clos

Cisco AI POD 采用两层非阻塞 Spine-Leaf Clos 拓扑。每台 UCS C885A 的 8 块后端 NIC 以"四路 Rail"方式连接到 4 台叶交换机——每台叶交换机负责两个 GPU Rank 的流量。这种拓扑保证了每个 GPU 拥有 400GbE 的专属东西向带宽,全网无过订。[5]

Spine A (9364E-SG2) Spine B (9364E-SG2) Leaf 1 (RG 1,5) Leaf 2 (RG 2,6) Leaf 3 (RG 3,7) Leaf 4 (RG 4,8) UCS C885A-1 GPU1 GPU2 GPU3 GPU4 GPU5 GPU6 GPU7 GPU8 ← NVLink 节点内高速互联 → ⋯ 最多可扩展至 32 台 UCS C885A(256 GPU)⋯ 四路 Rail-Optimized 拓扑:每台 Leaf 连接 2 个 GPU Rank,全网无阻塞

4.2.2 核心交换机:Cisco Nexus 9364E-SG2

特性Nexus 9364E-SG2
芯片Cisco Silicon One G200
端口64× 800GbE(QSFP-DD 或 OSFP)
交换容量51.2 Tbps
片上缓存256 MB(吸收微突发流量防止丢包)
关键 AI 特性DLB (动态负载均衡) · PFC · ECN · RoCEv2 无损传输 · 细粒度遥测
管理Cisco Nexus Dashboard · NX-OS
NVIDIA 认证通过 NVIDIA Enterprise RA 和 Spectrum-X 平台验证[4][5]

4.2.3 RDMA 与 RoCEv2:绕过 CPU 的数据直达

在传统的 TCP/IP 网络中,数据包需经过操作系统内核空间的层层封装与拷贝,引入数十至数百微秒的延迟,根本无法应对 AI 训练中密集的数据交换。[1]

RDMA(Remote Direct Memory Access,远程直接内存访问)技术彻底颠覆了数据流转范式:一台主机的网卡可以直接读写另一台主机的物理内存,完全绕过(Bypass)双方的 CPU、操作系统内核和系统缓存,实现"零拷贝(Zero-copy)"通信,端到端延迟压缩至个位数微秒级别。[1]

RoCEv2(RDMA over Converged Ethernet v2)将 RDMA 操作指令封装在标准的 UDP/IP 数据包中,使其可以跨越标准以太网的 L3 路由器传输。但 RDMA 对丢包"零容忍"——丢包会触发灾难性的性能崩塌。因此部署 RoCEv2 依赖数据中心桥接(DCB)技术体系:[1]

  • PFC(优先级流量控制):交换机端口缓冲池即将溢出时向上游发送暂停帧,强制源头暂停发送
  • ECN(显式拥塞通知):在 IP 头标记拥塞程度
  • DCQCN 算法:结合 PFC 与 ECN,平滑调节发送速率

4.2.4 自适应路由与数据包喷洒(Adaptive Routing & Packet Spraying)

AI 训练流量具有独特的"大象流(Elephant Flows)"特征——同时爆发的巨大突发流量(Incast)。传统的 ECMP 基于五元组哈希将同一条流锁定在单一物理链路上,极易造成部分链路瞬间拥塞并触发 PFC 暂停,而其他可用路径却闲置。[1]

Cisco Nexus 9364E-SG2 支持的自适应路由数据包喷洒(Packet Spraying / DLB)技术根本性地改变了这一格局:交换机不再以"数据流"为单位分配路径,而是在每个数据包级别实时感知全网微秒级拥塞状况,将同一个巨大通信流的后续数据包如同喷洒水雾般动态分散到当前所有未拥塞的可用网络路径上传输。[1][4]

乱序问题如何解决? 数据包经不同路径传输,到达顺序必然混乱。接收端的 NVIDIA BlueField-3 SuperNIC 具备直接数据放置(DDP, Direct Data Placement)功能——网卡硬件无需 CPU 介入,根据每个数据包头部携带的内存地址标签,直接将乱序到达的数据包按正确顺序拼接并写入主机/GPU 内存。整个重组过程对上层应用(NCCL)完全透明。[1]

在以色列的超算节点测试中,这种智能路由技术大幅减少了流冲突——相较传统 RoCEv2,存储读取带宽提升高达 48%,写入带宽提升 41%,显著降低了长时推理的 Token 间延迟。[1]

4.3 前端网络(North-South):管理、存储与用户接入

前端网络是 AI 部署中的多用途网络,负责连接 GPU 集群与外部世界——包括管理编排组件、存储系统以及(在混合部署中)终端用户的推理请求流量。[5]

特性前端网络设计
拓扑两层 Spine-Leaf Clos(与后端镜像,但允许过订)
叶交换机Cisco Nexus 9364D-GX2A(64×400GbE,51.2 Tbps)或 Nexus 9332D-GX2B(32×400GbE,25.6 Tbps)
服务器连接每台 UCS C885A 配备 2× BlueField-3 B3220(各 2×200GbE),以 Active/Active Port-Channel 聚合
带宽标准NVIDIA ERA 要求:存储流量 ≥12.5 Gbps/GPU,用户流量 ≥25 Gbps/GPU[5][6]
多租户MP-BGP EVPN + VXLAN Fabric(L2 扩展 + L3 转发 + 网络分段)
QoS部署优先级策略,保护延迟敏感的推理请求和存储流量
统一管理Cisco Nexus Dashboard 统一管理前后端双 Fabric

为什么前后端要物理隔离? 后端 Fabric 是纯粹为 GPU 集合通信而建的专网,要求无阻塞、无过订;而前端 Fabric 承载混合流量(管理、存储、用户推理),允许过订以降低成本。两张独立的 Fabric 确保 AI 训练的关键路径不受管理流量或推理流量的干扰。[5]

4.4 存储:AI 工厂的燃料仓库

数据是 AI 的燃料。如果存储系统无法以足够的速度将数据喂给 GPU,再强大的 GPU 也会因"等米下锅"而闲置。[4][6]

AI 流水线阶段存储需求特征
数据摄取(Ingest)大量写入操作
数据准备(ETL)读写混合循环
训练与微调极端并行读取(所有 GPU 同时读取数据集)
推理服务可预测的低延迟随机读取
RAG 检索向量数据库的快速向量查找
日志与可观测性持续遥测写入

Cisco Secure AI Factory 采用存储无关但厂商验证的策略,支持经 NVIDIA 认证的存储合作伙伴:[4][5]

VAST Data

AI 级别统一存储,解耦架构,极致性能。Cisco + NVIDIA + VAST 提供交钥匙式全优化参考架构。

NetApp

企业级数据治理与多协议数据结构,成熟的数据服务。

Pure Storage FlashBlade

高带宽文件/对象存储,适合非结构化数据工作负载。

4.5 网络架构未来:InfiniBand vs RoCEv2 vs UEC

当前 AI 数据中心的底层网络架构正处于群雄逐鹿的关键分水岭。[1]

评估维度 InfiniBand RoCEv2 + PFC/DCQCN UEC / UET 协议
生态体系 闭环体系,由 NVIDIA/Mellanox 主导 构建于成熟的标准以太网之上,部署成本较低 全新开放标准,由 Meta、Microsoft、Broadcom、Arista、Nokia 等联合制定[1]
拥塞控制 硬件级信用流控 + CCA(纳秒级响应) 依赖 PFC 被动暂停 + ECN,极端场景易引发队头阻塞 革命性的接收方信用(Credit-based)主动流控,从源头扼杀 Incast 拥塞[1]
多路径路由 子网管理器集中式自适应路由 传统依赖静态 ECMP,高级方案需厂商扩展 协议核心原生支持逐包多路径(Packet Spraying)+ 高并发小消息乱序处理[1]
乱序处理 严格按序,丢包触发 Go-Back-N 重传(代价高昂) 依赖厂商私有 DDP 扩展 在标准化协议层面原生支持乱序交付与接收端重组[1]
适用场景 追求极致最低延迟的顶级 AI/HPC 超算训练集群 中小企业 AI 推理、常规云原生 GPU 资源池 面向下一代百万端点规模的开放网络基座[1]

以太网正在赢得 AI 后端网络:据 Dell'Oro 报告,尽管 InfiniBand 交换机在 2025 年 Q2 的 AI 后端网络销售中激增,以太网仍保持市场领先——而仅仅两年前,以太网在该市场的份额还不到 20%。Cisco Silicon One 芯片已通过 NVIDIA 验证,作为唯一的第三方芯片获得 Spectrum-X 平台认证。[4]

贯穿全栈:安全与可观测性

Cisco Secure AI Factory 的核心差异化竞争力在于:安全和可观测性不是事后附加的补丁,而是从芯片到应用每一层都内嵌的原生能力[4]

🔒 每层安全能力一览

层级安全能力关键产品
AI 软件层 模型验证 · 模型护栏 · AI 供应链安全 · 库弱点防护 Cisco AI Defense
Kubernetes 平台 AI 运行时分段 · OS 漏洞防护 · 容器传输加密 Isovalent Runtime Security · Hypershield
网络层 Fabric 漏洞防护 · 区域分段 · 边界安全 Cisco Hybrid Mesh Firewall · Cisco Secure Firewall
计算层 NVIDIA 机密计算 · 供应链完整性 NVIDIA Confidential Compute · Cisco UCS
存储层 多类别安全 · 勒索软件防护 · 静态加密 合作伙伴存储原生安全
共享服务 安全运营 · 访问控制 · SIEM & SOAR · 威胁情报 Splunk Enterprise Security · Cisco Secure Access

📊 Splunk 可观测性

从模型推理延迟、应用响应时间、Kubernetes 平台健康到底层网络遥测和基础设施监控——Splunk Observability 提供从模型到芯片的端到端全栈可观测性,使运维团队能够精确定位性能瓶颈。Cisco Nexus 交换机集成的 NetQ 遥测平台将所有遥测数据通过 PromQL 统一采集,使工程师能够通过单一视图精确定位 LLM 训练中的微秒级性能瓶颈。[1][4]

附录:NVIDIA 企业参考架构(ERA)配置速查

NVIDIA Enterprise Reference Architecture 采用 C-G-N-B 命名法(CPU 数 – GPU 数 – NIC 数 – 每 GPU 平均东西向带宽 GbE)来标准化描述计算节点配置。[6]

配置模式描述典型 GPU集群规模适用场景
2-8-9-400 2 CPU, 8 GPU (HGX SXM), 9 NIC, 400 GbE/GPU HGX H100/H200/B200 4-32 节点 (32-256 GPU) 大模型训练与微调 · 大规模推理[5][6]
2-8-5-200 2 CPU, 8 GPU (PCIe), 5 NIC, 200 GbE/GPU H200 NVL / RTX PRO 6000 Blackwell 4-32 节点 中大模型训练与微调 · 推理[6]
2-4-3-200 2 CPU, 4 GPU (PCIe), 3 NIC, 200 GbE/GPU H100 NVL / L40S 8-32 节点 3D 渲染 · 中等模型推理 · 小规模训练[6]
2-2-3-400 2 CPU (Grace), 2 GPU, 3 NIC, 400 GbE/GPU GH200 NVL2 Superchip 4-32 节点 多节点 AI/HPC 混合应用[6]

本文档重点:Cisco AI POD 参考架构采用 2-8-9-400 模式(Cisco UCS C885A + Nexus 9364E-SG2),经 NVIDIA 认证的基础设施配置和 Spectrum-X 平台验证,支持最大 256 GPU 的企业级训练/推理集群。[5]

术语表 Glossary

AI Factory专门为规模化生产"智能(Intelligence)"而建造的新型数据中心基础设施,将数据和电力转化为 Token。
Token模型处理和生成文本的基本原子单位。AI 系统的输入和输出均以 Token 为单位。
LLMLarge Language Model,大语言模型。具有数十亿至数万亿参数的深度神经网络,能理解和生成自然语言。
Transformer基于多头注意力机制的神经网络架构,是几乎所有主流 LLM 的基础。
RAGRetrieval-Augmented Generation,检索增强生成。将 LLM 与外部知识库结合,减少幻觉并提供实时信息。
Agentic AI智能体 AI。具备自主规划、迭代推理、工具调用和上下文记忆能力的 AI 系统。
Hallucination幻觉。AI 生成的包含虚假或误导性信息但被当作事实呈现的回应。
Embedding将文本转化为包含语义特征的高维数字向量的过程/结果,用于相似度搜索。
向量数据库专门用于高效存储、管理和查询高维向量表示的数据库,支持语义相似性搜索。
GPUGraphics Processing Unit,图形处理器。包含数千个并行计算核心,是 AI 训练和推理的核心硬件。
CUDACompute Unified Device Architecture。NVIDIA 的并行计算平台和编程模型,用于调度 GPU 上的并行计算。
SMStreaming Multiprocessor,流多处理器。GPU 内部最主要的计算引擎单元。
Kernel在 CUDA 中,指在 GPU(Device)上执行的特殊函数。
NVLinkNVIDIA 专有的高速 GPU 互联总线,用于节点内 GPU 间的超高带宽数据交换。
NCCLNVIDIA Collective Communication Library。优化多 GPU 和多节点环境集合通信的底层软件库。
All-Reduce分布式深度学习中最核心的集合通信操作,所有 GPU 同时交换并聚合梯度参数。
RDMARemote Direct Memory Access,远程直接内存访问。网卡直接读写远端主机物理内存,绕过 CPU 和操作系统。
RoCEv2RDMA over Converged Ethernet v2。将 RDMA 封装在标准 UDP/IP 以太网之上的协议。
PFCPriority Flow Control,优先级流量控制。以太网交换机缓冲溢出时向上游发送暂停帧以防止丢包。
ECNExplicit Congestion Notification,显式拥塞通知。在 IP 头标记网络拥塞程度,通知端点降低发送速率。
DCQCNData Center QoS-based Congestion Notification。结合 PFC 和 ECN 的 RoCEv2 拥塞控制算法。
Adaptive Routing自适应路由。交换机根据网络链路实时拥塞状态动态选择最优路径转发数据。
Packet Spraying数据包喷洒/逐包负载均衡。将同一数据流的每个数据包分散到不同路径传输以实现 100% 链路利用。
DDPDirect Data Placement,直接数据放置。网卡硬件将乱序到达的数据包直接按正确顺序写入目标内存。
InfiniBand一种高性能、低延迟的网络互联技术,原生支持 RDMA,广泛用于 HPC 和 AI 超算集群。
UEC / UETUltra Ethernet Consortium / Ultra Ethernet Transport。面向下一代 AI 网络的开放以太网标准及传输协议。
Spectrum-XNVIDIA 为大规模 AI 网络定制的以太网平台,包含 Spectrum-4 交换机和 BlueField SuperNIC。
MIGMulti-Instance GPU。在物理层面将单张 GPU 划分为多个完全独立实例的硬件技术。
NIMNVIDIA Inference Microservices。将模型与优化推理引擎封装为企业级容器的微服务。
IFBIn-flight Batching,动态批处理。在每个 Token 生成步骤动态插入新请求以最大化 GPU 利用率。
Tensor Parallelism张量并行。将模型权重矩阵物理分片到多张 GPU 并行计算以突破单卡显存限制。
TTFTTime to First Token,首字延迟。用户发送请求到看到第一个字符输出的等待时间。
ITLInter Token Latency,Token 间延迟。模型生成每个后续 Token 的时间间隔。
KV CacheKey-Value Cache,键值缓存。模型在预填充阶段计算的注意力中间状态,存储在 GPU 显存中用于加速后续解码。
DPUData Processing Unit,数据处理单元。如 NVIDIA BlueField,卸载 CPU 的基础设施管理和安全加密工作。
Clos 拓扑一种多级非阻塞交换网络拓扑(Spine-Leaf),广泛用于现代数据中心以提供可预测的低延迟。
EVPN VXLANEthernet VPN + Virtual eXtensible LAN。基于 BGP 控制平面和 VXLAN 数据平面的网络虚拟化叠加技术,支持多租户。
Rail-Optimized一种 GPU 集群网络拓扑设计,每台叶交换机连接所有服务器中相同 Rank 的 GPU NIC,确保流量平衡。
Guardrails护栏。确保 AI 模型遵守组织策略和价值观的安全机制,防止生成有害或偏离主题的内容。
TCOTotal Cost of Ownership,总拥有成本。包含购买、部署、运维和能耗的全生命周期成本。

参考文献与来源标注

  1. [1] — AI 技术栈:智能工厂全景 (AI 技术栈:智能工厂全景.md) — 涵盖 NVIDIA AI Factory 全栈技术架构的深度研究报告,包括应用层(LLM / RAG / Agentic AI)、编排层(K8s / Run:ai / NIM)、计算层(PyTorch / CUDA / NCCL)、基础设施层(RDMA / RoCEv2 / Spectrum-X / InfiniBand / UEC)的详细解析。
  2. [2] — NVIDIA Data Center Solutions: AI Factories, nvidia.com
  3. [3] — NVIDIA Enterprise Reference Architecture Overview (nvidia-enterprise-reference-architecture-white-paper.pdf) — "Building AI Factories for the Enterprise" 章节。
  4. [4] — Cisco Secure AI Factory with NVIDIA (TEM Q3 M1_Cisco Secure AI Factory.pdf) — Cisco 解决方案工程师培训材料,涵盖产品定位、安全架构、竞争分析。
  5. [5] — Cisco AI POD Infrastructure for Enterprises Guide (Cisco AI POD Infrastructure for Enterprises Guide.pdf) — 使用 UCS C885A 和 Nexus 9364E-SG2 的详细参考架构设计文档,包括拓扑、BOM、软件版本矩阵。
  6. [6] — NVIDIA Enterprise Reference Architecture Overview Whitepaper (nvidia-enterprise-reference-architecture-white-paper.pdf) — C-G-N-B 命名法、各参考配置的详细描述、集群规模与用例指南。

本全景图基于上述公开文档与技术资料综合整理,仅供学习参考。文档访问日期:2026年3月27日。