核心隐喻:将整个 AI 基础设施想象为一座"生产智能的超级现代工厂"——数据是源源不断的原材料,GPU是高并发流水线上的核心工人,精密的软硬件调度系统是车间主管,超低延迟、超高带宽的高性能网络是连接所有车间的无缝传送带,而最终交付给终端用户的各类 AI 应用,则是这座工厂产出的定制化智能商品。[1]
📈 规模扩展定律的驱动
大语言模型(LLM)的参数量正以指数级增长——从数亿到如今的数千亿乃至万亿。传统的通用 CPU 计算架构已触及天花板,传统数据中心的核心衡量指标不再是服务器在线率,而是"Token 生成速率"——这是 AI 时代最基础的制造单元。[1]
🏗️ 从数据中心到 AI 工厂
NVIDIA 提出的 AI Factory 概念:专门为规模化生产"智能(Intelligence)"而建造的新型基础设施。它将"原始数据"和"电力"作为输入,以极高的效率批量输出"智能和 Token"。每个企业都将需要一座 AI 工厂来交付快速、可重复、灵活且高效的 AI 成果。[2][3]
⚠️ 企业面临的三大挑战
Cisco 将企业落地 AI 的障碍归纳为三大核心挑战:基础设施约束(缺乏高性能、集成化的计算/网络/存储)、信任赤字(AI 模型存在安全漏洞与幻觉风险)、以及数据鸿沟(数据是 AI 的燃料,但访问与治理面临巨大挑战)。[4]
Cisco 的回应:Cisco Secure AI Factory with NVIDIA——一套模块化参考设计,将高性能基础设施与全栈安全和可观测性相融合。它不仅仅是硬件堆叠,而是从芯片到系统到分布式 AI 流水线每一层都嵌入安全的完整解决方案。[4]
下图以"智能工厂"为隐喻,将整个 Cisco Secure AI Factory 划分为四个核心层级。从最底层的物理硬件与高性能网络(工厂的地基与传送带),经过计算框架与通信加速层(核心流水线),到模型编排与推理服务层(车间调度),直至最顶层的 AI 应用与业务层(最终交付的智能商品)。安全(Security)与可观测性(Observability)贯穿所有层级。
智能商品 位于系统架构最顶层——底层庞大而专精的硬件算力在这里被抽象为具体的认知、推理、协作与决策能力。大语言模型(LLM)成为核心认知引擎,应用范式正经历从被动的信息检索向自主的智能体(Agentic AI)的深刻演变。[1]
1.1 大语言模型(LLM):核心认知引擎
LLM(如 Llama 3、GPT 系列等)通过在海量互联网文本上进行自监督学习,吸收了人类世界广大的知识与语言逻辑。这些模型拥有海量参数权重,不仅能理解和生成自然语言,还展现出"涌现能力(Emergent Abilities)"——包括零样本学习、复杂逻辑链推理以及多语言代码编写。[1]
LLM 的工作原理(推理流水线)
- Token 化:文本被分词器切分为基本单元(Token),转换为数字 ID。模型处理的不是文字,而是这些数字编码。
- 预填充阶段(Prefill):GPU 一次性并行处理所有输入 Token,注意力机制计算词间关联,生成 KV Cache(键值缓存)存入显存。
- 解码阶段(Decode):模型利用 KV Cache 进行矩阵乘法,预测下一个最可能的 Token。每次只输出一个 Token(自回归),循环往复直至遇到结束符。屏幕上"打字机效果"的根本原因就在于此。
- 去 Token 化:数字 ID 序列被转回人类可读的自然语言文本。
关键性能指标:TTFT(Time to First Token,首字延迟)——用户看到第一个字符弹出的等待时间;ITL(Inter Token Latency,Token 间延迟)——生成每个后续字符的时间间隔。NIM 的 IFB 和张量并行直接优化这两个指标。
然而,一个裸露的基础大模型类似一个拥有最高智商却被关在密室中的学者——它既不知道当前时间,也无法访问企业内部的保密数据,更无法直接操作外部软件系统。为此,LangChain 和 LlamaIndex 等中间件框架充当了大模型与外部世界的桥梁。[1]
1.2 检索增强生成(RAG):为模型注入实时知识
LLM 存在两个致命弱点:知识过时(训练数据有截止日期)和幻觉(Hallucination)(对缺乏内部知识的问题倾向于"一本正经地胡说八道")。RAG(Retrieval-Augmented Generation)通过引入外部知识库优雅地解决了这些问题。[1]
RAG 工作机制三步曲
尽管 RAG 在提升事实准确性方面表现优异,但其本质上仍是一个单轮、基于单次检索的静态流水线。传统 RAG 擅长"找到正确的信息",但不具备"根据信息采取行动"的能力。[1]
1.3 Agentic AI(智能体 AI):从"回答"到"行动"
为突破传统 RAG 的局限,Agentic AI 概念迅速崛起并成为当前企业 AI 转型的核心方向。如果说 RAG 改善了模型"回答之前所知道的信息",那么 Agentic AI 则赋予了模型"自主行动与执行的能力"。[1]
智能体不再是被动等待提示词的反应器,而是被赋予了自主规划、迭代推理、调用工具以及上下文记忆的数字化员工。[1]
| 评估维度 | 传统 RAG | Agentic AI / Agentic RAG |
|---|---|---|
| 核心机制 | 线性流水线:查询 → 单次静态检索 → 文本生成 | 循环推理迭代:规划 → 工具调用 → 评估 → 动态检索 → 执行[1] |
| LLM 角色 | 语言与特定知识的合成器和事实校验工具 | 具备跨系统路由、异常处理和事件驱动动作执行的中央大脑[1] |
| 优势场景 | 高精度知识点问答(如法规查询、产品说明书解析) | 异步多步任务、复杂工作流自动化(如实时仓库调度、深度科研摘要与推理)[1] |
| 基础设施需求 | 单次长上下文生成(10-20× Token) | 高频、海量的外部工具并发调用与多步连续决策(50-200× Token)[4] |
| 部署风险 | 依赖高质量结构化文档和精确向量检索 | 存在策略漂移和误执行风险,高度依赖沙盒隔离、严格权限治理以及"人机协同"(Human-in-the-loop)控制[1] |
Token 需求的通货膨胀:从简单的"单次应答"(10-20× Token)到深度的"智能体推理"(50-200× Token),AI 基础设施必须从支持单次长上下文生成的静态响应模式,转型为能够支撑高频、海量且复杂的外部工具并发调用与多步连续决策的弹性模式。这正是 Cisco Secure AI Factory 存在的根本意义。[4]
1.4 AI 安全:Cisco AI Defense
AI 模型和应用构成了全新的网络攻击面——Prompt 注入、模型窃取、训练数据投毒、幻觉导致的财务/法律/声誉损害等威胁层出不穷。[4]
🛡️ AI 模型与应用验证
通过算法化红队测试(Algorithmic Red Teaming)自动检测模型中的漏洞,自动生成映射到 AI 安全标准的报告,并针对特定模型漏洞创建防护栏。[4]
🚧 AI 运行时应用保护
在模型实时服务期间,强制执行Guardrails(护栏)——拦截恶意 Prompt 和不安全的模型响应(包括亵渎、仇恨言论、敏感信息泄露、偏离主题等),实现输入/输出双向防护。[4]
Cisco AI Defense 采用云管理、混合执行架构——通过 Cisco Security Cloud Control 集中管理策略,但验证和运行时保护服务可在本地 AI POD 或云端工作负载中灵活执行。[4]
车间调度 当企业开发出高价值的 AI 应用后,如何将其高效、经济、可靠地部署到物理服务器上运行,是决定业务可行性的关键。在这一层,底层庞大的算力资源被虚拟化、池化,并根据应用需求进行动态调度。[1]
2.1 Kubernetes + NVIDIA Run:ai:GPU 资源的智能调度
Kubernetes(K8s)是云原生时代管理容器化应用的操作系统标准。然而传统 K8s 主要为调度 CPU 资源和无状态 Web 应用设计。面对 AI 工作负载——训练一个大模型可能需要数百上千 GPU 节点连续运行数周——原生 K8s 暴露出对底层异构硬件感知不足、资源隔离粒度粗糙等问题。[1]
NVIDIA Run:ai 作为运行在 K8s 之上的高级调度器,引入了动态 GPU 资源池化与精细化分割机制。[1][4]
GPU 分割的两大技术路线
MIG(Multi-Instance GPU)硬件空间分割
NVIDIA 硬件架构层面的创新。允许在物理层面将单张 GPU 划分为最多 7 个完全独立的实例。每个 MIG 实例被分配了专属的显存、二级缓存和计算核心(SM)。[1]
绝对优势:严格的物理隔离——一个分区上的应用崩溃或高负载计算绝对不会影响同一张显卡上其他分区的性能。[1]
核心适用:多租户云环境的计费隔离、SLA 级别的生产推理服务。[1]
Time Slicing 时间分片
让多个进程"拼车"共享 GPU。系统通过并发调度让多个进程交替占用 GPU 的全部计算资源。[1]
优势:最具弹性,可支持数十个轻量级应用同时搭载,超额分配能力强。
缺陷:缺乏底层显存和算力的硬隔离。当多个重负载任务同时运行,容易产生"嘈杂邻居效应(Noisy Neighbor)",导致性能波动不可预测。[1]
核心适用:研发测试环境(Dev/Test)、交互式 Jupyter Notebook 调试。[1]
2.2 NVIDIA NIM:一行命令部署的高性能推理微服务
传统的模型部署需要开发者手动配置复杂的 CUDA 环境、编译底层库、选择推理框架,耗时数周。NIM(NVIDIA Inference Microservices)将预训练的开源基础模型(如 Llama 3)或微调模型,与高度优化的推理引擎(如 Triton Inference Server 和 TensorRT-LLM)统一封装为企业级软件容器。开发者只需一行简单命令,几分钟内即可在任何云环境或本地数据中心启动一个符合行业标准 API 的推理接口。[1][4]
NIM 的核心性能优化技术
⚡ In-flight Batching (IFB) 动态批处理
传统批处理要求等待当前批次中所有用户请求都生成完毕才能处理下一批,导致 GPU 大量闲置。NIM 启用的 IFB 技术允许在每一个生成步骤(Token 级)动态评估——当新请求到达时,立即将其插入正在执行的批处理流中,实现 GPU 利用率的最大化。[1]
🔀 Tensor Parallelism 张量并行
对于参数量超出单张 GPU 显存容量的超大模型,NIM 提供开箱即用的张量并行能力。模型的权重矩阵被物理分片(Sharding),各分片分布到多张 GPU 上,推理时 GPU 并行执行矩阵乘法,并通过最高速网络交换部分计算结果。这不仅解决了内存瓶颈,还有效缩短了首字生成时间(TTFT)。[1]
基准测试:在单张 H100 GPU 上处理 200 个并发请求时,未经优化的 Llama 3.1 8B 模型吞吐量仅为 613 tokens/s、Token 间延迟(ITL)37 ms;启用 NIM 优化后,吞吐量骤增至 1201 tokens/s,延迟下降至 32 ms,实现了接近两倍的产能飞跃。[1]
2.3 管理与编排平台
Red Hat OpenShift
本参考架构以 Red Hat OpenShift(v4.18+)为中心提供企业级工作负载编排。管理集群(≥3 控制节点)部署在独立的 Cisco UCS X-Series Direct 上,与 GPU 工作负载集群物理隔离。[5]
Cisco Intersight
SaaS 或本地私有部署的 IT 运维平台,提供所有 Cisco UCS 基础设施的统一实时视图和全生命周期管理——从部署配置到合规安全。[5]
Cisco Nexus Dashboard
统一管理和运维后端、前端双 Fabric 的平台。提供基于最佳实践的 AI 部署蓝图模板,支持自动化滚动部署和简化的生命周期管理。单一 API 端点驱动整个 Fabric 自动化。[5]
核心流水线 上层应用的业务逻辑最终要被转译为硬件能够理解的数学运算指令。这一过程由 PyTorch 等深度学习框架与底层的 CUDA 及 NCCL 通信库紧密协作完成。[1]
3.1 PyTorch 与 CUDA:GPU 的操作手册
PyTorch 动态计算图
PyTorch 采用动态计算图(Dynamic Computational Graphs)机制——图的结构在每次前向传播代码运行时动态生成。这种"即刻执行(Eager Execution)"的特性赋予了模型开发空前的直观性和灵活性,使得定义复杂神经网络、设计损失函数以及控制梯度反向传播训练循环,就像编写普通 Python 脚本一样简单。[1]
CUDA 并行计算微架构
然而 Python 本身是顺序执行的。要处理深度学习中数以亿计的参数矩阵相乘,必须依赖底层并行计算平台。CUDA(Compute Unified Device Architecture)是 NVIDIA 推出的解锁 GPU 所有并行计算潜能的钥匙。[1]
- Kernel(内核函数):开发者使用 C++ 编写特殊函数并通过
__global__修饰符声明其在 GPU(Device)而非 CPU(Host)上执行。[1] - SM(流多处理器):GPU 硬件的微架构被组织为层级系统。以 T4 GPU 为例,单卡封装了 40 个 SM,共包含 2560 个 CUDA 核心,每个 SM 可同时维持多达 1024 个活跃线程的并行上下文。[1]
- 线程组织:Grid → Block → Thread:启动 Kernel 时通过特殊语法
<<<numBlocks, threadsPerBlock>>>定义并行规模。CUDA 运行时将线程组织为由多个线程块(Thread Blocks)组成的网格(Grid),硬件调度器动态分配给可用 SM 执行。[1] - SIMT 范式:每个线程通过内置环境变量(
threadIdx.x,blockIdx.x)精确计算自身负责的数据索引,海量线程同时对不同数据元素执行相同指令——这就是 GPU 以比单线程 CPU 快数千倍的速度完成矩阵运算的根本机制。[1]
3.2 NCCL:跨 GPU 集合通信的极速物流系统
当模型规模达到 GPT-4 的数万亿参数级别时,任何单一节点的显存都无法容纳完整的计算图。分布式计算成为唯一出路。数据并行(Data Parallelism)和张量并行(Tensor Parallelism)要求成百上千张 GPU 协同工作——而在每一次反向传播周期的末尾,分散在各个 GPU 上的节点必须同步梯度参数,之后才能进行下一次迭代。NCCL(NVIDIA Collective Communication Library)正是为解决大规模 GPU 集群间的通信瓶颈而设计。[1]
核心集合通信原语
| 原语 | 功能 |
|---|---|
| Broadcast | 将数据从一个节点广播到所有节点 |
| Scatter | 将数据分割发给各个节点 |
| Gather | 从各个节点收集数据 |
| All-Reduce(全规约) | 分布式深度学习中最核心的操作——所有 GPU 同时交换并聚合梯度数据[1] |
算法演进:从环形到双二叉树
🔄 环形全规约(Ring All-Reduce)
所有 GPU 逻辑组成一个环,每个 GPU 仅与直接邻居通信。分为 Reduce-Scatter 和 All-Gather 两阶段。优势:充分利用每个节点的入站和出站带宽。瓶颈:需要 2(k-1) 个严格串行通信步骤,延迟随 GPU 规模 k 线性增长。集群达到千卡以上时延迟不可接受。[1]
🌳 双二叉树算法(Double Binary Trees)
NCCL 后续版本引入的革命性算法。系统内部构建两棵互补的二叉树。规约阶段数据从叶子节点层层向上汇总到根节点;广播阶段根节点将合并完毕的数据快速向下分发。通信步骤从线性 O(k) 骤降为对数级 O(log k),成为当代超大规模集群的首选算法。[1]
跨数据中心拓扑感知
随着单体数据中心电力和物理空间的硬约束,跨越多个物理数据中心构建统一的 AI 训练集群成为新趋势。NCCL 引入了网络拓扑感知机制与 Fabric ID——智能识别物理拓扑,避免在低带宽的广域网(WAN)链路上进行粗暴的数据搬运。All-Reduce 流程被动态重组为:在数据中心内部利用最高速的 NVLink 完成局部 Reduce-Scatter → 仅通过跨数据中心链路交换最小化的汇总数据 → 各自数据中心内再进行快速的 All-Gather 广播。[1]
3.3 NVIDIA AI Enterprise 软件栈
Cisco Secure AI Factory 验证的软件栈包括:[5]
| 组件 | 版本 | 功能 |
|---|---|---|
| NVIDIA AI Enterprise | 6.0+ | 企业级 AI 全栈软件平台(含 NIM、NeMo 等) |
| NVIDIA GPU Driver | 570.172.08+ | GPU 驱动程序 |
| CUDA | 12.8+ | 并行计算平台 |
| GPU Operator | 25.3.4+ | K8s 中自动管理 GPU 驱动与运行时 |
| Network Operator | 25.7.0+ | K8s 中自动管理 RDMA/RoCE 网络 |
| DOCA-OFED Driver | 3.0.0+ | BlueField DPU/SuperNIC 驱动 |
| NIM Operator | 2.0.2+ | K8s 中自动部署 NIM 推理微服务 |
地基与传送带 在 AI 工厂中,单打独斗的时代已经结束。要让数万张 GPU 如同一台统一的超级计算机般齐心运转,网络通信的带宽和延迟直接决定了整座机器的利用率上限。[1]
4.1 GPU 计算节点:Cisco UCS C885A M8
Cisco UCS C885A M8 是一台 8RU 的高密度 GPU 服务器,基于 NVIDIA HGX 架构,遵循 2-8-9-400(2 CPU – 8 GPU – 9 NIC – 400GbE/GPU)参考配置模式设计。[5][6]
| 规格 | 详情 |
|---|---|
| CPU | 2× AMD EPYC 9575F(3.3 GHz,Max Boost 5 GHz) |
| GPU | 8× NVIDIA HGX H200 SXM(141 GB HBM3e / 每卡) |
| GPU 内部互联 | NVLink(节点内 GPU-to-GPU 高速总线,带宽可达 900 GB/s+) |
| 后端 NIC(E/W) | 8× NVIDIA BlueField-3 B3140H SuperNIC(各 1×400GbE) |
| 前端 NIC(N/S) | 2× NVIDIA BlueField-3 B3220(各 2×200GbE) |
| 内存 | 24× 96GB DDR5-6000 MT/s(最高 3 TB) |
| 本地存储 | 最高 30 TB NVMe SSD |
| 管理 | Cisco Intersight(SaaS 或本地私有部署) |
为什么需要 NVLink? 一个 4050 亿参数的大模型,仅存储其权重(FP16)就需要约 810 GB 显存,远超单卡 141 GB。通过 NVLink 在节点内将 8 张 H200 的显存统一为一个共享内存池(8×141=1128 GB),使单节点即可容纳超大模型的推理负载,且 GPU 间数据交换无需经过缓慢的 PCIe 和 CPU。[6]
4.2 后端网络(East-West):GPU-to-GPU 的无损高速公路
后端网络是专用于 GPU 间集合通信的隔离网络,直接决定分布式训练的作业完成时间(JCT)。其核心要求:无阻塞、无损、超高带宽、极低尾部延迟。[5]
4.2.1 拓扑设计:四路 Rail-Optimized Clos
Cisco AI POD 采用两层非阻塞 Spine-Leaf Clos 拓扑。每台 UCS C885A 的 8 块后端 NIC 以"四路 Rail"方式连接到 4 台叶交换机——每台叶交换机负责两个 GPU Rank 的流量。这种拓扑保证了每个 GPU 拥有 400GbE 的专属东西向带宽,全网无过订。[5]
4.2.2 核心交换机:Cisco Nexus 9364E-SG2
| 特性 | Nexus 9364E-SG2 |
|---|---|
| 芯片 | Cisco Silicon One G200 |
| 端口 | 64× 800GbE(QSFP-DD 或 OSFP) |
| 交换容量 | 51.2 Tbps |
| 片上缓存 | 256 MB(吸收微突发流量防止丢包) |
| 关键 AI 特性 | DLB (动态负载均衡) · PFC · ECN · RoCEv2 无损传输 · 细粒度遥测 |
| 管理 | Cisco Nexus Dashboard · NX-OS |
| NVIDIA 认证 | 通过 NVIDIA Enterprise RA 和 Spectrum-X 平台验证[4][5] |
4.2.3 RDMA 与 RoCEv2:绕过 CPU 的数据直达
在传统的 TCP/IP 网络中,数据包需经过操作系统内核空间的层层封装与拷贝,引入数十至数百微秒的延迟,根本无法应对 AI 训练中密集的数据交换。[1]
RDMA(Remote Direct Memory Access,远程直接内存访问)技术彻底颠覆了数据流转范式:一台主机的网卡可以直接读写另一台主机的物理内存,完全绕过(Bypass)双方的 CPU、操作系统内核和系统缓存,实现"零拷贝(Zero-copy)"通信,端到端延迟压缩至个位数微秒级别。[1]
RoCEv2(RDMA over Converged Ethernet v2)将 RDMA 操作指令封装在标准的 UDP/IP 数据包中,使其可以跨越标准以太网的 L3 路由器传输。但 RDMA 对丢包"零容忍"——丢包会触发灾难性的性能崩塌。因此部署 RoCEv2 依赖数据中心桥接(DCB)技术体系:[1]
- PFC(优先级流量控制):交换机端口缓冲池即将溢出时向上游发送暂停帧,强制源头暂停发送
- ECN(显式拥塞通知):在 IP 头标记拥塞程度
- DCQCN 算法:结合 PFC 与 ECN,平滑调节发送速率
4.2.4 自适应路由与数据包喷洒(Adaptive Routing & Packet Spraying)
AI 训练流量具有独特的"大象流(Elephant Flows)"特征——同时爆发的巨大突发流量(Incast)。传统的 ECMP 基于五元组哈希将同一条流锁定在单一物理链路上,极易造成部分链路瞬间拥塞并触发 PFC 暂停,而其他可用路径却闲置。[1]
Cisco Nexus 9364E-SG2 支持的自适应路由和数据包喷洒(Packet Spraying / DLB)技术根本性地改变了这一格局:交换机不再以"数据流"为单位分配路径,而是在每个数据包级别实时感知全网微秒级拥塞状况,将同一个巨大通信流的后续数据包如同喷洒水雾般动态分散到当前所有未拥塞的可用网络路径上传输。[1][4]
乱序问题如何解决? 数据包经不同路径传输,到达顺序必然混乱。接收端的 NVIDIA BlueField-3 SuperNIC 具备直接数据放置(DDP, Direct Data Placement)功能——网卡硬件无需 CPU 介入,根据每个数据包头部携带的内存地址标签,直接将乱序到达的数据包按正确顺序拼接并写入主机/GPU 内存。整个重组过程对上层应用(NCCL)完全透明。[1]
在以色列的超算节点测试中,这种智能路由技术大幅减少了流冲突——相较传统 RoCEv2,存储读取带宽提升高达 48%,写入带宽提升 41%,显著降低了长时推理的 Token 间延迟。[1]
4.3 前端网络(North-South):管理、存储与用户接入
前端网络是 AI 部署中的多用途网络,负责连接 GPU 集群与外部世界——包括管理编排组件、存储系统以及(在混合部署中)终端用户的推理请求流量。[5]
| 特性 | 前端网络设计 |
|---|---|
| 拓扑 | 两层 Spine-Leaf Clos(与后端镜像,但允许过订) |
| 叶交换机 | Cisco Nexus 9364D-GX2A(64×400GbE,51.2 Tbps)或 Nexus 9332D-GX2B(32×400GbE,25.6 Tbps) |
| 服务器连接 | 每台 UCS C885A 配备 2× BlueField-3 B3220(各 2×200GbE),以 Active/Active Port-Channel 聚合 |
| 带宽标准 | NVIDIA ERA 要求:存储流量 ≥12.5 Gbps/GPU,用户流量 ≥25 Gbps/GPU[5][6] |
| 多租户 | MP-BGP EVPN + VXLAN Fabric(L2 扩展 + L3 转发 + 网络分段) |
| QoS | 部署优先级策略,保护延迟敏感的推理请求和存储流量 |
| 统一管理 | Cisco Nexus Dashboard 统一管理前后端双 Fabric |
为什么前后端要物理隔离? 后端 Fabric 是纯粹为 GPU 集合通信而建的专网,要求无阻塞、无过订;而前端 Fabric 承载混合流量(管理、存储、用户推理),允许过订以降低成本。两张独立的 Fabric 确保 AI 训练的关键路径不受管理流量或推理流量的干扰。[5]
4.4 存储:AI 工厂的燃料仓库
数据是 AI 的燃料。如果存储系统无法以足够的速度将数据喂给 GPU,再强大的 GPU 也会因"等米下锅"而闲置。[4][6]
| AI 流水线阶段 | 存储需求特征 |
|---|---|
| 数据摄取(Ingest) | 大量写入操作 |
| 数据准备(ETL) | 读写混合循环 |
| 训练与微调 | 极端并行读取(所有 GPU 同时读取数据集) |
| 推理服务 | 可预测的低延迟随机读取 |
| RAG 检索 | 向量数据库的快速向量查找 |
| 日志与可观测性 | 持续遥测写入 |
Cisco Secure AI Factory 采用存储无关但厂商验证的策略,支持经 NVIDIA 认证的存储合作伙伴:[4][5]
VAST Data
AI 级别统一存储,解耦架构,极致性能。Cisco + NVIDIA + VAST 提供交钥匙式全优化参考架构。
NetApp
企业级数据治理与多协议数据结构,成熟的数据服务。
Pure Storage FlashBlade
高带宽文件/对象存储,适合非结构化数据工作负载。
4.5 网络架构未来:InfiniBand vs RoCEv2 vs UEC
当前 AI 数据中心的底层网络架构正处于群雄逐鹿的关键分水岭。[1]
| 评估维度 | InfiniBand | RoCEv2 + PFC/DCQCN | UEC / UET 协议 |
|---|---|---|---|
| 生态体系 | 闭环体系,由 NVIDIA/Mellanox 主导 | 构建于成熟的标准以太网之上,部署成本较低 | 全新开放标准,由 Meta、Microsoft、Broadcom、Arista、Nokia 等联合制定[1] |
| 拥塞控制 | 硬件级信用流控 + CCA(纳秒级响应) | 依赖 PFC 被动暂停 + ECN,极端场景易引发队头阻塞 | 革命性的接收方信用(Credit-based)主动流控,从源头扼杀 Incast 拥塞[1] |
| 多路径路由 | 子网管理器集中式自适应路由 | 传统依赖静态 ECMP,高级方案需厂商扩展 | 协议核心原生支持逐包多路径(Packet Spraying)+ 高并发小消息乱序处理[1] |
| 乱序处理 | 严格按序,丢包触发 Go-Back-N 重传(代价高昂) | 依赖厂商私有 DDP 扩展 | 在标准化协议层面原生支持乱序交付与接收端重组[1] |
| 适用场景 | 追求极致最低延迟的顶级 AI/HPC 超算训练集群 | 中小企业 AI 推理、常规云原生 GPU 资源池 | 面向下一代百万端点规模的开放网络基座[1] |
以太网正在赢得 AI 后端网络:据 Dell'Oro 报告,尽管 InfiniBand 交换机在 2025 年 Q2 的 AI 后端网络销售中激增,以太网仍保持市场领先——而仅仅两年前,以太网在该市场的份额还不到 20%。Cisco Silicon One 芯片已通过 NVIDIA 验证,作为唯一的第三方芯片获得 Spectrum-X 平台认证。[4]
Cisco Secure AI Factory 的核心差异化竞争力在于:安全和可观测性不是事后附加的补丁,而是从芯片到应用每一层都内嵌的原生能力。[4]
🔒 每层安全能力一览
| 层级 | 安全能力 | 关键产品 |
|---|---|---|
| AI 软件层 | 模型验证 · 模型护栏 · AI 供应链安全 · 库弱点防护 | Cisco AI Defense |
| Kubernetes 平台 | AI 运行时分段 · OS 漏洞防护 · 容器传输加密 | Isovalent Runtime Security · Hypershield |
| 网络层 | Fabric 漏洞防护 · 区域分段 · 边界安全 | Cisco Hybrid Mesh Firewall · Cisco Secure Firewall |
| 计算层 | NVIDIA 机密计算 · 供应链完整性 | NVIDIA Confidential Compute · Cisco UCS |
| 存储层 | 多类别安全 · 勒索软件防护 · 静态加密 | 合作伙伴存储原生安全 |
| 共享服务 | 安全运营 · 访问控制 · SIEM & SOAR · 威胁情报 | Splunk Enterprise Security · Cisco Secure Access |
📊 Splunk 可观测性
从模型推理延迟、应用响应时间、Kubernetes 平台健康到底层网络遥测和基础设施监控——Splunk Observability 提供从模型到芯片的端到端全栈可观测性,使运维团队能够精确定位性能瓶颈。Cisco Nexus 交换机集成的 NetQ 遥测平台将所有遥测数据通过 PromQL 统一采集,使工程师能够通过单一视图精确定位 LLM 训练中的微秒级性能瓶颈。[1][4]
NVIDIA Enterprise Reference Architecture 采用 C-G-N-B 命名法(CPU 数 – GPU 数 – NIC 数 – 每 GPU 平均东西向带宽 GbE)来标准化描述计算节点配置。[6]
| 配置模式 | 描述 | 典型 GPU | 集群规模 | 适用场景 |
|---|---|---|---|---|
| 2-8-9-400 | 2 CPU, 8 GPU (HGX SXM), 9 NIC, 400 GbE/GPU | HGX H100/H200/B200 | 4-32 节点 (32-256 GPU) | 大模型训练与微调 · 大规模推理[5][6] |
| 2-8-5-200 | 2 CPU, 8 GPU (PCIe), 5 NIC, 200 GbE/GPU | H200 NVL / RTX PRO 6000 Blackwell | 4-32 节点 | 中大模型训练与微调 · 推理[6] |
| 2-4-3-200 | 2 CPU, 4 GPU (PCIe), 3 NIC, 200 GbE/GPU | H100 NVL / L40S | 8-32 节点 | 3D 渲染 · 中等模型推理 · 小规模训练[6] |
| 2-2-3-400 | 2 CPU (Grace), 2 GPU, 3 NIC, 400 GbE/GPU | GH200 NVL2 Superchip | 4-32 节点 | 多节点 AI/HPC 混合应用[6] |
本文档重点:Cisco AI POD 参考架构采用 2-8-9-400 模式(Cisco UCS C885A + Nexus 9364E-SG2),经 NVIDIA 认证的基础设施配置和 Spectrum-X 平台验证,支持最大 256 GPU 的企业级训练/推理集群。[5]
参考文献与来源标注
- [1] — AI 技术栈:智能工厂全景 (AI 技术栈:智能工厂全景.md) — 涵盖 NVIDIA AI Factory 全栈技术架构的深度研究报告,包括应用层(LLM / RAG / Agentic AI)、编排层(K8s / Run:ai / NIM)、计算层(PyTorch / CUDA / NCCL)、基础设施层(RDMA / RoCEv2 / Spectrum-X / InfiniBand / UEC)的详细解析。
- [2] — NVIDIA Data Center Solutions: AI Factories, nvidia.com
- [3] — NVIDIA Enterprise Reference Architecture Overview (nvidia-enterprise-reference-architecture-white-paper.pdf) — "Building AI Factories for the Enterprise" 章节。
- [4] — Cisco Secure AI Factory with NVIDIA (TEM Q3 M1_Cisco Secure AI Factory.pdf) — Cisco 解决方案工程师培训材料,涵盖产品定位、安全架构、竞争分析。
- [5] — Cisco AI POD Infrastructure for Enterprises Guide (Cisco AI POD Infrastructure for Enterprises Guide.pdf) — 使用 UCS C885A 和 Nexus 9364E-SG2 的详细参考架构设计文档,包括拓扑、BOM、软件版本矩阵。
- [6] — NVIDIA Enterprise Reference Architecture Overview Whitepaper (nvidia-enterprise-reference-architecture-white-paper.pdf) — C-G-N-B 命名法、各参考配置的详细描述、集群规模与用例指南。
本全景图基于上述公开文档与技术资料综合整理,仅供学习参考。文档访问日期:2026年3月27日。