交互式技术白皮书|Cisco Provider Connectivity Assurance

当停机以“秒”计费,你的网络还在用“分钟”看世界吗?

汽车工厂每停机一小时可能损失 230 万美元;0.53% 的丢包可能让吞吐量腰斩; 在严格实时场景中,几毫秒的抖动就可能让 PLC 超时、AGV 偏航、AI GPU 空转。 问题是:传统监控大屏仍然可能显示——一切正常

本文基于已提供的 Cisco PCA 官方资料整理,包括: Car Manufacturing Use Case PCA FAQ FY26 Update PCA for SE Crosswork Assurance TDM Deck Crosswork Assurance Docs

$2.3M 汽车工厂每小时非计划停机损失
µs 硬件级时间戳精度,捕捉微突发
50+ 每个主动测量会话可输出的 KPI
1s 可低至秒级报告窗口,远优于分钟平均
从被动运维到主动保障 传统监控以分钟平均看网络,PCA 以高精度传感器、AI 分析和北向集成实现基线、告警、预测和预防。 PCA 把“网络状态”翻译成“业务体验” Baseline · Alert · Predict · Prevent 智能工厂 PLC / AGV / Robot PCA Sensors + Analytics AI Native Insights AIOps / Splunk 事件聚合与闭环 传统监控 分钟平均 设备视角 高精度可视 µs 级时间戳 单向 KPI AI 预测 动态基线 异常检测 主动保障 预防停机 业务连续 从“看见设备”到“保障服务” 网络不再只是管道,而是制造、AI、金融、能源等关键业务的神经系统
Chapter 01 · 背景挑战

当停机以“秒”为单位,传统网络监控为什么会失灵?

我们先不急着谈产品。先问一个更基本的问题:网络存在的目的是什么? 如果从第一性原理出发,网络不是为了让接口变绿、CPU 降低、链路图好看; 网络存在的核心理由,是让业务在正确的时间、以可承诺的质量完成连接。 当业务的损失以秒计费时,监控系统如果仍以分钟取平均,就像用一把厘米尺去测量芯片线宽: 工具看似存在,真相却被抹平了。

第一个问题:如果监控大屏全是绿色,为什么用户仍然在投诉?

这不是运维人员不努力,也不是用户“太敏感”。问题往往出在 采样精度观察视角 上。 传统监控经常回答的是“设备还活着吗”,而业务真正关心的是“我的服务是否稳定、是否满足 SLA、是否影响产线”。

1

先看本质

网络故障不一定表现为“断”。在现代业务中,慢、抖、偶发丢包 可能已经足以构成业务故障。

2

再看误差

1 分钟平均值会把几十毫秒、几百毫秒的尖峰平均掉。 仪表盘显示绿色,但 PLC、视频会议、AI 训练可能已经被影响。

3

最后看结果

运维团队看到“正常”,业务团队感到“异常”,双方开始互相举证。 这就是多数 IT/OT 争执的根源。

精准定义:什么是“高分辨率网络可视化”?

高分辨率网络可视化,是指以足够高的采样频率、足够准确的时间戳、 足够丰富的单向与端到端 KPI,持续观察真实服务路径上的延迟、抖动、丢包、乱序、 突发丢包等性能变化。

Cisco PCA 资料中强调,它能够提供高粒度、实时、跨多层、多厂商、物理与虚拟基础设施的可视化; 传感器数据还可与 Cisco 遥测和第三方数据关联,用于异常检测与预测洞察。

精妙类比:一分钟平均值像“只拍一张体检照”

如果医生只在你坐着不动时测一次心率,然后说“你很健康”,这并不能证明你跑步时不会心律失常。 真正发现问题,需要 24 小时动态心电图。

传统分钟级监控像“静态体检照”;PCA 的高精度持续测量像“网络动态心电图”: 它捕捉的是那些短暂、偶发、却可能造成业务影响的微小异常。

$2.3M 汽车制造每小时非计划停机损失,资料引用 Siemens 2024 研究。
0.53% 丢包可能导致数据吞吐量最高下降 50%。
5ms 延迟增加可能导致数据吞吐量下降约 10%。
10ms 抖动可能导致数据吞吐量下降约 10%。

这些数字并不是“实验室恐吓”。在高分辨率测量示例中,传统 1 分钟报告下峰值延迟可能看起来约为 2ms; 但在 1 秒报告下,峰值可能暴露为约 4ms,并出现多次阈值穿越。 这意味着:不是网络没有问题,而是你的工具没有足够清晰地看见问题。

分钟级平均与秒级采样的差异 图中显示传统一分钟平均值会掩盖短暂延迟尖峰,而高分辨率采样能够捕捉微突发并触发提前处置。 为什么“绿色大屏”会骗你? 同一段网络,分钟级平均值显示正常;秒级/毫秒级采样却能看到多次业务影响尖峰。 00s 60s 高延迟 低延迟 SLA 阈值 1 分钟平均值:看起来正常 短暂尖峰 可能只持续几百毫秒,却会影响敏感业务 PCA 的价值 用高分辨率采样捕捉真实服务体验 平均值回答“总体是否还行”;高分辨率回答“业务是否真的被影响”。

第二个问题:为什么现代网络不需要“彻底宕机”,也能造成巨大损失?

因为今天的网络承载的是实时控制、自动化决策、低延迟交互和 AI 工作负载。 它不再只是“传文件的管道”,而是业务系统的神经系统。 神经系统不必断裂,只要传导慢半拍,肌肉就可能做错动作。

精准定义:什么是“Slow is the New Down”?

“慢就是新的宕机”指的是:在实时业务和高性能应用中,服务不必完全不可达, 只要延迟、抖动、丢包超过业务容忍度,就会表现为用户体验恶化、产线停顿、 SLA 违约或 AI 计算资源浪费。

网络质量对用户 QoE 有重大影响:丢包和延迟会使吞吐下降, 而网络表面上仍可能显示为绿色。

精妙类比:不是停电,而是电压不稳

传统网络故障像“停电”:大家一眼就知道出事了。 现代网络劣化更像“电压不稳”:灯还亮着,设备还转着,但精密仪器开始误差、重启、报警。

工厂里的 PLC、AGV、机器人、视觉检测系统也是如此。 网络还“通”,并不代表业务还“稳”。

看似很小的网络劣化,为什么会变成业务事故?
网络现象 传统监控可能看到什么 真实业务可能感受到什么
0.53% 丢包 平均丢包率很低,未触发严重告警 数据吞吐量可能下降高达 50%,文件传输、视频、控制链路明显变慢
5ms 延迟增加 仍低于静态阈值,仪表盘绿色 吞吐量可能下降约 10%,实时控制和交互类应用体验变差
10ms 抖动 平均延迟可能仍正常 语音、视频会议、机器人反馈环和 PLC 通信稳定性下降
AI 场景 1% 丢包 网络未必“Down” AI 训练场景下,有效 GPU 计算时间可能降至不足 5%

第三个问题:为什么运维团队会陷入“应用说网络有问题,网络说我没问题”的循环?

因为每个团队都在用自己的工具看局部真相。 应用团队看日志,网络团队看设备,安全团队看策略,OT 团队看 PLC 与产线。 每个人都没撒谎,但没有人看到完整的因果链。

1

多工具

许多服务提供商同时使用多套系统。 工具越多,不等于真相越清楚,反而可能增加“切屏排障”的时间。

2

多层级

光层、以太层、IP 层、应用层、云平台、OT 设备各自有指标。 如果没有统一的时间线和元数据,跨层因果很难被还原。

3

多语言

IT 说接口、队列、DSCP;OT 说 PLC、OEE、AGV、工位。 没有共同语言,就无法快速协同。

工具孤岛导致运维盲区 多个团队分别使用不同工具观察局部数据,缺少统一服务视角,导致排障时间变长、责任边界模糊。 工具很多,真相却可能更远 问题不是缺少数据,而是缺少能把数据串成业务因果链的服务视角。 应用团队 日志 / APM “用户说慢” 网络团队 SNMP / NMS “接口是绿的” 安全团队 策略 / 日志 “策略未变更” OT 团队 PLC / OEE “产线在抖” 统一服务视角 高精度测量 + 元数据 + 关联分析 PCA 的核心价值之一:让 IT、OT、应用、安全团队在同一条业务时间线上对话。

第四个问题:AI 与工业 4.0 为什么把网络监控的精度要求推向极限?

因为新一代业务的“动作”越来越密集、越来越自动、越来越依赖网络反馈。 一次网页访问可能只需要少量往返;一次 Agentic AI 请求可能触发十几次甚至上百次 LLM 调用; 一次机器人控制动作可能要求毫秒级反馈闭环。 网络延迟不再是背景噪声,而会直接进入业务结果。

精准定义:什么是“网络作为关键资源”?

“网络作为关键资源”是指网络性能本身成为应用成功与否的决定性生产要素。 在 AI、RAG、Agent、多 Agent、工业控制等场景中,延迟、抖动、丢包可能直接影响 Token 返回时间、任务完成时间、GPU 利用率、机器人动作精度与产线连续性。

RAG、Agent、多 Agent 与多 LLM 架构会显著增加网络交互次数, 网络与 LLM 性能关联变得更关键;关键指标包括 Request Latency、Time To First Token、 Time Per Output Token 等。

精妙类比:Agentic AI 像“会自己出门办事的实习生”

传统应用像你亲自去窗口办一次业务;RAG 像你让助理先查资料再回来汇报; Agentic AI 则像一个会自己跑多个部门、打多个电话、填多张表的实习生。

他每多跑一个部门,就多依赖一次网络。如果路上每次都慢一点,最终交付就会慢很多; 如果中途丢一张表,整个任务可能重来。

业务形态越先进,对网络微小劣化越敏感
业务形态 网络交互特征 对网络的要求 PCA 能提供什么
传统 Web / 办公应用 请求次数相对有限,用户容忍度较高 可用性、基础延迟、DNS 与 HTTP 响应 Transfer Sensor 可测试 HTTP/FTP/DNS 等应用可达性与响应
实时音视频 / 协作 连续流量,对抖动和丢包敏感 低丢包、低抖动、稳定单向延迟 TWAMP/Y.1731 主动测量、MOS/R-value 等体验相关指标
工业控制 / PLC / AGV 控制反馈环,异常持续很短但影响很大 微秒级精度、短暂尖峰捕捉、双 Fabric 路径监控 硬件 Sensor SFP/Module,监控最大延迟、丢包、Delay Variation
RAG / Agent / 多 LLM 一次用户请求触发多次模型和工具调用 端到端延迟、上行性能、请求路由与 LLM 性能关联 FY26 方向:AI WAN 性能测试、LLM/Agent 性能传感与网络性能关联
AI 训练集群 多进程向同一接收端通信,GPU 等待网络 极低丢包、低延迟、低抖动、可预测性 高精度性能测量为 AI 网络调优和容量规划提供基础数据

慢,不再是体验问题

慢会变成 SLA 问题、生产节拍问题、AI 算力浪费问题。

抖,不再是小波动

抖动会破坏实时反馈环,让机器人、视频、语音和控制系统不稳定。

丢,不再是低比例

在特定高性能场景中,不到 1% 的丢包也可能造成吞吐腰斩或 GPU 大量空转。

猜,不再可接受

业务以秒计费时,运维必须用数据定位,而不是靠会议室里的经验判断。

资料引用说明:本章关键观点来自哪些文件?
  • Car_Manufacturing_usecase_v1.pdf: 指出汽车制造非计划停机每小时损失约 230 万美元,客户需要对 Fabric A 与 Fabric B 的正常性能和偏差进行微秒精度监控,并把洞察发送到北向系统。
  • Provider Connectivity Assurance FAQ.PDF: 定义 PCA 是云原生性能保障平台,结合主动测试、被动体验监控、数据采集、分析与可视化,为多层、多厂商、物理与虚拟基础设施提供高粒度可视化。
  • #30IMI Essentials_ Provider Connectivity Assurance for SE.PDF: 给出 QoE 与高分辨率监控资料,包括 0.53% 丢包、5ms 延迟、10ms 抖动对吞吐的影响,以及 1 分钟采样与 1 秒采样的差异。
  • Cisco Crosswork Assurance TDM Deck.PDF: 强调传统工具难以检测现代 QoE 问题,设备监控不总能反映用户体验,并说明 AI/GPU 场景对低延迟、低抖动、低丢包的要求。
  • 5. Provider Connectivity Assurance (PCA).pdf: 阐述 FY26 关于 Networking for AI 与 AI for Networking 的方向,包括 LLM/Agent 性能指标与 PCA 未来前端自然语言交互能力。
  • crosswork-assurance-docs.md: 来自 Cisco Crosswork Assurance 官方文档,补充说明 PCA 已更名为 Cisco Crosswork Assurance, 并提供 Sensor Agents、Sensor Capture、Sensor Control、Telemetry Collector、Splunk 集成和动态基线计算等细节。

传统监控问:“设备有没有坏?” 现代业务问:“服务有没有被影响?” 这两个问题之间,隔着一整个运维时代。

本章的结论很简单:网络运维的挑战不是“数据太少”,而是“关键数据太粗、太散、太晚”。 下一章,我们继续追问:既然已有那么多监控工具,Cisco PCA 到底填补了什么独特空白?

Chapter 02 · 填补空白

如果监控工具已经很多,PCA 到底填补了什么空白?

要回答这个问题,不能先看产品功能清单,而要先问: 现有工具究竟在回答什么问题? 很多传统系统回答的是“设备是否正常、端口是否 Up、CPU 是否过高”; 但网络运维团队负责人真正需要回答的是: 哪条服务受影响?影响了哪些客户?是否违反 SLA?根因在哪里?能否在业务投诉前发现? PCA 填补的正是这条鸿沟:从设备中心走向服务中心,从故障后解释走向故障前预测。

第一个问题:CPU 95% 了,业务一定有问题吗?接口全绿,业务一定没问题吗?

这两个问题看似简单,却是网络运维转型的分水岭。 如果我们只看设备指标,就会把“设备健康”误认为“服务健康”。 但业务体验是端到端路径、队列、QoS、链路拥塞、路径变化、应用重传共同作用的结果。 局部设备健康,不等于整体服务健康。

精准定义:什么是“服务中心化保障”?

服务中心化保障,是以端到端业务服务为对象的监控与保障方式。 它不只观察单个设备、接口或链路,而是持续测量从业务起点到终点的真实服务体验: 延迟、抖动、丢包、可用性、SLA 达成率、受影响客户、受影响服务范围。

设备监控并不总能反映用户体验。 服务中心视角能告诉你 L2/L3 VPN 服务是否正常;如果异常,还能看到影响范围、对象和位置。

精妙类比:设备中心像看器官,服务中心像看整个人

设备中心监控像医生只看心率、血压、肝功能等单项指标。 每个指标都可能在正常范围内,但你仍然可能感到胸闷、乏力、睡不好。

服务中心保障像医生关心“你能不能正常跑步、工作、睡眠”。 PCA 关注的不是“某台设备是否看起来健康”,而是“这条业务服务是否真的让用户感到健康”。

设备中心与服务中心视角对比 传统设备中心监控关注路由器、交换机和接口;PCA 的服务中心保障关注端到端业务路径、客户影响和 SLA。 同一张网络,两种完全不同的问题 设备中心问“哪里坏了”;服务中心问“谁被影响、影响多大、是否违约”。 设备中心 Device-Centric Monitoring Router Switch Firewall 端口 Up CPU 正常 接口未丢包 结论常常是:设备看起来没问题。 服务中心 Service-Centric Assurance Site A Site Z L2/L3 VPN Service P95 延迟异常 金牌客户 SLA 风险 路径变化关联 提前触发处置 结论变成:哪条服务、哪个客户、哪个 SLA 正在受影响。

第二个问题:PCA 与现有 NMS、Fault Management、Splunk、ThousandEyes 是替代关系吗?

不是。更准确地说,PCA 是“高精度网络服务保障数据源 + 智能分析层”。 它可以独立提供可视化、报告、告警和客户门户,也可以把高价值洞察发送给 Splunk、 AIOps、Fault Management、NSO、CNC 等北向系统。 它不是要让客户再多一个孤岛,而是让现有工具拥有更准确、更有上下文、更接近业务体验的网络证据。

1

Fault Management 负责“坏了”

FM 系统通常接收设备或端口 Down、SNMP Trap、单点事件。 它擅长故障事件管理,但并不专门做端到端服务性能建模。

2

PCA 负责“变差了”

PCA 主动 24/7 测量服务性能,以高粒度发现趋势、行为和异常; 它可以生成上下文丰富的 SLA 告警,再发送给 FM。

3

Splunk 负责“汇总观察”

Splunk 可把 PCA 事件与应用、云、安全日志关联; 从 Splunk 下钻到 PCA,可查看专业网络性能细节。

两者的边界可以这样理解:PCA 专注性能指标,FM 处理故障;PCA 不从 FM 接收设备或端口 Down 告警, 但可向 FM 发送上下文丰富的 SLA 违约或风险告警。 同时,PCA 可通过开放 API 向 AIOps、Splunk、Controllers、Data Gateways 等北向系统发送洞察。

Cisco PCA 在运维工具体系中的独特位置
工具 / 平台 主要视角 擅长回答的问题 不擅长或不足 PCA 如何补全
传统 NMS / SNMP 设备与接口 设备是否在线?接口是否 Up?CPU/内存是否异常? 难以反映端到端服务体验,采样粒度通常偏粗 提供端到端、每服务、每 CoS 的高精度性能测量
Fault Management 故障事件 是否有设备、链路、端口故障事件? 不专注长期性能趋势、动态基线与 SLA 风险预测 把上下文丰富的 SLA 告警与性能洞察输出给 FM
Splunk / AIOps 跨域可观测性 应用、日志、安全、基础设施事件如何关联? 需要高质量、低噪声、已加工的网络性能洞察 PCA 将分析后的网络服务事件与元数据发送给 Splunk,减少数据量和重复分析
ThousandEyes 互联网 / SaaS / 外部体验 用户到 SaaS、互联网路径体验如何? 对客户自有网络内部的微观性能细节不如 PCA 深 TE 更偏外部体验望远镜视角,PCA 更偏自有网络显微镜视角,两者互补
NSO / CNC / Crosswork 编排与控制 如何开通服务、调整路径、维护意图? 需要实时反馈网络实际状态,才能形成闭环 PCA 提供反馈环:监测服务实际性能,触发控制器动作

精准边界:PCA 不只是主动探测

Crosswork Assurance 的数据来源可以分成主动与被动两类: 主动测试通过注入模拟真实流量的探测包,提前发现可能影响用户的问题; 被动监控则通过实时包分析记录真实网络交易,用于判断体验问题更可能来自客户端、服务器还是网络本身。

这意味着 PCA 的定位不是“更高级的 Ping”,而是一套把主动测量、真实流量观察、设备遥测和故障事件统一分析的保障平台。

精妙类比:主动测试像巡逻车,被动监控像行车记录仪

巡逻车可以按固定路线定期检查路况,提前发现坑洞、拥堵和异常; 行车记录仪则记录真实车辆实际经历了什么。

两者结合,才既能主动预防,又能还原真实体验。 PCA 的价值正在于把这两类证据放到同一条服务时间线上。

精准定义:什么是“闭环自动化”?

闭环自动化,是指系统不仅能配置网络,还能持续测量网络实际运行状态; 当实际状态偏离业务意图或 SLA 时,监测系统把反馈传给控制器, 控制器再自动调整路径、带宽、策略或监控粒度,使服务回到目标状态。

Crosswork 与 PCA 的关系可以解释这个模型: Crosswork 提供控制平面,PCA 提供测量与分析反馈环,两者共同实现近实时的数字体验优化控制。

精妙类比:闭环自动化像自动驾驶的“方向盘 + 眼睛”

只有方向盘,没有眼睛,车不知道自己偏离车道; 只有眼睛,没有方向盘,车知道偏了也无法修正。

Crosswork/NSO/CNC 像方向盘与执行机构;PCA 像高精度摄像头、雷达和车道识别系统。 它告诉控制器:现在是否偏离目标、偏离多少、该不该动作。

第三个问题:PCA 填补的“空白”具体是什么?

如果用一句话概括:PCA 填补的是 “高分辨率服务体验数据”到“可执行业务洞察”之间的空白。 它不是只多采几个指标,而是把测量精度、服务视角、AI 分析、元数据上下文、开放集成和自动化反馈连成一个系统。

µs

空白一:微秒级真实测量

PCA 通过硬件传感器实现高精度时间戳,可捕捉传统分钟级或低频工具看不到的短暂尖峰与微突发。

空白二:上行与下行分开看

现代网络上下行路径和拥塞情况可能不同。PCA 可提供单向指标和真实服务路径行为, 避免只看 RTT 后误判。

50+

空白三:不再只看平均值

PCA 每会话可提供 50+ KPI,包括最小/最大/平均、P50/P95/P99、丢包突发、乱序、重复包、MOS、R-value 等。

🏷

空白四:元数据让数据会说话

PCA 能用站点、区域、客户、SLA 等级、服务类型等元数据增强数据, 支持过滤、聚合、根因关联和面向客户的服务可视化。

AI

空白五:动态基线与预测

PCA 可基于历史正常行为建立动态基线,识别偏离、减少误报、捕获异常并提示未来风险。

API

空白六:开放北向集成

PCA 可通过开放 API、REST、gRPC、Kafka 等方式与 Splunk、AIOps、NSO、CNC、FM 等系统集成。

SAT

空白七:服务上线即验证

通过 RFC 2544、Y.1564、RFC 6349 等测试,PCA 支持服务开通时生成“服务出生证”,减少现场测试。

OT

空白八:IT/OT 共同语言

制造业场景中,PCA 可把网络性能与 PLC、OEE、AGV 等 OT 指标关联, 让 IT 和 OT 团队基于同一事实协作。

PCA 从数据到行动的价值链 PCA 将高精度传感器数据、第三方遥测和元数据输入平台,通过 AI 分析形成洞察,再输出到仪表盘、客户门户、Splunk 与自动化控制器。 PCA 填补的是“从测量到行动”的整条链路 单点工具只能给数据;PCA 把数据变成上下文、洞察、告警、预测与自动化动作。 输入 PCA Sensors Cisco Telemetry Third-party Data 上下文 Customer Site / Region SLA / Service PCA Analytics Analyze · Correlate · Predict 动态基线 异常检测 根因关联 输出 Dashboard Splunk Automation 可视化只是第一步;真正的价值是把性能劣化转化为可执行动作。

第四个问题:PCA 为什么特别适合关键网络,而不仅仅是运营商网络?

PCA 的名字里有 Provider,但它并不只服务于传统电信运营商。 对运行自有私有网络的企业或公共部门来说,只要其业务对性能敏感, 就有机会从 PCA 的高粒度、精准监控中获益。 换句话说:只要毫秒重要,PCA 就有意义;只要停机昂贵,PCA 就更有意义。

PCA 适合哪些网络域与行业?
领域 / 行业 为什么需要 PCA 典型价值
服务提供商 SP 多域、多厂商、移动回传、B2B SLA、客户门户、业务差异化 降低 MTTR,提供 SLA 可视化,增加增值收入
制造业 / 汽车工厂 PLC、AGV、机器人、双 Fabric、IT/OT 融合,停机损失极高 预防停机,关联网络与产线指标,减少 IT/OT 扯皮
金融服务 跨数据中心、混合云、低延迟交易与关键业务路径 精确延迟可视化、冗余路径验证、故障举证
电力与公用事业 SCADA、GOOSE、Teleprotection 对低延迟和可靠性要求极高 微秒级 L2/L3 监控,保障关键基础设施
广播 / 直播 / 赛事 直播链路质量决定观众体验和广告收入 提前发现传输风险,缩短 MTTR
卫星 / 非地面网络 链路 KPI 高波动,需要 SLA 管理和趋势分析 对比卫星终端指标,证明责任边界,优化配置
AI WAN / DCI RAG、Agent、多 LLM、AI 训练对延迟、丢包和上行性能更敏感 网络与 LLM 性能关联,支撑 AI 服务 SLA

第五个问题:为什么 PCA 的商业价值不仅是“少故障”,而是“可运营、可证明、可变现”?

网络保障的高级阶段,不只是减少故障,而是把网络性能变成可证明的服务能力。 对运营商,这是 SLA 门户、差异化套餐和客户粘性的来源; 对制造业,这是避免停机、缩短排障、提升 IT/OT 协同的运营收益; 对金融、能源、公共部门,这是业务连续性与合规审计的证据。

1

可运营

PCA 支持多角色仪表盘:工程、运营、业务、客户门户。 同一份性能事实,可按不同受众呈现。

2

可证明

通过持续主动测量、服务激活测试和 SLA 报告, 运维团队可以证明服务是否达标,也能形成“Proof of Innocence”。

3

可变现

Colt 案例显示,客户门户与性能洞察可带来容量和服务 upsell, 并降低 churn 与 OpEx。

从技术能力到业务价值:PCA 的价值翻译表
PCA 能力 技术含义 对网络运维负责人意味着什么 对管理层意味着什么
高分辨率主动测量 持续测量延迟、抖动、丢包、乱序、突发等 更快发现真实服务劣化,减少“看不见”的问题 降低停机风险与客户投诉
动态基线与 AI 分析 学习正常行为,识别偏离与趋势 减少误报和告警疲劳,提升排障效率 从被动响应转向主动预防
元数据增强 把 KPI 与客户、站点、服务、SLA、区域关联 快速回答“谁被影响、影响在哪里” 将技术事件翻译为业务影响
客户门户与 SLA 报告 多租户、可定制、可对客户开放的可视化 减少反复解释和人工报表 提高客户信任,创造增值服务机会
开放 API 与自动化集成 向 NSO、CNC、Splunk、FM、AIOps 输出事件或 KPI 将监控与处置流程连接起来 降低 OpEx,提升组织效率
案例补充:Colt 为什么能用 PCA 创造业务价值?

Colt Technology Services 使用 Provider Connectivity Assurance 做主动网络监控、统一网络与服务性能可视化、报告分析和终端客户门户。 这些门户在竞争性 RFP 中成为差异化能力。

  • Colt 将门户用于 B2B 客户实时用量和性能洞察,带来约 30% 的容量和服务 upsell 机会。
  • 客户门户带来的数字体验提升,帮助 Colt 估计降低约 25% 的客户流失。
  • 内部运维团队使用 PCA 平台将 OpEx 降低约 50%,并使 Trouble Ticket 分析速度提升约 35%。

这说明 PCA 的价值不只是“发现故障”,更是把网络性能变成客户可见、业务可运营、管理层可衡量的资产。

PCA 不是“又一个监控工具”;它是把网络从“设备资产”升级为“可承诺服务”的度量体系。

本章的结论是:PCA 填补的是传统工具在高精度、服务视角、动态基线、元数据关联和闭环自动化上的空白。 下一章,我们继续拆解它的技术地基:TWAMP、Y.1731、RFC 2544、Y.1564、RFC 6349——这些标准为什么重要,PCA 又如何把它们升级成可运营的保障能力?

Chapter 03 · 技术基础

PCA 的技术基础是什么?为什么它不是“黑盒魔法”?

一个可靠的网络保障系统,不能建立在“私有黑盒”和“厂商自说自话”之上。 它必须站在开放标准、可验证测量和可重复方法之上。 PCA 的底层并不是凭空发明一套封闭协议,而是充分利用 TWAMP、Y.1731、RFC 2544、Y.1564、RFC 6349 等成熟标准,再通过硬件时间戳、高分辨率采样、丰富 KPI、元数据与 AI 分析,把这些标准升级成可运营、可预测、可自动化的服务保障体系。

第一个问题:如何在不打扰真实业务的情况下,知道真实业务路径是否健康?

你不能等产线停下来才去测试网络,也不能随意用真实业务流做实验。 所以网络保障需要一种“替身”: 它像真实业务一样走同样的路径、带同样的优先级标记、经过同样的队列和设备; 但它本身是可控、可测、可重复的探测流量。 这就是 主动合成测量 的核心思想。

精准定义:什么是主动合成测量?

主动合成测量,是由测试端主动生成小规模、可控的探测报文, 让探测报文沿真实业务路径传输,并通过时间戳、序列号和返回结果计算延迟、抖动、丢包、乱序、可用性等指标。

边界也要说清:主动测量不是替代真实用户流量分析,而是用稳定探针发现路径性能是否偏离。 真正判断业务影响时,还需要结合应用、遥测、OT 指标或 PCA UE 等真实体验数据。

PCA 利用 TWAMP、Y.1731、UDP/ICMP Echo 等方式进行连续 24/7 主动测量, 并可将测量结果与网络遥测、第三方数据和元数据进行关联。

精妙类比:像派一辆“测试车”跑真实高速

你想知道高速是否拥堵,不一定要拦下所有私家车问体验。 你可以派一辆装有高精度 GPS 和计时器的测试车,按照真实路线、真实车道、真实限速跑一遍。

主动合成测量就是这辆测试车。 它不代表所有业务流量,但它能稳定、持续、可比较地告诉你: 这条路现在是不是变慢了、哪里变慢了、变慢多久了。

主动合成测量如何工作 发送端传感器生成探测报文,经过真实业务路径到达反射端,反射端返回报文,PCA 根据时间戳和序列号计算延迟、抖动、丢包等 KPI。 主动测量:用“测试车”持续跑真实业务路径 探测流量可携带 VLAN / DSCP / CoS 等标记,用于贴近真实业务路径和队列行为,但不能替代真实流量分析。 Sender PCA Sensor 时间戳 · 序列号 PE Core PE Reflector 标准或 Cisco 反射端 原样返回探测包 输出 KPI:单向延迟 · PDV/IPDV 抖动 · 丢包率 · 丢包突发 · 乱序 · 重复包 · P95/P99 · MOS/R-value PCA 不只是“Ping 一下”,而是把每条服务路径变成连续可度量的健康曲线。

第二个问题:TWAMP 到底是什么?为什么它是 L3 性能测量的“普通话”?

在 IP 网络中,如果不同厂商、不同设备、不同平台都要理解同一种性能测量语言, 就需要开放标准。TWAMP 正是这种语言。 它不是 Cisco 私有协议,而是 IETF 的 RFC 5357 标准,因此能在多厂商环境中作为共同基础。

精准定义:TWAMP

TWAMP,全称 Two-Way Active Measurement Protocol, 即双向主动测量协议,由 RFC 5357 定义。 它通过 Sender 向 Reflector 发送带时间戳和序列信息的测试报文, 再根据返回结果测量 IP 层链路或服务的延迟、抖动、丢包等性能指标。

FAQ 指出,TWAMP 存在于 IP 层,用于测量 OSI L3 层链路性能; PCA 可与标准 TWAMP 网络元素互通,也可以采集 Cisco MDT 等其他遥测数据。

精妙类比:TWAMP 像“网络回声测距”

你站在山谷一端喊一声,回声从山谷另一端返回。 你根据“喊出去”和“听到回声”之间的时间差,判断距离和传播情况。

TWAMP 也是如此:Sender 发出测试包,Reflector 返回测试包。 只不过它记录的不只是“多久回来”,还可以通过更细粒度的时间戳和统计,计算抖动、丢包和路径质量。

标准 TWAMP 是基础语言,PCA 把它升级成运营级洞察
维度 标准 TWAMP 的基础能力 PCA 的增强价值 为什么重要
开放性 RFC 5357,适用于 L3 IP 网络测量 支持标准反射端、Cisco Sensor、部分现有设备能力 避免厂商锁定,适合多厂商网络
测量粒度 可进行持续主动测量 支持高 PPS、毫秒级采样、低至秒级报告窗口 捕捉短暂尖峰和微突发,而不是只看分钟平均
时间精度 依赖实现方式,常见为软件时间戳 硬件 Sensor 可提供微秒级时间戳精度 适合低延迟、工业控制、金融、AI 等敏感场景
KPI 丰富度 基础延迟、抖动、丢包等 50+ KPI,包括 P25/P50/P95/P99、丢包突发、乱序、重复包、MOS/R-value 等 从“平均值”进入“体验分布”分析
服务语义 偏测试会话视角 结合元数据映射客户、站点、服务、SLA、CoS 直接回答“哪个业务受影响”
分析能力 协议本身只负责测量 PCA 提供基线、异常检测、预测、可视化、告警和北向集成 把测量结果转化为运维行动

第三个问题:如果 TWAMP 是 L3 的普通话,Y.1731 又解决什么问题?

并不是所有关键业务都只跑在 L3。 运营商以太网、L2 VPN、工业以太网、电力 GOOSE、部分数据中心互联场景, 都需要在二层直接观察服务性能。 当你要测的是以太网层服务,就需要 Y.1731 / Ethernet OAM。

精准定义:Y.1731 / Ethernet OAM

Y.1731 是 ITU-T 定义的以太网 OAM 标准, 常与 IEEE 802.1ag 一起用于以太网层的运维管理。 它支持二层连通性、延迟、抖动、丢包等测量, 适用于运营商以太网和 L2 服务性能保障。

FAQ 对比指出:Y.1731 是以太网 OAM 标准,工作在 Ethernet 层; TWAMP 则工作在 IP 层,用于 L3 性能测量。

精妙类比:TWAMP 是普通话,Y.1731 是车间里的专业手势

普通话适合跨城市、跨部门交流;但在噪声很大的工厂车间里, 工人之间可能更依赖约定好的手势,因为它更贴近现场动作。

TWAMP 适合 IP 层跨域测量;Y.1731 更贴近二层以太网服务。 PCA 同时支持两种语言,所以既能听懂 IP 网络,也能听懂以太网服务。

TWAMP 与 Y.1731 的分层适用关系 TWAMP 用于 L3 IP 层主动测量,Y.1731 用于 L2 以太网 OAM。PCA 同时支持多层测量,并与遥测和元数据关联。 不同层的问题,要用不同层的“听诊器” PCA 的价值不是只支持一个协议,而是把多层测量统一成服务视角。 L7 HTTP / DNS / FTP / 应用响应 L4 TCP Throughput / RFC 6349 L3 TWAMP / IP SLA / UDP Echo L2 Y.1731 / ETH-OAM Cisco PCA 多层测量 · 多源遥测 · 元数据关联 统一呈现为服务健康与 SLA 洞察 工具的成熟,不在于只会一种协议,而在于能把多层协议翻译成同一个业务故事。

第四个问题:RFC 2544 与 Y.1564 为什么像网络服务的“出生证”?

新开一条专线、新上线一条 L2/L3 VPN、新交付一条工业控制网络连接时, 客户最关心的不是“配置是否下发成功”,而是: 这条服务真的达到承诺的带宽、延迟、丢包和 CoS 要求了吗? 这就需要服务激活测试。

精准定义:RFC 2544 与 Y.1564

RFC 2544 是网络设备与链路性能基准测试标准, 常用于测试吞吐量、延迟、帧丢失和帧大小缓冲等。 Y.1564 是以太网服务激活测试标准, 能同时测试一个或多个业务流和 QoS 流,验证不同服务等级是否被正确保障。

FAQ 指出,RFC 2544 与 Y.1564 都属于 out-of-service 测试, 用于测量不承载实时客户业务的链路是否满足关键 SLA 参数。 Y.1564 支持多个流并行测试,适合多 QoS 服务验证。

精妙类比:像新车交付前的整车检测报告

你买车时,不会只听销售说“这辆车配置好了”。 你希望它通过刹车、灯光、发动机、轮胎、油耗等检测。

RFC 2544 / Y.1564 就是网络服务交付前的整车检测。 它证明这条服务不是“配置完成”,而是“性能达标”。 因此它也像一张服务出生证:上线之初的健康状态被正式记录。

RFC 2544 与 Y.1564:从链路基准到服务激活
标准 主要用途 测量内容 典型优势 PCA 中的价值
RFC 2544 链路/设备性能基准测试 吞吐量、延迟、帧丢失、帧大小缓冲;后续也常加入 jitter 历史悠久,是全球链路开通测试的事实标准之一 通过硬件 Sensor SFP/Module 远程生成测试流量,减少现场测试与 truck-roll
Y.1564 以太网服务激活测试 CIR/EIR、吞吐、帧丢失、延迟、多个业务流/CoS 并行验证 更适合运营级多服务、多 QoS 场景,测试效率更高 可对每个 CoS、每个目的地进行服务就绪验证,形成可导出的报告
RFC 6349 TCP 吞吐量测试 RTT、MTU、BDP、TCP 效率、传输时间比、吞吐表现 更接近真实用户 TCP 应用体验 通过 Throughput Sensor 测试实际 TCP 性能,可兼容 iPerf3 场景

第五个问题:为什么还需要 RFC 6349?链路带宽达标不就够了吗?

不够。 一条链路在 L2/L3 层测试时可能显示 1Gbps 达标, 但真实应用跑在 TCP 上,TCP 对 RTT、丢包、窗口大小、MTU、拥塞控制非常敏感。 所以“链路能跑多快”和“用户应用实际能跑多快”不是同一个问题。

精准定义:RFC 6349

RFC 6349 是 TCP 吞吐量测试框架, 通过基线阶段测量 RTT、MTU、带宽时延积等,再通过吞吐测试阶段评估 TCP 实际传输表现。 它用于验证真实 TCP 应用可能获得的吞吐能力。

PCA 的 Throughput Sensor 支持 RFC 6349 与 iPerf 兼容测试, 可用于 L4 TCP 吞吐体验验证。

精妙类比:高速限速 120,不代表你一定能开到 120

一条高速公路标称限速 120km/h,但如果路上有雨、前车频繁刹车、匝道拥堵, 你真实平均速度可能只有 60km/h。

RFC 2544 / Y.1564 更像验证“路本身是否具备能力”; RFC 6349 更像验证“车在这条路上真实能跑多快”。 对用户体验来说,后者同样关键。

PCA 的协议武器库 PCA 基于 TWAMP、Y.1731、RFC2544、Y.1564、RFC6349、UDP/ICMP Echo、Transfer、Telemetry 等能力覆盖 L2 到 L7 的服务保障。 PCA 的底层不是一个协议,而是一套“测量工具箱” 不同层、不同阶段、不同业务,需要不同测量方法;PCA 把它们统一成服务保障能力。 服务开通前 Service Activation RFC 2544 Y.1564 Birth Certificate 服务运行中 24/7 Monitoring TWAMP Y.1731 UDP / ICMP Echo 体验验证 Real Experience RFC 6349 Transfer PCA UE 上下文 Context Telemetry Metadata Fault Data PCA 的价值 = 开放标准测量 × 高精度传感 × AI 分析 × 服务上下文

第六个问题:PCA 的“微秒级精度”来自哪里?为什么普通软件探针不够?

在普通服务器或软件探针中,一个数据包要经过网卡、驱动、内核协议栈、用户态程序等多个环节。 如果在这些环节之后才打时间戳,时间戳本身就会受到 CPU 调度、系统负载、队列等待影响。 当你要测的是毫秒甚至微秒级差异时,测量工具自身的抖动就可能变成噪声。

精准定义:硬件时间戳

硬件时间戳,是在报文进入或离开硬件接口的极早阶段,由专用硬件直接记录时间, 而不是等报文经过操作系统和应用程序之后再记录。 PCA 的 SFP 和 Module 等硬件传感器利用 FPGA 驱动能力提供高精度测量。

PCA 硬件传感器具备硬件时间戳精度, 支持 TWAMP、Y.1731、UDP/ICMP Echo、服务激活测试和带宽计量等能力。

精妙类比:F1 赛道计时,而不是裁判手按秒表

如果用人手按秒表测 F1 圈速,裁判反应时间会带来巨大误差。 专业比赛把传感器装在赛道上,赛车一过线,系统立即记录时间。

软件时间戳像手按秒表;硬件时间戳像赛道内置传感器。 对微秒级网络劣化来说,计时方式决定你看到的是事实还是噪声。

PCA 传感器如何承载这些协议与测试能力?
传感器 / 组件 形态 主要能力 适合场景
Sensor SFP 可插拔光模块 / 铜口模块 硬件时间戳、TWAMP、Y.1731、UDP/ICMP Echo、RFC 2544/Y.1564、带宽计量 需要高精度、低侵入、部署在交换机/路由器端口的关键路径
Sensor Module 独立硬件模块 线速测试、持续主动 PM、服务创建、带宽监管、MEF 服务、旁路等 CPE/NID、工业现场、客户边界、运营商边界
Actuate Sensor Agent 低资源 Docker 容器 TWAMP、UDP Echo、ICMP Echo 主动发送与反射 云、虚拟化、x86、低成本覆盖
Throughput Sensor 软件容器 RFC 6349 TCP 吞吐、iPerf 兼容,最高可测试至 10Gbps L4 真实吞吐体验验证、故障排查、服务验收
Transfer Sensor 软件容器 HTTP/HTTPS/FTP/DNS/SSH 等应用可达性与响应测试 SaaS、DNS、站点到云、L7 服务验证
PCA UE NCS540 容器或 x86 软件 流量分析、应用分类、用户体验评分、每站点/应用/用户粒度指标 移动网络、宽带、用户体验与传输健康关联

第七个问题:为什么“协议标准”只是起点,真正的差异来自“数据如何被解释”?

一个协议只能产生测量值,比如延迟 3ms、丢包 0.1%、P95 抖动上升。 但运维真正需要的是解释: 这是正常波动还是异常? 影响哪个客户? 是否违反金牌 SLA? 是否和某次路径变化、设备 CPU 升高、PLC OEE 下降相关? 这就是 PCA 超越协议本身的地方。

1

标准产生数据

TWAMP、Y.1731、RFC 2544、Y.1564、RFC 6349 负责用可验证方法产生测量事实。

2

平台赋予上下文

PCA 用元数据把测量值标记为客户、站点、服务、SLA、CoS、工位或业务线。

3

AI 形成洞察

动态基线、模式识别、异常检测和预测分析把“数据点”变成“可行动的事件”。

深入理解:PCA 的 50+ KPI 为什么比平均值更可靠?

平均值只有一个数字,它会把尖峰、波动、尾部体验全部压缩掉。 PCA 的主动测量可以提供更丰富的统计形态,使运维团队看到“分布”而不是只看“均值”。

  • 单向延迟:区分上行和下行,避免 RTT 掩盖方向性问题。
  • PDV / IPDV:观察抖动和时延变化,对语音、视频、工业控制非常关键。
  • P25 / P50 / P95 / P99:观察多数用户、尾部用户和最差体验,而不是只看平均。
  • 丢包突发:同样是 0.1% 丢包,均匀丢和连续突发丢对业务影响完全不同。
  • 乱序与重复包:对 TCP 吞吐和应用响应有直接影响。
  • MOS / R-value:把网络指标转换成更接近语音体验的质量指标。

这些 KPI 让运维团队可以从“是否超过阈值”进入“为什么体验变差”的分析。

标准协议给 PCA 一把尺;硬件传感器让尺足够精准;元数据和 AI 则告诉你,这个读数对业务意味着什么。

本章依据:技术标准与传感器能力来自哪些资料?

本章主要依据 Provider Connectivity Assurance FAQ、PCA for SE、Cisco Crosswork Assurance TDM Deck, 以及 Crosswork Assurance Docs 中关于 Sensor Agents、Sensor Control、Sensor Capture 与基线/测量能力的说明。

本章的结论是:PCA 不是魔法,而是建立在开放测量标准之上的工程体系。 下一章,我们将进入方案本体:PCA 由哪些组件构成?数据如何流动?它如何从传感器、收集器、平台、分析、告警一路走向自动化闭环?

Chapter 04 · 方案解构

Cisco Provider Connectivity Assurance 到底是什么?它如何从“测量”走向“行动”?

如果把网络比作一座城市,传统监控往往只看“路灯是否亮、路口摄像头是否在线”; PCA 关注的是“救护车从医院到事故现场是否能在承诺时间内抵达”。 它不是单个传感器、单个仪表盘、单个协议,而是一套 高精度传感、数据采集、AI 分析、服务可视化、开放集成与自动化闭环 组成的性能保障平台。

第一个问题:一个完整的网络服务保障系统,最少需要哪几样东西?

从最基本的工程逻辑出发,想保障一条服务,必须先能测量;测量之后要能采集; 采集之后要能分析;分析之后要能让人看懂;最后还要能触发行动。 所以 PCA 的本质不是“监控页面”,而是一条从感知到行动的完整链路。

1

谁来测?

需要硬件和软件传感器,部署在真实服务路径上, 产生高精度、连续、可比较的性能数据。

2

数据怎么回来?

需要 Sensor Collector 与 Telemetry Collector, 把 PCA 传感器数据、Cisco 遥测和第三方数据安全送入平台。

3

谁来判断?

需要 Analytics、动态基线、模式识别、异常检测和预测能力, 把原始 KPI 转成服务洞察。

精准定义:Cisco Provider Connectivity Assurance

Cisco Provider Connectivity Assurance,前身为 Accedian Skylight;在最新命名体系中, 该方案已更名为 Cisco Crosswork Assurance。 它是一个面向关键网络的运营商级 AI Ops 性能保障平台,提供网络和服务性能的主动测试与监控, 以及用户体验质量的被动监控。 它通过高粒度、多层、多厂商、物理与虚拟基础设施可视化, 帮助网络团队实时理解网络和应用行为。

PCA 将 Provider Connectivity Assurance Sensors 的粒度性能指标与 Cisco 遥测、 第三方数据关联,并利用 AI-enabled analytics 实时异常检测和预测洞察, 以加速排障和自动化修复。

精妙类比:PCA 像“网络的航空管制塔”

飞机能飞,不代表机场安全。航空管制塔要持续知道每架飞机的位置、速度、高度、航线、 天气、跑道占用情况,并在风险发生前指挥调整。

PCA 也是这样:它不只确认链路能通,而是持续观察每条服务的性能轨迹, 结合上下文判断风险,并把洞察交给运维、客户门户或自动化系统。

Cisco PCA 总体架构 架构图展示 PCA 的传感器层、收集器层、平台分析层和北向集成层,包括硬件传感器、软件传感器、Telemetry、Analytics、Dashboard、Splunk、NSO、CNC 等。 Cisco PCA:从高精度感知到自动化行动 传感器负责看见,收集器负责汇聚,平台负责理解,北向系统负责行动。 北向集成与行动 PCA 平台大脑 数据采集与传感器 Dashboards 运营 / 工程 / CXO Customer Portal SLA 透明化 Splunk / AIOps 事件聚合 NSO / CNC 闭环自动化 Provider Connectivity Assurance Platform Management · Streamer · Analytics · Visualization · Alerting · APIs Sensor Mgmt Streamer Analytics / AI Open APIs Sensor Collector PCA Sensor 数据 Telemetry Collector Cisco / 第三方遥测 Sensor SFP Module Software Agents IOS XR / XE MDT 3rd-party Data

第二个问题:PCA 的“眼睛和耳朵”是什么?传感器为什么有这么多形态?

网络环境不是单一形态:有物理链路、虚拟化平台、云、工厂交换机、AGV、数据中心、运营商骨干、 第三方网络和无法改造的存量设备。 所以 PCA 不是只提供一种探针,而是提供硬件传感器、软件传感器、现网反射能力和遥测采集能力。 这背后的设计原则很简单:哪里有关键服务,哪里就应该有适合那里的测量方式。

PCA 传感器与数据源:按部署环境选择“合适的眼睛”
组件 形态 核心能力 部署优势 典型场景
Sensor SFP 1G/10G SFP/SFP+,含光口、Bi-Di、铜口等 硬件时间戳、TWAMP、Y.1731、UDP/ICMP Echo、SAT、带宽计量 像普通光模块一样部署,精度高、占用空间小 工业交换机、PE、CPE、关键链路、低延迟服务
Sensor Module 独立硬件模块,1G/10G 等版本 线速测试、MEF 服务、服务创建、QoS、连续 PM、SAT 功能完整,适合边界和客户侧部署 运营商 NID、企业边界、工业现场、客户 CPE
Actuate Agent Docker 容器 L3-L7 主动测试;可按测试类型作为专用微服务运行 资源占用低,部署灵活 云、虚拟化、x86、无硬件传感器站点
Trace Agent Docker 容器 路径追踪、RTT、路径变化检测 把路径变化与性能变化关联 站点到云、站点到 SaaS、路径漂移排障
Throughput Agent Docker 容器 RFC 6349 / iPerf 兼容 TCP 吞吐测试 验证真实 TCP 体验 服务验收、吞吐投诉、云接入验证
Transfer Agent Docker 容器 HTTP/HTTPS/FTP/DNS/SSH/Telnet 等 L7 可达性和响应 从网络进入应用体验 SaaS、DNS、云服务、应用入口检测
PCA UE NCS540 容器或 x86 软件 流分析、应用分类、用户体验评分、每用户/应用/站点指标 不注入额外流量,观察真实用户流 移动网络、宽带、用户体验与传输健康关联
Telemetry Collector Telegraf-based 容器化采集器 IOS XE/XR 默认遥测、SNMP、gNMI、Kafka、API、CSV、OpenMetrics 与自定义数据源 把主动测量与被动遥测统一到同一保障平台 Cisco IOS-XR/XE、第三方设备、OSS/NMS、环境数据

精准定义:Assurance Sensor

Assurance Sensor 是 PCA 的测量端点,可由硬件 SFP、硬件 Module 或软件容器实现。 它可以主动生成测试流、反射测试流、进行服务激活测试、采集带宽微突发或分析真实用户流, 为 PCA 平台提供高质量性能数据。

为避免混淆,本文中 Sensor SFP / Module 指硬件传感器形态; Actuate、Trace、Throughput、Transfer Agent 指软件容器形态。 它们都是 PCA 测量端点,只是部署位置、精度和适用场景不同。

Sensor Agents 是容器化微服务测试代理, 通过 Sensor Collector 接收编排命令并回传测量指标;Sensor Control 则可集中管理大量硬件 SFP/Module 端点, 支持线速测试、服务激活测试、标准 OAM、PM,并维护端点同步信息以支撑高精度单向测量。

PCA 的传感器体系包括低足迹软件容器传感器、SFP/Module 硬件传感器、 以及 CPE/NID 形态传感器的能力,包括 TWAMP、Y.1731、RFC 2544、Y.1564、RFC 6349 和带宽计量。

精妙类比:不同传感器像不同医疗检查设备

听诊器适合快速判断心肺,心电图适合看心律,CT 适合看结构,血液检测适合看化学指标。 没有一种设备能覆盖所有问题。

PCA 也是这样:SFP 像贴身心电探头,Module 像完整体检仪, 软件 Agent 像便携检测包,Telemetry Collector 像读取既有病历。 组合起来,才是一套完整诊断体系。

第三个问题:PCA 平台的大脑如何把“数据”变成“洞察”?

数据本身没有价值,能解释业务影响的数据才有价值。 PCA 平台的核心是把来自传感器、设备、第三方系统和 OT 环境的多源数据统一采集、归一化、增强、 建模、关联和分析,最后形成仪表盘、告警、报告、预测和自动化事件。

1

Sensor Management

负责发现、配置和管理传感器,创建测量会话,控制测试任务和传感器生命周期。

2

Streamer

负责集中收集、归一化、元数据增强与数据输出,把不同来源的数据变成统一可分析格式。

3

Analytics

负责数据保留、告警、仪表盘、预测、异常检测、基线、聚类和模式识别。

PCA 平台框架可拆解为 Sensor Management、Streamer、Analytics, 并可在云端、本地或混合环境运行;25.07 版本将 Orchestrator 与 Analytics 合并为可用 Kubernetes 部署的通用平台,并强化 on-prem / air-gapped 部署和平台安全。

这个工作流可以进一步概括为三步: Instrument,在关键网络中部署硬件或软件传感器,生成主动或被动性能数据; Collect,通过 Sensor Collector、Telemetry Collector 等机制采集传感器、遥测和故障信息; Analyze,在 Analytics 中构建仪表盘、下钻排障,并把自动洞察作为告警或指标流输出到北向系统。

PCA 数据处理流程 数据从传感器、遥测和第三方来源进入收集器,经归一化、元数据增强、动态基线、异常检测和相关性分析后输出仪表盘、告警、报告与北向事件。 从原始 KPI 到可执行洞察:PCA 的数据旅程 真正的智能,不是采集更多数据,而是让数据在正确上下文中变成行动。 数据来源 PCA Sensors Telemetry 3rd-party PCA Analytics Pipeline 归一化 Normalize 元数据 Enrich 动态基线 Baseline 异常检测 Anomaly 关联与预测 Correlate 输出 告警 报告 自动化事件 输入是 KPI,输出必须是决策:谁受影响、为什么、下一步怎么做。

第四个问题:动态基线为什么比静态阈值更适合现代网络?

静态阈值看似简单:延迟超过 10ms 就告警,丢包超过 0.1% 就告警。 但真实网络并不这么简单。周一上午、周三晚上、月底批处理、产线换班、直播赛事、AI 训练窗口, “正常值”可能完全不同。 如果阈值太低,告警风暴;阈值太高,真正风险又被漏掉。

精准定义:动态基线

动态基线是利用机器学习和历史数据,自动学习某个监控对象在特定时间周期内的正常行为, 再将当前指标与该对象自己的正常行为进行比较。 它不是问“是否超过一个通用阈值”,而是问“是否偏离了它本该有的状态”。

PCA Analytics 会为每个被监控对象的每个指标维护基线, 基线是某个小时、某个星期内指标表现的多周滚动平均;部分材料用 6 周窗口作为计算示例。

从工程实现看,基线是监控数据的多周滚动平均, 默认粒度为 1 小时;系统会为每个被监控对象的每个指标维护基线,通常按“星期几的某个小时”比较; 默认保留 4 周基线数据,至少积累 1 周后才可用于图表。

精妙类比:不要拿短跑运动员和普通人同一套心率阈值

专业运动员静息心率可能很低,普通人心率略高也未必异常。 如果所有人都用同一个心率阈值判断健康,就会误报或漏报。

动态基线像给每个人建立自己的健康档案。 PCA 也是给每条服务、每个站点、每个 KPI 建立自己的“正常画像”。

静态阈值 vs 动态基线:从粗暴告警到智能判断
维度 静态阈值 动态基线 对运维的影响
判断方式 所有对象共用固定阈值 每个对象学习自己的正常行为 减少误报与漏报
时间敏感性 通常不理解日/周周期 可按小时、星期、滚动周期建模 更适合业务峰谷明显的网络
异常识别 超过阈值才告警 偏离正常模式即可提示 更早发现劣化趋势
告警质量 容易告警疲劳 结合模式与上下文降噪 NOC 更容易聚焦真正风险
业务解释 “超过某数字” “相对该服务此时段异常” 更容易向业务与管理层解释

第五个问题:PCA 如何定位根因,而不是只告诉你“有问题”?

根因定位的关键,不是看到一个红点,而是看到多个红点之间的共同模式。 如果多个客户服务同时在同一时间出现 P95 延迟升高,而它们共享同一个 PoP、同一条 SR 路径、 同一个 ECMP 成员、同一个工业交换机或同一个 Fabric,就能推断出更可能的退化点。

1

模式识别

PCA 在多个对象和 KPI 中寻找相似劣化模式,不只看单点指标。

2

聚类分析

将出现类似问题的服务或会话聚到一起,观察它们共享的路径、站点、客户、设备或元数据。

3

共同因子

结合元数据和遥测,找到最可能的共同退化点,再给出上下文丰富的告警或洞察。

在成百上千个监控会话中,PCA 能识别共同模式, 结合元数据寻找 coincidence,从而快速识别导致 packet loss 和 delay 的根因节点; 同时可基于正常行为计算基线并识别偏离。

PCA 通过模式识别与元数据定位根因 多个服务出现相似延迟和丢包模式,PCA 通过聚类、元数据和路径信息定位共同退化点。 根因不是一个红点,而是一组共同模式 PCA 将相似劣化服务聚类,再用元数据找出共同路径、共同站点或共同设备。 Service A P95 Delay ↑ Service B Packet Loss ↑ Service C Jitter ↑ PCA Pattern Clustering 相似波形 · 相同时间窗 共享元数据 · 路径关联 Telemetry / Fault 佐证 共同退化点 PoP-3 / Fabric A 队列拥塞 / 路径变化 用于根因定位的元数据 Customer · Site · SLA · CoS · Path · Region · Device · Support Team · OT Workcell

第六个问题:PCA 如何与 Splunk、NSO、CNC 等系统协同,而不是制造新孤岛?

一个好的保障平台,不应该要求客户推翻现有运维体系。 PCA 的策略是两条路并行: 一方面,它自己提供深度可视化、告警、报告和客户门户; 另一方面,它通过开放 API 和事件输出,把高价值洞察送给客户现有的 AIOps、Splunk、FM、NSO、CNC 等系统。

PCA 的北向集成:把洞察送到该行动的地方
集成对象 交互方式 典型用途 业务价值
Splunk / AIOps 事件、元数据、API,Splunk HTTP Event Collector(HEC)等 将 PCA 生成的洞察事件与应用、云、安全日志关联 统一可观测性,减少 Splunk 原始数据量,支持从 Splunk 下钻到 PCA
Fault Management 上下文丰富的 SLA 告警 把性能违规或风险作为事件交给 FM 管理 FM 不必接收大量 PM KPI,只接收高价值 SLA 事件
NSO 服务编排时同步创建保障,会话告警反馈 服务开通与保障开通同步完成 缩短上线时间,减少人工错误,保障成为服务生命周期一部分
CNC / Crosswork Provision Assurance、Send KPIs、Send Alerts 支撑服务健康与意图闭环 服务偏离 SLO 时可触发路径、带宽或策略动作
Routing Analytics BGP-LS 路径信息与 PCA PM 关联 关联 ECMP 路径变化与性能变化 从“性能变差”进一步定位到“路径为什么变了”
CDG / Kafka / REST / gRPC 数据流出、告警输出、API 集成 对接 OSS、数据湖、自动化系统、报表平台 融入现有流程,不强迫重建运维体系

精准定义:PCA 与 Splunk 的分工

Splunk 是跨域可观测性与安全数据聚合平台,擅长收集、索引、关联来自应用、云、日志和安全的数据。 PCA 是网络性能保障专家,擅长生成高精度网络性能数据、构建网络健康统计模型、 进行基线、预测、根因分析和服务级可视化。

Splunk 更像跨域可观测性平台,PCA 更像网络性能专家; PCA 可将低体量、高价值事件和元数据送入 Splunk,避免在 Splunk 中重做复杂网络性能分析。

Crosswork Assurance 与 Splunk Enterprise 的告警导出可使用 Splunk HTTP Event Collector(HEC)。 HEC 相比逐次 REST 请求更适合高频事件流,可在单个 HTTP 请求中处理多个事件,并支持基于 token 的认证; Splunk Enterprise 集成从 25.02 版本开始支持,标准 Alert Export 部署可处理最高约 2,000 条告警/分钟。

精妙类比:Splunk 是总指挥大厅,PCA 是网络专业雷达站

总指挥大厅需要看到全局战场态势,但它不一定自己生产每一种雷达信号。 专业雷达站负责发现、过滤、解释空中目标,再把重要事件发送给指挥大厅。

Splunk 聚合全局,PCA 深挖网络。两者结合,既有全局态势,又有网络专业细节。

PCA 与自动化闭环 PCA 持续测量网络实际状态,将 KPI 和告警发送给 NSO/CNC/Crosswork 等控制器,控制器根据服务意图执行路径、带宽或策略调整。 闭环自动化:从“发现问题”到“自动维持意图” PCA 提供反馈环,控制器提供执行能力。两者结合,网络才能主动保持服务目标。 The Network SR / SRv6 · L2/L3 VPN · WAN · OT Fabric · Data Center · Cloud PCA Measure · Analyze · Alert 服务实际状态 NSO / CNC Provision · Optimize · Act 服务目标状态 KPI / SLA / Anomaly Feedback Alerts Route / Path / BW / Policy 只有“测得准”,自动化才敢“动得稳”。

第七个问题:PCA 可以部署在哪里?SaaS、本地、气隙环境如何选择?

关键网络客户对部署形态的要求差异很大。 有的客户希望 SaaS 简单快速;有的客户出于数据主权、合规或安全要求必须本地部署; 还有军工、电力、关键基础设施等环境可能需要完全气隙。 PCA 的设计支持多种部署形态,让平台能力能进入不同安全等级的网络。

PCA 部署形态:按安全、合规与运维模式选择
部署形态 适合客户 优势 注意事项
SaaS 大多数服务提供商、企业、希望快速上线的团队 Cisco 托管,运维负担低,全球云区域,多租户效率 需评估数据出境、合规、安全连接等要求
On-Premises 金融、政府、大型企业、对数据主权敏感客户 部署在客户环境,可控性更强 本地部署通常需要结合项目条件、CX/Partner 支持和运维能力评估
Air-Gapped 军方、电力、关键基础设施、高安全隔离网络 完全隔离,满足高安全域要求 需重点评估平台安全、离线运维、地图/更新依赖和数据流边界
Hybrid 多域、多地区、部分业务上云、部分业务本地的客户 兼顾云端运营效率与本地敏感数据控制 需规划数据流、身份、权限、北向集成与安全边界

第八个问题:PCA 的典型应用场景有哪些?

PCA 的适用范围可以用一句话判断: 如果网络性能直接影响收入、安全、体验、产线或 SLA,这类场景就值得评估 PCA。 它覆盖服务提供商,也覆盖高性能企业和关键基础设施。

SP

B2B SLA 与客户门户

为企业客户提供实时 SLA 可视化、告警、性能报告和差异化服务。

5G

移动回传与 5G 就绪

测试不同 CoS、回传路径、RAN 共享与 5G 低延迟服务保障。

SR

SR / SRv6 网络保障

与 Routing Analytics、IPM 结合,关联路径变化、ECMP 与性能。

DCI

数据中心互联

监控跨 DC、云连接、关键应用路径延迟、丢包与吞吐。

OT

制造业 IT/OT 融合

关联 PLC、OEE、AGV 与网络指标,防止连接劣化导致停线。

电力与公用事业

保障 SCADA、GOOSE、Teleprotection 等超低延迟关键通信。

🎥

直播与媒体

对赛事、演播室、内容分发路径进行主动保障,降低传输风险。

AI

Networking for AI

关注 LLM 请求延迟、TTFT、Token 生成速率与网络性能关联。

典型用例覆盖汽车制造、公共部门、媒体直播、公用事业、业务服务、客户门户、 Hyperscaler、DC 网络、非地面网络等;AI WAN 性能测试和 LLM/Agent 与网络性能关联也是重要方向。

第九个问题:PCA 如何从“看见”升级到“预测”?

预测不是凭空算命,而是建立在足够高质量的历史数据、足够清晰的上下文和足够可靠的模式识别上。 PCA 的预测逻辑可以简化为: 持续测量 → 建立正常模型 → 识别偏离 → 找到共同因子 → 判断未来风险 → 触发行动。

从被动运维到预测保障:PCA 支撑的成熟度路径
阶段 典型状态 主要问题 PCA 提供的能力 业务结果
1. 混乱监控 工具孤岛、人工判断、告警噪声 看不清影响范围,MTTR 高 统一服务视角、传感器数据、基础仪表盘 减少盲区与跨团队扯皮
2. 反应式监控 静态 SLA、阈值告警、故障后排查 客户先发现,运维后响应 实时 SLA、上下文告警、服务报告 更快定位与举证
3. 主动监控 关注趋势、容量、业务影响 需要提前看到劣化 动态基线、异常检测、模式识别 在客户投诉前介入
4. 预测保障 AI 分析、闭环自动化、业务驱动 需要防止故障发生 预测 SLA 风险、北向集成、NSO/CNC 闭环 从“修复故障”走向“预防影响”

“Journey to Predictive Assurance” 的成熟度路径,可以理解为从 Chaotic、Reactive、Proactive 走向 Predictive:AI 需要高质量基础数据、元数据和业务上下文。

PCA 的真正价值,不是告诉你“网络发生了什么”,而是帮助你判断“这件事对业务意味着什么,以及下一步该怎么做”。

本章依据:方案组件、数据流与集成来自哪些资料?

本章主要依据 Provider Connectivity Assurance FAQ、FY26 Update、Cisco Crosswork Assurance TDM Deck, 以及 Crosswork Assurance Docs 中关于新名称、Instrument/Collect/Analyze、Sensor Collector、Telemetry Collector、Splunk HEC 和动态基线计算的说明。

本章的结论是:PCA 是一套从传感器到平台、从数据到洞察、从告警到自动化的完整保障体系。 下一章,我们把视角放到制造业,尤其是汽车制造: 当产线每停一小时损失 230 万美元,PCA 如何把微秒级可视化转化为真实商业价值?

Chapter 05 · 制造业价值

PCA 对制造业,尤其是汽车制造,到底带来什么价值?

制造业网络的特殊之处在于:它不是“办公网络慢一点”,而是“生产节拍断一下”。 一条汽车总装线、一个焊接机器人单元、一组 AGV 调度任务、一段 PLC 控制反馈环, 都依赖网络在正确时间内交付正确数据。 当停机成本达到每小时数百万美元时,网络可视化就不再是 IT 工具, 而是保护收入、质量与安全的生产系统。

第一个问题:为什么汽车工厂愿意为“几毫秒”投入预算?

因为在高度自动化的制造现场,“几毫秒”不是一个技术细节,而是一个生产结果。 机器人需要反馈,PLC 需要确定性,AGV 需要稳定连接,视觉检测需要及时决策。 如果网络只是慢了一点、抖了一下、丢了一小段包,就可能造成节拍中断、设备误动作、 质量检测失败或整线停摆。

精准定义:制造业中的网络 SLA

制造业网络 SLA,不只是“网络可用率 99.9%”。 它更强调实时性、稳定性、确定性和与工艺流程的匹配: 包括端到端延迟、抖动、丢包、路径切换能力、双 Fabric 健康、PLC 与 AGV 通信质量、 以及这些指标对 OEE、质量、性能和可用性的影响。

汽车制造案例明确指出:客户需要了解正常网络性能,以及在运行 Fabric A 与备用 Fabric B 上何时发生性能偏离, 需要以微秒精度监控,并主动将洞察发送到北向系统进行预防性修复。

精妙类比:工厂网络像装配线的神经反射

人的手碰到热锅,会在极短时间内把手缩回来。 如果神经传导慢半拍,伤害就已经发生。

工厂网络也是神经反射:传感器、PLC、机器人、AGV、视觉系统和边缘计算需要快速协同。 网络不是“后台管道”,而是生产动作的一部分。

$2.3M 汽车工厂每小时非计划停机损失,Siemens 2024 研究。
$38k+ 按每小时 230 万美元折算,每分钟损失约 38,333 美元。
µs 客户要求以微秒精度观察 Fabric A 与 Fabric B 的性能偏离。
OT+IT PCA 将网络性能与 PLC、OEE、AGV 指标关联,减少团队孤岛。
汽车制造中网络劣化如何传导为业务损失 网络微突发、抖动或丢包影响 PLC、AGV、机器人和质量检测,进而造成节拍下降、停线、收入损失和团队扯皮。 几毫秒如何变成几百万美元? 制造现场的网络劣化会沿着控制链路、生产节拍、质量与协作链路逐级放大。 网络微劣化 Latency / Jitter Packet Loss 控制异常 PLC timeout AGV 偏航 产线影响 节拍下降 质量波动 商业损失 $2.3M / hour 收入泄漏 PCA 的介入点 高分辨率测量 · OT/IT 指标关联 · 动态基线 · 北向告警 · 预防性修复 在“控制异常”变成“产线停摆”之前,让团队看到趋势、定位原因、触发行动。 在制造业,网络性能不是 IT 指标,而是生产指标。

第二个问题:汽车制造的 IT/OT 网络为什么最容易出现“看不见的劣化”?

制造现场的网络不是单纯的数据中心网络,也不是普通园区网。 它同时承载生产控制、机器人通信、AGV 调度、视频检测、质量数据、边缘计算、MES/ERP 接入、 远程维护和安全策略。 这些流量的优先级、时延容忍度、路径和责任团队都不同。

1

工艺强耦合

一个工位延迟,可能影响下一道工序; 一个 PLC 超时,可能迫使整条线停下来等待状态确认。

2

团队强割裂

IT 熟悉 IP、路由、QoS;OT 熟悉 PLC、OEE、工艺节拍。 两边看的是不同工具和不同语言。

3

故障强瞬态

真正造成影响的可能是短暂尖峰、微突发、瞬时电磁干扰或 QoS 配置偏差。 等工程师到现场时,问题已经消失。

汽车制造用例指出,导致停机的原因包括 IT Issues、Network Issues 以及 IT/WAN/OT Network Interdependencies; 其中网络问题包括性能劣化、不合适的 QoS 和高抖动。 这类环境需要更细粒度、预测性、主动的网络劣化监控。

精准定义:IT/OT 融合中的网络可观测性

IT/OT 融合中的网络可观测性,是指在统一视角下观察 IT 网络性能、OT 设备运行状态与生产业务指标之间的关系。 它不仅要看到延迟、丢包、抖动,还要能关联 PLC 可用性、OEE、AGV 状态、工位、产线和生产 KPI。

PCA 能通过为 IT 团队提供 OT 网络深度洞察来促进 IT/OT 融合, 并通过观察网络如何影响工业流程,减少 finger-pointing 和 guesswork。

精妙类比:IT/OT 融合像“医生和教练看同一份运动数据”

医生关心心率、血氧、血压;教练关心速度、步频、动作姿态。 如果两人各看各的数据,就很难解释运动员为什么状态下降。

PCA 像把心率、跑步速度、姿态、疲劳度放在同一张时间线上: IT 和 OT 第一次能基于同一个事实讨论问题,而不是互相猜测。

第三个问题:PCA 在汽车制造现场具体如何部署?

在汽车制造用例中,PCA 的设计重点不是“泛泛监控整个网络”,而是在最关键的控制链路上进行高精度测量: vPLC、低延迟 vSwitch、IE-3400、AGV、Fabric A、Fabric B。 这些位置正是生产控制、冗余切换和移动设备通信的关键路径。

汽车制造用例中的 PCA 关键部署点与测量对象
测量路径 为什么关键 监控指标 PCA 组件
vPLC ↔ Low Latency vSwitch 虚拟 PLC 与低延迟交换环境之间的控制路径 Max Delay、Packet Loss、Delay Variation Sensor Agent / Sensor SFP / Reflector
Low Latency vSwitch ↔ IE-3400 虚拟化控制环境到工业以太网交换机的连接 延迟、抖动、丢包、不同 CoS 表现 Sensor Module / SFP
vPLC ↔ IE-3400 控制逻辑到现场工业交换的端到端路径 服务路径健康与异常尖峰 PCA Sensors
IE-3400 ↔ AGV 自动导引车连接,影响物料运输与产线节拍 延迟、丢包、抖动、Wi-Fi/EMI/温度等关联指标 Sensor Module / SFP / OT Telemetry
Fabric A / Fabric B 运行路径与冗余路径都必须健康,否则切换时可能失败 两条 Fabric 的基线、偏离、趋势和 SLA 风险 PCA Sensors + Analytics
智能汽车工厂中的 PCA 部署架构 PCA 传感器部署在 vPLC、vSwitch、IE-3400、AGV 与双 Fabric 上,采集网络性能与 OT 指标,并将洞察发送到 PCA 平台和 Splunk。 汽车制造:把 IT 网络性能与 OT 生产指标放到同一张图上 PCA 在双 Fabric、工业交换机、vPLC、AGV 等关键位置进行高精度测量与关联。 Cisco PCA Baseline · Alert · Predict IT/OT Correlation & Insights Splunk / AIOps 聚合可观测与自动化 vPLC Sensor Agent AGV Wi-Fi / EMI / Temp Low Latency vSwitch Reflector / Sensor IE-3400 Sensor SFP / Module Fabric A Fabric B OT path 监控 Max Delay · Packet Loss · Delay Variation · CoS · OEE · Availability · Performance · Quality · AGV KPI

第四个问题:PCA 如何把网络指标与 OT 指标关联起来?

如果只看到网络延迟升高,你还不能证明它影响了生产; 如果只看到 OEE 下降,你也不能证明它是网络造成的。 制造业真正需要的是把两条曲线叠在一起: 网络性能曲线设备/工艺性能曲线。 PCA 的价值就在于把这两类数据放到同一时间线、同一模型和同一仪表盘中。

PCA 如何把 IT 网络 KPI 与 OT 生产 KPI 对齐?
数据类别 示例指标 为什么重要 关联后的问题回答
网络性能 KPI Max Delay、Packet Loss、Delay Variation、Jitter、CoS、路径变化 揭示连接质量是否发生劣化 网络是否在 PLC 超时前出现尖峰?
PLC / OEE 指标 Availability、Performance、Quality 揭示设备效率、产线性能和质量波动 OEE 下降是否与网络延迟/丢包同一时间发生?
AGV 指标 Wi-Fi、EMI、电流、振动、温度等 揭示移动设备运行环境和状态 AGV 偏航是否更可能来自 Wi-Fi/EMI 还是网络 Fabric?
元数据 工位、产线、设备、服务、班次、维护团队、Fabric A/B 让数据可以按业务维度聚合和定位 哪个工位、哪条产线、哪个班次、哪个 Fabric 受影响?

制造业用例明确说明:PCA 可摄取 OT 环境遥测,包括来自 PLC 的 OEE 指标 Availability、Performance、Quality,以及 AGV 运行数据/KPI,例如 Wi-Fi、EMI、电流、振动、温度等; 并与 PCA 采集的网络指标进行相关性分析,创建基线、阈值、趋势与 OT 基础设施指标。

第五个问题:PCA 对汽车制造的价值如何落到业务结果?

技术价值如果不能转化为业务语言,就很难获得管理层支持。 对汽车制造而言,PCA 的价值可以先归纳为几个管理层听得懂的结果: 少停机、快定位、少扯皮、稳节拍、可证明、会规划、验冗余、可审计。

01

防止收入泄漏

非计划停机每小时损失巨大。PCA 通过提前发现连接劣化,降低停线概率。

02

降低 MTTR

高分辨率数据、元数据和跨域关联帮助团队快速定位影响路径和共同原因。

03

促进 IT/OT 协作

同一套仪表盘同时呈现网络性能和 OT 指标,减少猜测和责任争论。

04

保障低延迟一致性

不只关注平均延迟,更关注 P95/P99、抖动、短暂尖峰和双 Fabric 健康。

05

支撑预防性维护

基线、趋势与异常检测使团队能在故障影响产线前采取行动。

06

优化投资与容量规划

用真实微突发和性能趋势指导 QoS、带宽、路径和边缘计算布局。

07

验证冗余路径

同时监控 Fabric A 与 Fabric B,避免备用链路只在切换时才暴露问题。

08

形成可审计证据

SLA、服务激活、历史性能和异常记录可作为供应商、内部团队和合规审计依据。

第六个问题:奥迪与迪士尼案例给制造业什么启示?

Audi Manufacturing 和 Disney Rides 这类非服务提供商场景说明: PCA 的价值不局限于运营商网络。 它们的共同点不是“都用了网络监控”,而是都把网络性能与现场控制系统性能关联起来。 这说明 PCA 的制造业价值不仅限于汽车,也适用于任何对实时控制、同步、可用性和安全敏感的场景。

从汽车制造到主题公园:PCA 对实时控制场景的共性价值
案例 部署方式 关联对象 核心价值
Audi Manufacturing 在交换机和 AGV 中部署硬件传感器;在虚拟 PLC compute 上部署软件传感器 L2/L3 网络遥测 + PLC 运营遥测 获得逐跳性能可视化,理解网络与应用性能关系
Disney Rides 在交换机和 PLC 中部署硬件传感器;在 DC/Cloud compute 上部署软件传感器 L2/L3 网络遥测 + PLC 运营遥测 对游乐设施实时控制网络进行性能保障,提前发现体验与安全风险

精准定义:制造业中的“逐跳性能可视化”

逐跳性能可视化,是指不仅看到端到端服务是否变差,还能沿着业务路径观察每一段、 每一跳、每个关键节点的性能表现,从而判断问题发生在控制端、交换路径、冗余 Fabric、 工业交换机还是终端设备附近。

在制造现场,逐跳性能可视化通常需要把交换机、AGV、PLC compute 等关键位置的传感器数据, 与 L2/L3 网络遥测和 PLC 运营遥测放到同一条时间线上。

精妙类比:端到端像看整条高速耗时,逐跳像看每个收费站排队

你知道从 A 城到 B 城用了 4 小时,但不知道慢在哪里。 如果能看到每个收费站、隧道、服务区的耗时,就能判断拥堵点。

制造网络也是如此:端到端指标告诉你“服务慢了”,逐跳指标告诉你“慢在哪里”。

第七个问题:制造业客户应该如何从 PoC 开始,而不是一上来全网铺开?

最好的起点不是“全网监控”,而是选择一个高价值、高风险、可度量的生产场景。 例如:一条经常出现偶发停顿的 AGV 路径、一组对低延迟敏感的 PLC 控制链路、 一段 Fabric A/B 冗余路径、或一条停线成本最高的关键产线。

制造业 PCA PoC 推荐路径:从一个高价值场景开始
阶段 目标 建议动作 成功标准
1. 选择场景 找到“停一秒都心痛”的业务 选择关键产线、AGV 路径、PLC 控制环或双 Fabric 冗余链路 业务影响明确,可量化停机成本或质量影响
2. 部署传感器 建立高精度测量 在 vPLC、vSwitch、IE-3400、AGV 或关键交换路径部署 SFP/Module/Agent 能获得 Max Delay、Packet Loss、Delay Variation、CoS 等 KPI
3. 接入 OT 数据 把网络与生产指标对齐 摄取 OEE、PLC、AGV、Wi-Fi、EMI、温度等指标 可在同一时间线观察网络与生产事件
4. 建立基线 理解“正常”是什么 运行数周,建立不同班次、时段、业务负载下的性能基线 可识别偏离正常模式的异常
5. 输出告警 进入主动运维 将上下文丰富的告警发送到 Splunk、AIOps、工单或自动化系统 在业务投诉前发现并处置至少一类劣化
6. 扩展闭环 从 PoC 走向规模化 扩展到更多产线、Fabric、工厂和运维流程 形成可复制方法论,支撑 SLA 持续提升
制造业 PCA PoC 到规模化路线图 从关键场景选择、传感器部署、OT 数据接入、基线建立、主动告警到规模化闭环的六阶段路线图。 从一个高价值 PoC 开始,逐步复制成工厂级保障体系 不要先追求全网覆盖,先证明一个关键场景的停机风险可以被提前看见。 1 选场景 关键产线 2 部署 Sensor 3 接 OT PLC / OEE 4 基线 正常画像 5 告警 Splunk / 工单 6 扩展 多产线闭环 PoC 的目标不是“安装工具”,而是证明“网络劣化可以在停线前被发现”。
制造业客户向管理层汇报时,可以如何一句话说明 PCA 的 ROI?

可以使用以下表达:

PCA 的 ROI 不来自“多一个监控界面”,而来自“少一次停线、少一次跨团队扯皮、少一次错误扩容、早一次发现劣化”。 对汽车制造而言,如果能提前避免一次小时级停机,按每小时 230 万美元损失计算,投资回报测算就有清晰锚点。

更结构化地说,可以从三类收益衡量:

  • 避免损失:减少非计划停机、降低产线中断概率、减少质量波动。
  • 提升效率:降低 MTTI/MTTR,减少 IT/OT 会议排查时间,减少 truck-roll。
  • 优化投资:基于真实微突发、CoS 和路径数据做容量、QoS、Fabric、边缘计算投资决策。

在汽车制造业,网络不是成本中心;它是生产节拍、质量稳定和收入连续性的隐形发动机。

本章依据:制造业场景与 ROI 判断来自哪些资料?

本章主要依据 Car Manufacturing Use Case、FY26 Update, 以及 Crosswork Assurance / PCA 资料中关于 Audi Manufacturing、Disney Rides、OT 遥测、OEE、AGV、Fabric A/B 和高精度传感器部署的说明。

本章的结论是:PCA 对制造业的价值,不是把网络图画得更漂亮, 而是让那些过去看不见、说不清、复现不了的网络微劣化,被看见、被关联、被预测、被预防。 当工厂停机以秒计费时,微秒级可视化就是商业级保护。

Epilogue · 总结回环

回到开篇:你的网络,正在用什么精度定义未来?

我们从一个问题开始:当停机以秒计费,你的网络还在用分钟看世界吗? 现在答案已经清晰:网络运维的未来,不是再多几个红绿灯, 而是建立一套能持续测量、理解、预测并触发行动的服务保障体系。

Why

为什么需要 PCA?

因为现代业务已经无法容忍“看起来正常但体验受损”的监控盲区。 慢、抖、丢,已经是新的宕机。

What

PCA 是什么?

它是 Cisco 的云原生性能保障平台,通过主动测量、传感器、遥测、AI 分析和开放集成, 提供端到端服务保障。

How

它如何工作?

用硬件/软件传感器采集高精度 KPI,用元数据赋予业务上下文, 用 AI 建立基线、识别异常并输出行动洞察。

Value

价值在哪里?

对制造业是预防停线,对运营商是 SLA 变现,对关键网络是业务连续性, 对 AI 是性能可预测性。

全文核心结论:从被动救火到主动保障
过去的问题 PCA 的回答 最终结果
分钟级平均掩盖微突发 高分辨率采样、微秒级硬件时间戳、秒级报告 看见真实体验,而不是平均值幻觉
设备中心无法说明业务影响 服务中心视角、元数据、客户/站点/SLA 关联 回答谁受影响、影响多大、是否违约
告警太多但洞察太少 动态基线、异常检测、模式识别、预测分析 降噪、定位、提前预警
IT/OT 各看各的数据 网络 KPI 与 PLC、OEE、AGV 指标关联 减少猜测和扯皮,提升协同效率
监控无法触发行动 开放 API、Splunk、FM、NSO、CNC、Crosswork 集成 形成检测—决策—执行闭环

精度决定真相,真相决定行动,行动决定业务连续性。

给网络运维负责人的三句话

1

精度即真相

分钟级平均值是被抹平的故事。要理解现代网络,必须看到秒级、毫秒级甚至微秒级的真实波动。

2

服务即业务

不要只问设备是否健康,要问服务是否达标、客户是否受影响、SLA 是否有风险。

3

预测即护城河

能在客户投诉前发现劣化、在停线前触发处置的团队,才是真正的主动运维团队。

建议的下一步行动

  1. 选择一个高价值场景: 例如关键产线、AGV 路径、低延迟 PLC 控制链路、数据中心互联或金牌客户 SLA。
  2. 部署最小可行传感器组合: 结合 Sensor SFP、Module、Software Agent 或现有 TWAMP/IP SLA 反射能力,先建立高质量测量。
  3. 引入业务元数据: 把站点、服务、SLA、工位、产线、客户、Fabric A/B 等上下文纳入模型。
  4. 建立基线与告警: 运行一段时间学习正常模式,再设置动态告警、异常检测和北向事件输出。
  5. 连接现有运维体系: 将 PCA 洞察发送至 Splunk、AIOps、FM、NSO、CNC 或工单系统,逐步形成闭环。
Appendix · Glossary

完整术语表:把复杂概念变成共同语言

术语不是为了显得专业,而是为了减少误解。 以下术语表按本文出现的关键概念整理,每个概念都给出中文解释与理解提示,便于网络、业务、OT 与管理团队形成共同认知。

Glossary|Cisco PCA 关键术语
术语 英文全称 定义 通俗理解
AGV Automated Guided Vehicle 自动导引车,工厂中用于自动运输物料的移动设备。 像工厂里的无人搬运工,对网络连接稳定性高度敏感。
AIOps Artificial Intelligence for IT Operations 使用 AI/ML 提升 IT 运维效率的方法,包括降噪、关联、预测和自动化。 像给运维团队配一个会筛选重点的智能助理。
Air-Gapped 气隙隔离部署,系统与外部网络完全隔离。 像把关键系统放进没有门窗的保险库。
Baseline 正常行为基线,用于判断当前指标是否偏离正常模式。 像每个人自己的健康档案,而不是所有人共用一个标准。
BGP-LS BGP Link-State 用于把网络拓扑和链路状态信息传递给控制器或分析系统的协议扩展。 像把城市道路地图实时交给交通指挥中心。
CIR / EIR Committed / Excess Information Rate 承诺信息速率 / 超额信息速率,是以太网服务带宽承诺的关键指标。 CIR 是保底带宽,EIR 是有条件可用的额外带宽。
CNC Crosswork Network Controller Cisco Crosswork 网络控制器,用于服务编排、意图驱动和自动化控制。 像网络的方向盘和执行机构。
Crosswork Assurance Cisco Crosswork Assurance Cisco Provider Connectivity Assurance 的最新官方名称,面向关键网络的 AI Ops 性能保障方案。 PCA 的新名称,强调纳入 Cisco Crosswork 体系。
CoS / DSCP Class of Service / Differentiated Services Code Point L2/L3 的流量优先级标记,用于区分业务等级。 像高速公路的应急车道、普通车道和货车车道。
DCI Data Center Interconnect 数据中心互联,连接不同数据中心的网络服务。 像城市之间的高速铁路,延迟和可靠性都很关键。
Dynamic Baseline 动态基线,基于历史行为自动学习正常状态并识别偏离。 不是固定红线,而是“你自己平时应该是什么样”。
ECMP Equal-Cost Multi-Path 等价多路径,同一目的地有多条成本相同路径,流量分散转发。 像去同一地点有多条同样推荐的路。
ETH-OAM / Y.1731 Ethernet Operations, Administration and Maintenance 以太网层运维管理标准,用于 L2 连通性和性能测量。 L2 网络的专用听诊器。
Fabric A / B 制造或数据中心网络中的主路径与备份路径。 像生产线的主电源和备用电源,都必须持续健康。
FPGA Field-Programmable Gate Array 现场可编程门阵列,PCA 硬件传感器可利用其进行高精度测量。 像把计时器直接嵌入赛道,而不是让人手按秒表。
GOOSE Generic Object-Oriented Substation Event IEC 61850 中用于电力变电站事件通信的 L2 协议。 电力保护系统的高速报警信号。
HEC HTTP Event Collector Splunk 的事件摄取机制,可通过 HTTP 接收带 token 认证的事件流。 把 PCA 高价值告警送进 Splunk 的高速入口。
IP SLA IP Service Level Agreement Cisco 设备内置的网络性能测量能力,可用于延迟、抖动等测试。 设备自带的基础测量工具。
IPM Integrated Performance Measurement Cisco Silicon One 平台内置的性能测量能力,可测量 ECMP 路径的延迟、丢包和 liveness。 让网络芯片自己成为测量仪器。
Jitter 抖动,指延迟变化程度。 不是车速慢,而是忽快忽慢;对语音、视频、控制系统很致命。
KPI Key Performance Indicator 关键性能指标,例如延迟、丢包、抖动、P95、P99 等。 衡量服务健康的体检指标。
Metadata 元数据,用于描述数据背景的信息,如客户、站点、SLA、服务类型。 让数字会说话的标签。
MOS / R-value Mean Opinion Score / R-value 语音体验质量评价指标。 把网络指标翻译成“通话听起来好不好”。
MTTI / MTTR Mean Time To Identify / Repair 平均识别时间 / 平均修复时间。 发现问题要多久,修好问题要多久。
NSO Network Services Orchestrator Cisco 网络服务编排器,用于跨厂商服务自动化部署。 像网络服务的自动施工队。
OEE Overall Equipment Effectiveness 总设备效率,通常由 Availability、Performance、Quality 构成。 衡量一台设备或一条产线到底有没有高效生产。
OT / IT Operational Technology / Information Technology OT 指工业控制与生产系统;IT 指信息系统、数据中心、办公和网络系统。 OT 管产线动作,IT 管数字连接;现代工厂二者必须协同。
P25 / P50 / P95 / P99 Percentile 百分位指标,用于描述性能分布,例如 P95 表示 95% 样本低于该值。 比平均值更能反映尾部体验和最差体验。
PCA Provider Connectivity Assurance Cisco 性能保障平台,提供主动测量、传感器、遥测关联、AI 分析、报告、告警和集成能力。 网络服务的高精度体检、预警和指挥系统。
PCA UE PCA User Experience PCA 用户体验能力,通过流分析理解每用户、每应用、每站点体验。 不只看路是否通,还看乘客是否舒服。
PLC Programmable Logic Controller 可编程逻辑控制器,工业自动化控制核心设备。 工厂动作的现场大脑。
PM Performance Monitoring 性能监控,关注延迟、丢包、抖动等服务质量指标。 不只看设备活着,还看服务跑得好不好。
QoE Quality of Experience 用户体验质量,反映最终用户真实感受。 QoS 是路的参数,QoE 是乘客的感受。
QoS Quality of Service 服务质量机制,用于区分和保障不同优先级流量。 像高速路上给救护车优先通行。
RAG Retrieval-Augmented Generation 检索增强生成,LLM 应用先检索资料再生成答案。 像先查资料再写报告的 AI 助理。
RFC 2544 网络设备和链路性能基准测试标准。 网络链路交付前的基础体检。
RFC 5357 TWAMP 双向主动测量协议标准。 IP 网络性能测量的普通话。
RFC 6349 TCP Throughput Testing TCP 吞吐量测试框架。 验证应用真实能跑多快,而不只是链路标称多快。
SAT Service Activation Testing 服务激活测试,在服务开通时验证是否满足 SLA。 网络服务的出生证。
SCADA Supervisory Control and Data Acquisition 监控与数据采集系统,广泛用于工业和电力系统。 工业现场的中央监控神经系统。
SFP / SFP+ Small Form-factor Pluggable 小型可插拔光模块,PCA 可将传感能力集成在 SFP 形态中。 看起来像光模块,里面却藏着高精度测量仪。
Sensor Capture Crosswork Assurance Sensor Capture 结合合成测试与流量型监控的能力,用于观察真实用户体验、应用事务、网络 QoS 和微突发等。 既看巡逻车探测,也看真实车辆行驶记录。
Sensor Collector 靠近测量数据源运行的采集组件,负责在 Sensor Agent / Sensor 与 Crosswork Assurance 平台之间传递管理命令和测量指标。 传感器和平台之间的安全汇聚站。
Sensor Control 用于集中控制 Assurance SFP / Module 等硬件端点的组件,可管理大量 PM 会话并支撑高精度单向测量。 硬件传感器集群的远程调度中心。
SLA / SLO Service Level Agreement / Objective 服务等级协议 / 服务目标,用于定义服务承诺和目标。 SLA 是合同承诺,SLO 是内部目标。
SR / SRv6 Segment Routing / Segment Routing over IPv6 段路由及其 IPv6 形态,用于简化网络路径控制和服务编排。 像给数据包写好一串导航指令。
STAMP Simple Two-way Active Measurement Protocol 简化的双向主动测量协议,常与新一代性能测量能力相关。 TWAMP 思路的简化演进。
Telemetry 遥测,设备持续推送或被拉取的状态与性能数据。 设备自动上报自己的身体状态。
Teleprotection 电力远动保护通信,对超低延迟和高可靠要求极高。 电网故障时的极速保护信号。
TTFT Time To First Token 大模型收到请求后返回第一个 token 的时间。 你问 AI 后,它“开口说第一个字”要多久。
TWAMP Two-Way Active Measurement Protocol IP 层主动性能测量协议,用于测延迟、抖动、丢包等。 网络回声测距。
Y.1564 以太网服务激活测试标准,适合多服务、多 QoS 验证。 运营级网络服务交付验收表。
Y.1731 以太网 OAM 标准,用于 L2 性能与故障管理。 L2 以太网服务的听诊器。

白皮书到这里闭环:PCA 的核心不是“看更多图”,而是把网络从被动故障对象, 变成可测量、可证明、可预测、可自动化保障的业务能力。