从 Token 到 Transformer,从 RAG 到 Agentic AI,从 GPU 到数据中心网络——一份将复杂 AI 技术栈可视化的交互式认知地图。
Token(令牌)是大语言模型处理文本的最基本单位。LLM 无法直接"阅读"人类文字,输入前必须经过 Token化(Tokenization)过程,将文本切分为不可再分的微小单元:可以是一个字、一个词、一个词根(subword)甚至单个字符。
Token 被转换为数字 ID 后,通过嵌入层(Embedding Layer)转化为包含多维语义特征的高维数字向量。语义关联被转化为数学空间中的几何距离——含义越接近,向量距离越短。这为注意力机制计算奠定了基础。
专门用于高效存储、管理和查询高维向量表示的数据库。与传统数据库的精确关键字匹配不同,向量数据库支持"语义相似性搜索"——通过计算余弦相似度等距离度量,找出含义最接近的文档片段。这是 RAG 技术的关键基座。
随着参数量和训练数据量的急剧扩大,大模型展现出惊人的"涌现能力"——不仅能完成翻译、摘要等基础任务,还能进行逻辑推理与上下文学习(In-context Learning)。这标志着 AI 从"模式匹配"到"类认知推理"的质变。LLM 本质上就是一个规模庞大到极致的深度神经网络(绝大多数基于 Transformer 架构),其"参数"即为所有神经元之间连接的权重和偏差总和。
目前几乎所有主流 LLM(GPT 系列、Gemini、LLaMA 等)都基于 Transformer 架构。其核心灵魂在于自注意力机制(Self-Attention):模型在处理当前 Token 时,并行计算输入序列中所有其他 Token 的权重,从而精准捕捉长距离依赖关系和深层上下文语境。
现代生成式模型大多采用仅解码器(Decoder-only)架构,通过自回归方式根据前文不断计算词表中所有词的概率分布,进而预测下一个最可能的 Token。
收集互联网海量数据,去重、过滤有害/偏见内容、隐私脱敏
"预测下一个词"目标函数,在海量文本上获取广泛的"世界知识"
使用高质量"指令-输出"对话,让模型学会遵从人类命令
基于人类反馈的强化学习,引导生成"有用、诚实、无害"的内容
屏幕上"打字机效果"不是刻意延迟,而是模型底层数学原理的真实体现——每一次光标闪烁的背后,是 Kubernetes 调度 → CUDA 指挥 GPU 核心执行矩阵乘法 → NCCL 驱动数据在 NVLink 上穿梭同步的完整链路。
分词器将文本切分为 Token 并转换为数字 ID
并行处理所有输入 Token,生成 KV Cache
自回归循环,每次预测 1 个 Token → TTFT / ITL
CUDA 矩阵乘法 + NCCL AllGather + NVLink 传输
数字 ID 转回人类可读文本并流式呈现
从计算机视角看,LLM 本质上是一个巨大的数据文件,主要包含:
使用 16位浮点数(FP16/BF16)时,每个参数占 2 字节。一个 1200亿参数(120B)的模型约 240 GB。为在显存有限的设备运行,可进行量化(Quantization)——压缩至 8位(INT8)甚至 4位格式以缩小体积。
| 类别 | 基准 | 测试内容 |
|---|---|---|
| 综合能力 | MMLU | 57 学科广泛世界知识与问题解决 |
| GLUE / SuperGLUE | 核心自然语言理解能力集合 | |
| 数学推理 | GSM8K / MATH | 小学到高中的数学推理 |
| 代码生成 | HumanEval / MBPP | 根据描述编写正确代码 (Pass@1) |
| 生成质量 | BLEU / ROUGE / BERTScore | 开放式生成任务准确度 |
LLM 存在致命弱点:容易产生"幻觉(Hallucination)"、知识冻结于训练截止日期无法实时更新、且无法访问企业内部私有数据。RAG 通过将 LLM 的内在参数化知识与外部动态知识库结合,完美弥补了这一缺陷。
经典的单循环"检索-阅读"管线:文档切块 → 嵌入向量化 → 向量数据库存储 → 用户查询向量化 → 余弦相似度召回 Top-K → 拼接 Prompt → LLM 生成。对简单关键词问答有效,但面对跨文档、多跳推理时容易召回大量无关噪音。
在检索前后引入优化层:查询重写(Query Rewrite)修正歧义 → 多阶段混合检索(稀疏 + 稠密) → 重排模型(Reranker)二次过滤排序 → 上下文自动合并与剪裁。显著提高了复杂场景下的检索精度。
2026 年代表行业最高水平。以 LLM 为中央推理引擎(ReAct 框架),彻底打破线性逻辑:自主分解子任务 → 动态调用工具(向量库 / 网络搜索 / SQL / 计算器) → 自我评估信息完整性 → 规划新检索策略 → 综合输出。引入 Mem0 等持久记忆层实现跨会话深度上下文。
所有回答必须且只能基于用户上传的参考资料,并提供精确到特定段落的引用(Inline citations)。
评价 RAG 必须将检索质量与生成质量剥离审视。RAGAS 框架开创了无参考评估的先河:
四项关键抗压能力:噪音鲁棒性(不被无关文档干扰)、拒绝能力(主动承认"我不知道")、信息整合能力(从多份文档综合回答)、反事实鲁棒性(识别并忽略文档中的已知错误)。
CRAG (Meta):即使最先进的 LLM 直接回答准确率仅 34%,标准 RAG 也仅提升至 44%。LegalBench-RAG 更揭示了一个颠覆性洞见:在高度专业的 RAG 部署中,信息检索的质量才是决定系统性能天花板的首要驱动力,而非 LLM 本身的推理能力。使用领域微调的嵌入模型比通用顶级 LLM 配普通嵌入高出约 17 个百分点。绝大多数被归咎于"大模型幻觉"的致命错误,其根本原因实际上是第一阶段检索系统的失败。这一结论在 2026 年彻底改变了企业的资源分配策略。
如果说 NotebookLM 和 Agentic RAG 是人类数字知识与文本逻辑的认知引擎,那么 AI 的下一个大航海时代必然是走向三维空间——构建理解并能改造现实世界的"物理人工智能"。自动驾驶、人形机器人和复杂工业自动化需要 AI 对重力、光影、物体恒存性和时空因果关系具备深刻直觉。
Cosmos 并非单一模型,而是一个为开发者打造的全栈数据处理与生成的完整生态系统。
世界生成与状态预测。40亿~140亿参数的自回归基础模型(基于 9000 亿 Token 训练)。输入当前环境状态(图像/雷达/传感器),精准预测未来长达 30 秒的动态演化视频。自动驾驶系统可在"脑海"中推演避让策略的连带反应。
跨模态转换,弥合 Sim-to-Real Gap。基于扩散架构,将 3D 仿真引擎的"卡通"渲染瞬间转换为符合现实世界光影、纹理甚至镜头畸变的照片级真实视频。可命令系统衍生"暴雨中的黄昏"等环境变体,实现合成数据的几何级扩增。
物理常识与逻辑推理。专门针对物理世界常识优化的大模型,让机器人和视觉分析智能体能够像人类一样通过长链思维(Chain-of-thought)理解复杂环境中的因果逻辑,并做出符合物理规律的决策判断。
Cosmos 的生成目标不是为了制作艺术美感的超高清娱乐视频。其核心价值在于对物理定律的绝对忠实——3D 空间一致性、物体恒存性(Object Permanence)和复杂物理交互对齐度。这才是训练安全可靠的具身智能所必需的"教材"。到 2026 年,Waabi、Wayve、波士顿动力、LG 等行业巨头已深度整合 Cosmos 与 Omniverse/GR00T 平台。
把"训练 LLM"比作"阅读全世界所有的书并总结出人类知识规律"——传统 CPU 像是一位博士每次只能一页一页看书,而 GPU 集群则是拥有几万名超级速读助手的"超级工厂"。
GPU 之间直接通过专用"立交桥"相连,带宽高达 1.8 TB/s,彻底绕开 CPU 瓶颈。配合 NVSwitch 让几十上百个 GPU 共享内存,如同大脑融为一体。
InfiniBand 或 RoCEv2 技术让一台机器的 GPU 直接跨网线读写另一台 GPU 内存,完全不经过 CPU 或操作系统——实现"零拷贝"超低延迟。
NVIDIA 集合通信库,自动为几万个 GPU 规划最高效的数据交换路线(环形/树形拓扑),确保全网数据流动最快最不拥堵。
让网络交换机芯片拥有计算能力——GPU 发到交换机的数据在传输途中就顺手完成汇总计算(All-Reduce),网络传输负担直接减半。
72 颗 Blackwell Ultra GPU + 36 颗 Grace CPU 紧密耦合在一个液冷机架中。9 台物理 NVLink 交换机将 72 颗 GPU 完全无阻塞连接,聚合带宽达 130 TB/s,共享 37 TB 超级统一内存池(含 HBM3e 与 CPU 内存)。在这 72 颗 GPU 之间传输模型分片和对齐梯度的速度与在同一芯片内部几乎没有区别。
每生成一百万个推理 Token 的成本骤降达 35 倍。这种成本坍塌正是支撑未来数以百亿计的全天候 AI 智能体在云端上神不知鬼不觉地运作、而不会引发企业 IT 预算崩溃的核心物质基础。
核心生产线。GPU 由成千上万个微小核心组成,擅长并行矩阵乘法。单节点通常塞入 8 张顶级 GPU,通过 NVLink 融合为超级大脑。
严格分工的物流系统:后端网络(GPU↔GPU 集合通信专网,无损/超高带宽)、前端网络(连接外部世界)、存储网络(数据高速输送通道)。
全闪存 NVMe 并行文件系统(WEKA / VAST / DDN),支持海量并发读写,防止 GPU "等米下锅"。训练过程中高频的 Checkpoint 写入会产生极高的突发写入洪峰。
Kubernetes + Run:ai 将整个数据中心"池化"为灵活资源池。CUDA 唤醒 GPU 执行并行计算,NCCL 优化多 GPU 间通信路径。推理阶段 K8s 可自动扩缩容并将一张物理 GPU 切碎为多个 Fractional GPU 以最大化 ROI。
| 维度 | 训练(Training) | 推理(Inference) |
|---|---|---|
| 模式 | 离线批处理,高度同步 | 在线实时响应,非同步 |
| 并行方式 | 数据并行 + 张量并行 + 流水线并行 | 多数可在单节点内完成(8 GPU NVLink) |
| 核心操作 | 计算→交换→规约循环(All-Reduce) | Prefill + 自回归 Decode(KV Cache 密集) |
| 瓶颈 | 网络带宽 + 尾部延迟(木桶效应) | 显存容量(KV Cache)+ 首字延迟(TTFT) |
| 核心指标 | 任务完成时间(JCT)、扩展效率 | TTFT、ITL、吞吐量、并发用户数 |
| 维度 | 训练(Training) | 推理(Inference) |
|---|---|---|
| 同步性 | 高度同步的"计算-交换-规约"循环,木桶效应 | 非同步、实时响应 |
| 东西向网络 | 无损、极高带宽(400G/800G per GPU)、RDMA、逐包负载均衡 | 超低延迟(微秒级),小包 Token 传输敏感 |
| 南北向网络 | 极高吞吐用于数据摄取和 Checkpoint 读写;严格 QoS 优先级 | 接收用户 Prompt、连接向量数据库(RAG)、负载均衡、高可用 |
| 核心指标 | 任务完成时间(JCT)、扩展效率 | 首字延迟(TTFT)、吞吐量、并发用户数 |
RoCEv2 继承了传统以太网的两个致命缺陷:
| 特性 | RoCEv2 | InfiniBand | UEC 1.0 |
|---|---|---|---|
| 网络模型 | 以太网上模拟无损 | 原生无损网络 | 尽力而为以太网 + 端侧保障 |
| 拥塞控制 | PFC + ECN (DCQCN) | 信用流控 + CCA (FECN/BECN) | Packet Trimming + 端到端 UET-CC |
| 负载均衡 | ECMP(按 Flow 哈希) | 自适应路由(子网管理器) | 逐包喷洒(Per-packet Spraying) |
| 乱序容忍 | ❌ 灾难性(Go-Back-N 重传) | ❌ 严格按序 | ✅ DDP 直接内存放置 |
| 状态管理 | 基于连接(QP),线性膨胀 | 基于连接(QP) | 无连接(libfabric API),不随集群扩大 |
| 生态 | 开放但调优复杂 | 单一厂商主导,闭环生态 | 多厂商开放标准(Cisco/Broadcom/AMD…) |
| 网内计算 | ❌ | ✅ SHARP | ✅ INC (In-Network Collectives) |
UEC 的核心设计哲学:"利用端侧(NIC)极度丰富的计算能力,换取中间交换机网络架构的极致简洁与高速运转"。放弃对绝对无损环境的强行依赖,引入全新的超以太网传输协议(UET)。
SuperNIC 在逐个数据包层面进行动态路由决策,将庞大 AI 消息的海量数据包均匀"喷洒"到所有等价路径上。完美打散"大象流",确保每根线缆利用率达 100% 绝对均衡,彻底消除哈希冲突造成的网络热点。
每个被喷洒的数据包都携带目标 GPU 物理内存地址标签(Memory Tags)。乱序到达的数据包如散弹一样到达接收端网卡时,无需在缓冲区等待重组——网卡硬件直接将 Payload 精准放置到正确内存位置。对上层 NCCL 等通信库完全透明。
当微突发导致交换机缓存溢出时,不直接丢弃整个数据包,而是"裁剪"掉大载荷,仅保留微小报头(Header)快速转发给接收端。实现微秒级丢包检测与精确微量重传,而不影响大局吞吐。
支持 INC 的交换机 ASIC 在传输数据的过程中顺手完成 AI 梯度数据的聚合计算(如 All-Reduce 求和),将节点间需要跨网络传输的原始数据量削减一半以上,最大加速超大规模集群的同步循环。
| 方案 | 粒度 | 乱序风险 | 均衡度 |
|---|---|---|---|
| Static ECMP | Per-Flow(五元组哈希) | 无 | 差(大象流冲突) |
| Enhanced ECMP / QP Scaling | Per-Flow(扩展 QP/BTH 哈希因子) | 无 | 中 |
| Flowlet DLB | Per-Flowlet(流片段) | 极低 | 高 |
| Packet Spraying (UEC) | Per-Packet(逐包) | 高(DDP 解决) | 极致(100% 链路利用) |
| Centralized TE | Per-Flow(中央控制器下发) | 无 | 高(但有控制面延迟) |
| Global LB (GLB) | Per-Flow(感知下一跳/下下一跳拥塞) | 无 | 高(宏观避开深层热点) |
凭借其高度特裁的多厂商生态、消除供应商锁定风险的开放性,以及天然兼容现存数据中心协议的巨大优势,超以太网正势不可挡地成为支撑未来万亿参数集群扩展的核心网络骨干。随着 Broadcom、AMD 等厂商开始量产基于该规范的高速网络交换芯片与网卡,加之 400G/Lane 和共封装光学(CPO)等物理层技术的突破,UEC 架构正在快速拉平以太网与 InfiniBand 之间在无损传输和最低延迟上的鸿沟。
2026 年的人工智能生态系统已展现出前所未有的垂直整合深度。从最高应用层看,如 Google NotebookLM 这样基于 Agentic RAG 架构的系统,正在将 AI 的角色从被动的"信息总结器"转化为具备多模态交互、自主执行链式研究以及微型应用生成的"认知控制中枢"。支撑这种知识跃迁的,是底层针对最小精确段落检索而优化的先进检索管道——正如 LegalBench-RAG 和 CRAG 基准测试所深刻揭示的那样,高质量的检索与严肃的评估体系是消除机器幻觉、构建可信企业级 AI 的唯一步径。
在认知维度跨入物理世界边界的进程中,NVIDIA Cosmos 拓展了 AI 理解时空与因果关系的深度,一举打破了自动驾驶与具身智能落地进程中的合成数据壁垒。而所有这些从文本逻辑到现实物理的算法级创新,最终都汇聚为对底层算力和信息输送网络的极端渴求。NVIDIA GB300 NVL72 系统通过突破性的 NVFP4 张量节点与 NVLink 5 铜缆立交桥的极致软硬协同,实现了惊人的 50 倍 AI 工厂推理产出飞跃,打破了大规模智能体部署的成本屏障。同时,在跨越数据中心机架互联的宏观层面,超以太网联盟(UEC 1.0)通过全新的无连接 API、逐包喷洒与直接内存放置(DDP)技术,彻底重塑了海量高带宽 AI 流量的拥塞控制范式,铸就了支撑数百万个端点无缝横向扩展的无阻塞大动脉。
综上所述,当代人工智能的发展早已不再是单纯追求大模型参数规模的线性游戏。正是这种从逻辑算法机制、物理仿真评估,下探至硅的高带宽内存互联,再延伸至开放以太网通讯协议的自上而下、全链路无缝嵌合的系统级工程创新,共同铸就了新一代 AI 的持续迭代与坚实基石。