AI 安全威胁建模教程：NIST AML、MITRE ATLAS 与 OWASP

Q: 这篇文章适合谁读？

这篇文章适合想用 专业 难度理解“AI 安全威胁建模：用 NIST AML、MITRE ATLAS 和 OWASP 建立攻防地图”的读者，预计阅读时间约 12 分钟，重点覆盖 AI Security, Threat Modeling, NIST, MITRE ATLAS。

阅读信息

难度: 专业阅读时间: 12 分钟

AI Security
Threat Modeling
NIST
MITRE ATLAS
OWASP

打开知识图谱

中文

AI 安全威胁建模：用 NIST AML、MITRE ATLAS 和 OWASP 建立攻防地图

AI 安全本质上区别于传统应用安全。一个可防御的 AI 安全架构不能依赖模型部署后的通用漏洞扫描；它需要建立在对高维优化过程的数学本质有深刻理解基础上的威胁建模。这涉及在整个 MLOps 流水线中精确映射资产、攻击者、信任边界、失败模式、证据和剩余风险。

本文综合了 NIST 对抗机器学习分类法（NIST.AI.100-2e2025）、MITRE ATLAS 以及 OWASP LLM Top 10，旨在为 AI 和安全工程师构建一个生产级的工程攻防地图。目标是将抽象的安全风险转化为数学上严谨的、可审计的威胁模型。

一、超越模型权重：扩展的资产分类

传统应用安全将重点放在 API、数据库和 IAM 权限上。而 AI 系统引入了基于持续优化和随机输出的复杂攻击面。资产分类必须被大幅扩展：

训练数据与流水线：原始样本、高维数据流形、标签、标注函数、数据溯源密码学签名以及过滤启发式算法。极易遭受数据投毒和后门（BadNets）注入攻击。
模型工件：学习到的参数矩阵 ( theta in mathbb{R}^d )、分词器（Tokenizer）、嵌入空间、校准超参数以及评估集的概率分布。
推理接口（Inference）：输入 ( x )、对数几率（Logits）、Softmax 概率分布 ( f(x) )、置信度分数以及局部/全局解释特征。面临模型提取（Model Extraction）和成员推断攻击（MIA）的风险。
上下文与编排系统：RAG 文档语料库、向量数据库索引结构（如 HNSW）、重排器（Reranker）权重，以及 ReAct Agent 的工具权限架构。
反馈闭环：RLHF 奖励模型、偏好数据集以及主动学习（Active Learning）重训练队列。

二、数学化的威胁图谱：三层防御架构

我们将威胁模型分布在三个操作层面上：

第一层：优化风险（NIST 分类法）。通过数学目标对攻击进行分类。逃逸攻击（Evasion）旨在计算扰动 ( delta )，使得 ( argmax f(x+delta) neq y )。投毒攻击（Poisoning）将恶意样本 ( (x_p, y_p) ) 注入训练分布 ( mathcal{D} )，以偏移经验风险最小化器 ( hat{theta} )。隐私攻击则计算似然概率 ( P(x in mathcal{D}_{train} mid f(x, theta)) )。

第二层：战术执行（MITRE ATLAS）。将对抗目标映射为执行链路，如 ML 供应链妥协（例如导致 RCE 的恶意 Pickle 反序列化）或发现 ML 工件。

第三层：应用失败模式（OWASP LLM Top 10）。将风险转化为运行时的具体漏洞：提示词注入（Prompt Injection，篡改 LLM 的条件上下文）、敏感信息泄露，以及自动化推理流水线中的过度代理权限。

三、红蓝对抗复盘：生产级威胁记录

生产级的威胁记录必须显式定义攻击者的数学优化目标和防守方的经验阈值。例如：

资产: 推理 API (Softmax 输出)
攻击目标: 成员推断攻击 (MIA)
数学向量: 利用训练集和保留集在预测熵上的散度差异。攻击者训练一个影子模型来对 ( mathcal{H}(f(x)) ) 进行分类。
红队验证: 影子模型的 MIA AUC-ROC > 0.7。
蓝队控制: 温度缩放 (Temperature scaling)，Logit 抑制 (仅输出 Top-k)，以及在训练期间采用满足 ( (epsilon, delta) )-边界的差分隐私 (DP-SGD)。
剩余风险: DP-SGD 的完全防御会严重降低主任务准确率。仍可能通过时间侧信道发生边界泄露。

四、逃逸攻击的数学形式化（威胁建模切入点）

逃逸攻击利用了神经网络在高维空间中的局部线性特性。攻击者寻求在一个 ( L_p ) 范数约束 ( |delta|_p le epsilon ) 下的扰动 ( delta )。

目标是最大化损失函数 ( J(theta, x + delta, y) )：

[ delta^* = argmax_{|delta|_p le epsilon} J(theta, x + delta, y) ]

这个约束优化问题是推理阶段威胁模型的基础。防守方必须评估模型的雅可比矩阵以了解其敏感性：( nabla_x f(x) )。如果雅可比矩阵的谱范数很高，则模型极易受到微小 ( delta ) 的攻击。

五、工程控制与证据链

威胁建模必须产出能够集成到 CI/CD/CT（持续训练）流水线中的制品：

数据溯源密码学：对数据集进行密码学哈希计算，并验证源签名，以防止供应链投毒。
鲁棒性证书：记录每个模型版本的 Lipschitz 连续性边界或随机平滑（Randomized Smoothing）保证。
推理遥测：监控滚动推理分布与训练流形之间的 KL 散度，以检测 OOD（分布外）逃逸尝试。

六、威胁模型交付物应该长什么样

一份可执行的 AI 威胁模型不应该只列出攻击名称。它应该把资产、攻击路径、防护控制和验证证据连接起来，让工程团队知道下一步要测什么、记录什么、拒绝什么。

资产	主要威胁	控制措施	验证证据
训练数据	投毒、标签污染、供应链替换	数据签名、来源白名单、异常样本审查	哈希清单、采样审计记录、拒绝样本列表
模型工件	恶意 pickle、权重替换、后门触发	安全格式、签名验证、隔离加载环境	制品签名、加载日志、后门回归测试
推理接口	逃逸攻击、模型提取、成员推断	速率限制、置信度裁剪、输出最小化	异常请求分布、提取尝试告警、MIA 测试结果
Agent 工具链	提示词注入、越权工具调用	RBAC、沙箱、人类审批、只读默认权限	策略决策日志、审批记录、拒绝调用样本

七、落地时的优先级

如果资源有限，优先处理能造成不可逆后果的边界：写入型工具、外部网络访问、用户隐私数据、训练数据来源和模型制品加载。数学鲁棒性评估很重要，但不能替代最基本的权限隔离和审计日志。一个 Agent 系统如果允许检索文本直接影响删除、发送、转账等工具调用，即使模型本身很强，也仍然是不安全的。

威胁建模最终要服务于工程决策：哪些工具默认禁用，哪些数据源需要签名，哪些模型输出不应该暴露，哪些异常必须进入告警。只有把这些问题写成证据链，安全评审才不会停留在概念层面。

八、局限性与总结

AI 的威胁建模是对抗优化景观边界界定的一项持续性工作。它促使安全从定性的检查清单向定量的、经验性的风险度量转变。

九、参考文献

英文

AI Security Threat Modeling: Build a Defense Map with NIST, MITRE ATLAS, and OWASP

在独立页面打开

AI security fundamentally diverges from classical application security. A defensible AI security program cannot rely on post-deployment generic vulnerability scans; it demands rigorous threat modeling grounded in the mathematical realities of high-dimensional optimization. This requires mapping assets, actors, trust boundaries, failure modes, evidence, and residual risk across the entire MLOps pipeline.

This article synthesizes the NIST Adversarial Machine Learning taxonomy (NIST.AI.100-2e2025), MITRE ATLAS, and OWASP LLM Top 10 to architect a production-grade engineering map for AI defense. The objective is to transition from abstract risk registers to mathematically rigorous, reviewable threat models for AI and MLSecOps engineers.

1. Beyond the Weights: An Expanded Asset Taxonomy

Conventional application security focuses on APIs, databases, and IAM. AI systems introduce a complex attack surface characterized by continuous optimization and stochastic outputs. The asset taxonomy must be expanded:

Training Data & Pipeline: Raw samples, high-dimensional manifolds, labels, annotation functions, provenance cryptomaterial, and data-filtering heuristics. Vulnerable to data poisoning and backdoor (BadNets) injection.
Model Artifacts: Learned parameter matrices ( theta in mathbb{R}^d ), tokenizers, embedding spaces, calibration hyperparameters, and evaluation set distributions.
Prediction Interfaces (Inference): Inputs ( x ), logits, softmax probabilities ( f(x) ), confidence scores, and local/global explanations. Vulnerable to Model Extraction and Membership Inference Attacks (MIA).
Context & Orchestration Systems: RAG document corpora, vector database index structures (e.g., HNSW), reranker weights, and ReAct agent tool permission schemas.
Feedback Loops: RLHF reward models, preference datasets, and active learning retraining queues.

2. The Mathematical Threat Landscape: A Three-Layer Architecture

We architect the threat model across three operational layers:

Layer 1: The Optimization Risk (NIST taxonomy). Categorizes attacks by their mathematical objectives. Evasion computes perturbations ( delta ) such that ( argmax f(x+delta) neq y ). Poisoning injects ( (x_p, y_p) ) into the training distribution ( mathcal{D} ) to shift the empirical risk minimizer ( hat{theta} ). Privacy attacks compute the likelihood ( P(x in mathcal{D}_{train} mid f(x, theta)) ).

Layer 2: The Tactical Execution (MITRE ATLAS). Maps adversarial objectives to execution chains, such as ML Supply Chain Compromise (e.g., malicious pickle serialization leading to RCE) or Discovering ML Artifacts.

Layer 3: Application Failure Modes (OWASP LLM Top 10). Translates these to runtime exploits: Prompt Injection (modifying the LLM's conditioning context), Sensitive Information Disclosure, and Excessive Agency in automated reasoning pipelines.

3. Red/Blue Team Post-Mortem: Production Threat Records

A production-grade threat record must explicitly define the mathematical optimization of the attacker and the empirical defense threshold. Example:

Asset: Inference API (Softmax Output)
Attacker Goal: Membership Inference Attack (MIA)
Mathematical Vector: Exploit the divergence in prediction entropy between training and holdout sets. Attacker trains a shadow model to classify ( mathcal{H}(f(x)) ).
Red Team Validation: Shadow model achieves MIA AUC-ROC > 0.7.
Blue Team Control: Temperature scaling, logit suppression (Top-k only), and differential privacy (DP-SGD) during training with ( (epsilon, delta) )-bounds.
Residual Risk: Complete defense via DP-SGD severely degrades primary task accuracy. Boundary leakage remains possible via timing side-channels.

4. Mathematical Formalization of Evasion (Threat Modeling Entry Point)

Evasion attacks exploit the local linearity of neural networks in high-dimensional space. An attacker seeks a perturbation ( delta ) subject to an ( L_p ) norm constraint ( |delta|_p le epsilon ).

The objective is to maximize the loss function ( J(theta, x + delta, y) ):

[ delta^* = argmax_{|delta|_p le epsilon} J(theta, x + delta, y) ]

This constrained optimization problem is the foundation of the threat model for the inference phase. Defenders must evaluate the Jacobian matrix of the model to understand sensitivity: ( nabla_x f(x) ). If the spectral norm of the Jacobian is high, the model is highly susceptible to small ( delta ).

5. Engineering Controls and Evidence

Threat modeling must produce artifacts that integrate into CI/CD/CT (Continuous Training) pipelines:

Data Provenance Cryptography: Cryptographic hashing of datasets and validation of source signatures to prevent supply-chain poisoning.
Robustness Certificates: Lipschitz continuity bounds or randomized smoothing guarantees logged per model version.
Inference Telemetry: Monitoring the KL-divergence between rolling inference distributions and the training manifold to detect OOD (Out-of-Distribution) evasion attempts.

6. Threat Model Evidence Matrix

A useful AI threat model is reviewable only when each risk has a measurable artifact. The table below turns the narrative model into an audit surface that can be checked during design review, release approval, and incident response.

Risk surface	Attacker objective	Evidence to collect	Control boundary
Training data	Shift the learned decision boundary or implant a trigger	Dataset hash, source signature, label audit sample, duplicate rate, poison scan result	Quarantine untrusted sources and require provenance before retraining
Model artifact	Replace weights, tokenizer, or calibration metadata	Signed checkpoint, dependency SBOM, evaluation hash, model card version	Only signed artifacts enter the registry and deployment pipeline
Inference API	Extract the model, infer membership, or probe decision boundaries	Query entropy, rate-limit events, confidence distribution, repeated boundary queries	Limit logits, bucket confidence, and alert on active-learning-like traffic
RAG and agents	Inject instructions through retrieved data or abuse tool permissions	Retrieved document trust tier, tool call policy decision, denied action logs	Separate data context from instructions and enforce tool RBAC outside the LLM

7. Conclusion

Threat modeling for AI is an ongoing exercise in bounding the adversarial optimization landscape. It transitions security from qualitative checklists to quantitative, empirical risk measurement.

8. References

代码运行说明

环境: Python 3 + scikit-learn

安装

cd ai-security-lab
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

运行

python src/privacy_extraction_demo.py --quick --out results/privacy-extraction-results.csv
python src/rag_prompt_injection_guard_demo.py --quick --out results/rag-guard-results.csv

输入文件: scikit-learn 内置 digits 数据集和本地 toy RAG 文档
预期输出: 输出 membership AUC、surrogate fidelity、blocked documents 和 unauthorized tool-call attempt。

安装 cd ai-security-lab
安装 python3 -m venv .venv
安装 source .venv/bin/activate
安装 pip install -r requirements.txt
运行 python src/privacy_extraction_demo.py --quick --out results/privacy-extraction-results.csv
运行 python src/rag_prompt_injection_guard_demo.py --quick --out results/rag-guard-results.csv

一、超越模型权重：扩展的资产分类

传统应用安全将重点放在 API、数据库和 IAM 权限上。而 AI 系统引入了基于持续优化和随机输出的复杂攻击面。资产分类必须被大幅扩展：

训练数据与流水线：原始样本、高维数据流形、标签、标注函数、数据溯源密码学签名以及过滤启发式算法。极易遭受数据投毒和后门（BadNets）注入攻击。
模型工件：学习到的参数矩阵 ( theta in mathbb{R}^d )、分词器（Tokenizer）、嵌入空间、校准超参数以及评估集的概率分布。
推理接口（Inference）：输入 ( x )、对数几率（Logits）、Softmax 概率分布 ( f(x) )、置信度分数以及局部/全局解释特征。面临模型提取（Model Extraction）和成员推断攻击（MIA）的风险。
上下文与编排系统：RAG 文档语料库、向量数据库索引结构（如 HNSW）、重排器（Reranker）权重，以及 ReAct Agent 的工具权限架构。
反馈闭环：RLHF 奖励模型、偏好数据集以及主动学习（Active Learning）重训练队列。

二、数学化的威胁图谱：三层防御架构

我们将威胁模型分布在三个操作层面上：

第二层：战术执行（MITRE ATLAS）。将对抗目标映射为执行链路，如 ML 供应链妥协（例如导致 RCE 的恶意 Pickle 反序列化）或发现 ML 工件。

三、红蓝对抗复盘：生产级威胁记录

生产级的威胁记录必须显式定义攻击者的数学优化目标和防守方的经验阈值。例如：

资产: 推理 API (Softmax 输出)
攻击目标: 成员推断攻击 (MIA)
数学向量: 利用训练集和保留集在预测熵上的散度差异。攻击者训练一个影子模型来对 ( mathcal{H}(f(x)) ) 进行分类。
红队验证: 影子模型的 MIA AUC-ROC > 0.7。
蓝队控制: 温度缩放 (Temperature scaling)，Logit 抑制 (仅输出 Top-k)，以及在训练期间采用满足 ( (epsilon, delta) )-边界的差分隐私 (DP-SGD)。
剩余风险: DP-SGD 的完全防御会严重降低主任务准确率。仍可能通过时间侧信道发生边界泄露。

四、逃逸攻击的数学形式化（威胁建模切入点）

逃逸攻击利用了神经网络在高维空间中的局部线性特性。攻击者寻求在一个 ( L_p ) 范数约束 ( |delta|_p le epsilon ) 下的扰动 ( delta )。

目标是最大化损失函数 ( J(theta, x + delta, y) )：

[ delta^* = argmax_{|delta|_p le epsilon} J(theta, x + delta, y) ]

五、工程控制与证据链

威胁建模必须产出能够集成到 CI/CD/CT（持续训练）流水线中的制品：

数据溯源密码学：对数据集进行密码学哈希计算，并验证源签名，以防止供应链投毒。
鲁棒性证书：记录每个模型版本的 Lipschitz 连续性边界或随机平滑（Randomized Smoothing）保证。
推理遥测：监控滚动推理分布与训练流形之间的 KL 散度，以检测 OOD（分布外）逃逸尝试。

六、威胁模型交付物应该长什么样

资产	主要威胁	控制措施	验证证据
训练数据	投毒、标签污染、供应链替换	数据签名、来源白名单、异常样本审查	哈希清单、采样审计记录、拒绝样本列表
模型工件	恶意 pickle、权重替换、后门触发	安全格式、签名验证、隔离加载环境	制品签名、加载日志、后门回归测试
推理接口	逃逸攻击、模型提取、成员推断	速率限制、置信度裁剪、输出最小化	异常请求分布、提取尝试告警、MIA 测试结果
Agent 工具链	提示词注入、越权工具调用	RBAC、沙箱、人类审批、只读默认权限	策略决策日志、审批记录、拒绝调用样本

七、落地时的优先级

八、局限性与总结

AI 的威胁建模是对抗优化景观边界界定的一项持续性工作。它促使安全从定性的检查清单向定量的、经验性的风险度量转变。

九、参考文献

搜索问题

常见问题

这篇文章适合谁读？

这篇文章适合想用专业难度理解“AI 安全威胁建模：用 NIST AML、MITRE ATLAS 和 OWASP 建立攻防地图”的读者，预计阅读时间约 12 分钟，重点覆盖 AI Security, Threat Modeling, NIST, MITRE ATLAS。

读完后下一步应该看什么？

推荐下一步阅读“对抗样本与鲁棒评估：从 FGSM 公式到 scikit-learn 数字分类实验”，这样可以把当前知识点接到更完整的学习路线里。

这篇文章有没有可运行代码或配套资源？

有。页面里的运行说明、资源卡片和下载入口会指向复现实验所需的命令、数据、代码或说明文件。

这篇文章和整个网站的学习路线有什么关系？

它会通过文章上下文、学习路线、资源库和项目时间线连接到同一主题下的其他内容。

文章上下文

人工智能项目

从 AI、机器学习、训练评估、神经网络到 Python 小实战、手写数字识别、CIFAR-10 CNN、对抗性流量防御和 AI 安全攻防，按顺序建立基础。

难度: 专业阅读时间: 12 分钟

AI Security
Threat Modeling
NIST
MITRE ATLAS
OWASP

继续下一步

继续：对抗样本与鲁棒评估

先补基础打开资源

对应语言版本 AI Security Threat Modeling: Build a Defense Map with NIST, MITRE ATLAS, and OWASP

可分享摘要 AI 安全威胁建模：用 NIST AML、MITRE ATLAS 和 OWASP 建立攻防地图

用 NIST Adversarial ML、MITRE ATLAS 和 OWASP LLM Top 10 建立 AI 安全威胁模型，覆盖资产、攻击面、证据和剩余风险。

下载分享图打开分享中心

配套资源

说明 AI 安全攻防系列的安全边界、安装命令和 quick-run 实验。

打开资源关联文章

面向 AI 威胁建模和上线评审的 CSV 风险登记模板。

打开资源关联文章

把攻击面、toy demo、指标和防护控制映射到一张 CSV 表。

打开资源关联文章

包含安全 toy scripts、结果 CSV、风险登记表、攻防矩阵和架构图。

打开资源关联文章

发表回复取消回复

要发表评论，您必须先登录。

项目时间线

已发布文章

人工智能基础学习路线：先理解什么是 AI、机器学习和深度学习面向有编程基础的读者，梳理 AI、机器学习、深度学习的关系，并给出可执行的人工智能基础学习路线。
机器学习完整流程：从数据、特征到模型预测从工程视角拆解机器学习完整流程：定义问题、理解数据、处理特征、训练模型、预测和评估。
机器学习算法怎么选：分类、回归、聚类和推荐场景对照表用任务类型、数据规模、解释性和部署成本选择机器学习算法，覆盖逻辑回归、决策树、随机森林、K-means 和表格数据基线模型。
特征工程入门实战：用 scikit-learn 处理缺失值、类别变量和数值标准化用 scikit-learn Pipeline 和 ColumnTransformer 完成特征工程，处理缺失值、类别变量、数值标准化，并避免数据泄漏。
模型训练与评估入门：损失函数、过拟合和准确率怎么理解讲清楚模型训练中的参数、损失函数、梯度下降、过拟合，以及准确率、召回率、F1 等分类评估指标。
过拟合和欠拟合怎么解决：机器学习模型调优实战指南用训练分数和验证分数判断过拟合与欠拟合，并通过模型复杂度、正则化、交叉验证和特征工程调整机器学习模型。
神经网络基础：从感知机到多层网络从一个神经元讲起，解释权重、偏置、激活函数、前向传播、反向传播和典型神经网络训练循环。
神经网络矩阵微积分：从 y = Wx + b 推导 MSE 梯度用手算、矩阵形状图、NumPy 代码和梯度检查解释 y = Wx + b 下 dL/dW = (ŷ - y)x^T 的来源。
反向传播计算图：两层 MLP 的前向、局部梯度和反向传播把两层 MLP 拆成计算图，手算 ReLU、softmax cross-entropy、dW2、dW1，并用 NumPy 复现实验结果。
梯度下降与优化器几何：Momentum、Adam 和 loss surface 轨迹在二维二次函数上手算梯度下降前几步，比较 Momentum 和 Adam 的轨迹，并用代码生成 loss contour。
卷积与感受野数学：5×5 输入、3×3 kernel、padding 和 im2col 手算一次 5x5 输入与 3x3 kernel 的离散卷积，解释输出尺寸、padding、stride、感受野和 im2col。
Transformer Attention 数学：Q/K/V、Softmax 权重、Mask 与 KV Cache 用 3 个 token 手算 scaled dot-product attention，解释 Q/K/V、softmax、mask、多头注意力和 KV cache。
Python 人工智能小实战：用 scikit-learn 完成一个分类任务使用 scikit-learn 内置教学数据集跑通一个分类任务，覆盖数据加载、拆分、标准化、训练、预测、评估和实验记录。
手写数字识别项目入门：先读懂 train.csv、test.csv 和标签结构从项目文件结构入手，读懂手写数字训练集、测试集、标签列和 784 维像素输入，为后续 C 分类器和实验台打基础。
用 C 实现手写数字 Softmax 分类器：从 784 维像素到 submission.csv 结合当前项目源码，讲清楚 softmax 多分类、损失函数、梯度更新、混淆矩阵输出，以及 submission.csv 的生成过程。
手写数字实验记录：怎么把离线分类项目接进浏览器实验台解释浏览器实验台为什么采用轻量预训练模型、它和离线 C 项目的关系，以及如何用样本浏览和手绘输入理解预测结果。
CIFAR-10 Tiny CNN 教程：用 C 语言实现小型卷积神经网络图像分类用单文件 C 程序完成 CIFAR-10 小型 CNN 图像分类，讲解数据格式、网络结构、训练命令、loss、accuracy、常见错误和改进方向。
构建高熵流量防御：基于 Python 的连接层白噪声混淆与对抗性机器学习实践以 mld_chaffing_v2.py 虚幻镜项目为例，讲解加密元数据泄漏、信息熵、分布距离、混淆矩阵、空闲窗口微脉冲和性能测试取舍。
AI 安全威胁建模：用 NIST AML、MITRE ATLAS 和 OWASP 建立攻防地图用 NIST Adversarial ML、MITRE ATLAS 和 OWASP LLM Top 10 建立 AI 安全威胁模型，覆盖资产、攻击面、证据和剩余风险。
对抗样本与鲁棒评估：从 FGSM 公式到 scikit-learn 数字分类实验从 FGSM 公式解释对抗样本，用 scikit-learn digits toy 实验评估 clean accuracy、perturbed accuracy 和扰动预算。
数据投毒与后门攻击防御：污染率、触发器和训练管线隔离用 toy digits 实验解释数据投毒、后门触发器、attack success rate、数据来源审计和训练管线隔离。
模型隐私与模型窃取风险：成员推断、模型抽取和输出接口防护用本地 toy 实验解释成员推断、模型抽取、membership AUC、surrogate fidelity、输出最小化和查询治理。
LLM/RAG/Agent 安全：Prompt Injection、工具权限和边界感知防护从 RAG 和 Agent 架构解释 prompt injection、外部数据降权、工具 allowlist、人工审批和边界感知防护。

已公开资源

Python AI 小实战代码说明文章内包含可直接复制运行的 scikit-learn 分类脚本。
digit_softmax_classifier.c 手写数字 softmax 分类器的 C 语言源码。
train.csv.zip 手写数字训练集压缩包，包含 42000 条带标签样本。
test.csv.zip 手写数字测试集压缩包，包含 28000 条待预测样本。
sample_submission.csv 官方提交格式示例，可直接对照最终输出字段。
submission.csv 当前 C 项目跑出的预测结果文件。
digit-playground-model.json 浏览器实验台使用的轻量 softmax 演示模型与样本。
digit-sample-grid.svg 从训练集中抽取的小型手写数字预览网格。
手写数字项目打包下载包含源码、压缩数据、提交文件、浏览器模型和样本预览图。
cifar10_tiny_cnn.c 源码单文件 C 语言 tiny CNN，包含 CIFAR-10 读取、卷积、池化、softmax 和反向传播。
model_weights.bin 样例权重一次本地小样本运行生成的模型权重文件。
test_predictions.csv 预测样例 CIFAR-10 tiny CNN 输出的测试预测样例。
CNN 项目说明 PDF 配套 CNN 项目说明材料。
虚幻镜脱敏代码骨架去除控制口令、真实节点和目标列表后的 mld_chaffing_v2.py 控制流程说明。
虚幻镜压力测试记录模板用于记录 CPU、内存、线程峰值、微脉冲速率、延迟和错误数的脱敏 CSV 模板。
虚幻镜分类器评估模板用于记录 TP、FN、FP、TN、accuracy、precision、recall、F1、ROC-AUC、熵和 JS 散度的 CSV 模板。
虚幻镜资源说明说明公开资源为何只提供脱敏代码、测试模板和架构笔记。
AI Security Lab 说明说明 AI 安全攻防系列的安全边界、安装命令和 quick-run 实验。
AI Security Lab 完整实验包包含安全 toy scripts、结果 CSV、风险登记表、攻防矩阵和架构图。
AI 安全风险登记表面向 AI 威胁建模和上线评审的 CSV 风险登记模板。
AI 攻防矩阵把攻击面、toy demo、指标和防护控制映射到一张 CSV 表。
AI Security Lab 架构图展示威胁建模、鲁棒评估、数据完整性、模型隐私和 RAG 防护之间的关系。
FGSM digits 鲁棒评估脚本本地 digits 分类器的 FGSM-style 扰动和准确率下降实验。
数据投毒与后门 toy 脚本用 digits 数据演示污染率、触发器和 attack success rate。
模型隐私与抽取 toy 脚本输出 membership AUC、target accuracy、surrogate fidelity 和 surrogate accuracy。
RAG prompt injection guard toy 脚本用确定性 toy agent 演示外部数据降权和工具权限阻断。
Deep Learning Math Lab 说明包含安装命令、脚本入口、输出结果和文章图示生成说明。
深度学习数学完整实验包打包 NumPy 脚本、CSV 结果、公式图、loss contour、卷积图和 attention 热图。
梯度检查结果 CSV 保存 MSE 梯度解析值、数值差分值和误差范数。
优化器轨迹 CSV 记录梯度下降、Momentum 和 Adam 在二维二次函数上的逐步坐标与 loss。
Attention 权重 CSV 三 token scaled dot-product attention 的 scores、softmax weights 和 context 输出。
深度学习数学图示目录包含矩阵形状、计算图、loss contour、卷积扫描和 attention heatmap。
深度学习数学交互演示在浏览器里调梯度检查、优化轨迹、卷积输出尺寸和 attention 权重热图。
深度学习专题分享图用于分享深度学习 / CNN 专题页的 1200x630 SVG 图。
从零实现机器学习分享图用于分享 K-means、Iris 和机器学习流程专题页的 1200x630 SVG 图。
学生 AI 项目分享图用于分享手写数字、C 分类器和浏览器实验台专题页的 1200x630 SVG 图。
CNN 卷积扫描动画 Remotion 生成的 8 秒短动画，展示 3x3 卷积核如何扫描输入并形成特征图。

当前学习路线

人工智能基础学习路线学习路线节点
机器学习完整流程学习路线节点
机器学习算法怎么选学习路线节点
特征工程入门实战学习路线节点
模型训练与评估入门学习路线节点
过拟合和欠拟合怎么解决学习路线节点
神经网络基础学习路线节点
神经网络矩阵微积分学习路线节点
反向传播计算图学习路线节点
梯度下降与优化器几何学习路线节点
卷积与感受野数学学习路线节点
Transformer Attention 数学学习路线节点
LLM 可视化教学台学习路线节点
Python 人工智能小实战学习路线节点
手写数字数据结构入门学习路线节点
用 C 实现手写数字 Softmax 分类器学习路线节点
手写数字实验台说明学习路线节点
CIFAR-10 Tiny CNN 教程学习路线节点
高熵流量防御实验学习路线节点
AI 安全威胁建模学习路线节点
对抗样本与鲁棒评估学习路线节点
数据投毒与后门防御学习路线节点
模型隐私与模型抽取防护学习路线节点
LLM/RAG/Agent 安全学习路线节点

下一步计划

补充更多图像分类和误差分析案例
把常见指标整理成速查表
继续补充 AI 安全防御实验记录

一、超越模型权重：扩展的资产分类

二、数学化的威胁图谱：三层防御架构

三、红蓝对抗复盘：生产级威胁记录

四、逃逸攻击的数学形式化（威胁建模切入点）

五、工程控制与证据链

六、威胁模型交付物应该长什么样

七、落地时的优先级

八、局限性与总结

九、参考文献

1. Beyond the Weights: An Expanded Asset Taxonomy

2. The Mathematical Threat Landscape: A Three-Layer Architecture

3. Red/Blue Team Post-Mortem: Production Threat Records

4. Mathematical Formalization of Evasion (Threat Modeling Entry Point)

5. Engineering Controls and Evidence

6. Threat Model Evidence Matrix

7. Conclusion

8. References

一、超越模型权重：扩展的资产分类

二、数学化的威胁图谱：三层防御架构

三、红蓝对抗复盘：生产级威胁记录

四、逃逸攻击的数学形式化（威胁建模切入点）

五、工程控制与证据链

六、威胁模型交付物应该长什么样

七、落地时的优先级

八、局限性与总结

九、参考文献

这篇文章适合谁读？

读完后下一步应该看什么？

这篇文章有没有可运行代码或配套资源？

这篇文章和整个网站的学习路线有什么关系？

配套资源

AI Security Lab 说明

AI 安全风险登记表

AI 攻防矩阵

AI Security Lab 完整实验包

发表回复 取消回复

项目时间线

发表回复取消回复