专题路线

AI 安全攻防专题

把威胁建模、对抗样本、数据投毒、模型隐私和 LLM/RAG/Agent 安全组织成一条可复现实验路线。

面向搜索 AI 安全威胁建模、对抗样本鲁棒评估、数据投毒防御、成员推断、模型抽取和 Prompt Injection 防护的工程读者。

打开 AI 学习路线打开资源库复制分享链接

你会完成什么

你会得到一套安全 toy 实验包，并能把风险、指标、边界和工程防护清单放进同一个复查流程。

AI 安全威胁建模
对抗样本鲁棒评估
数据投毒后门防御
模型隐私成员推断
RAG Prompt Injection 防护

推荐阅读顺序

先建立概念，再进入可运行项目

AI 安全威胁建模：用 NIST AML、MITRE ATLAS 和 OWASP 建立攻防地图

用 NIST Adversarial ML、MITRE ATLAS 和 OWASP LLM Top 10 建立 AI 安全威胁模型，覆盖资产、攻击面、证据和剩余风险。

难度: 专业阅读时间: 12 分钟

AI Security
Threat Modeling
NIST
MITRE ATLAS
OWASP

对抗样本与鲁棒评估：从 FGSM 公式到 scikit-learn 数字分类实验

从 FGSM 公式解释对抗样本，用 scikit-learn digits toy 实验评估 clean accuracy、perturbed accuracy 和扰动预算。

难度: 专业阅读时间: 11 分钟

Adversarial Examples
FGSM
Robust Evaluation
scikit-learn

数据投毒与后门攻击防御：污染率、触发器和训练管线隔离

用 toy digits 实验解释数据投毒、后门触发器、attack success rate、数据来源审计和训练管线隔离。

难度: 专业阅读时间: 11 分钟

Data Poisoning
Backdoor Defense
Training Pipeline
scikit-learn

模型隐私与模型窃取风险：成员推断、模型抽取和输出接口防护

用本地 toy 实验解释成员推断、模型抽取、membership AUC、surrogate fidelity、输出最小化和查询治理。

难度: 专业阅读时间: 12 分钟

Model Privacy
Membership Inference
Model Extraction
Prediction API

LLM/RAG/Agent 安全：Prompt Injection、工具权限和边界感知防护

从 RAG 和 Agent 架构解释 prompt injection、外部数据降权、工具 allowlist、人工审批和边界感知防护。

难度: 专业阅读时间: 12 分钟

LLM Security
RAG
Agent Tools
Prompt Injection

资源与分发素材

代码、数据、图示和可分享摘要集中管理

说明 AI 安全攻防系列的安全边界、安装命令和 quick-run 实验。

打开资源关联文章

面向 AI 威胁建模和上线评审的 CSV 风险登记模板。

打开资源关联文章

把攻击面、toy demo、指标和防护控制映射到一张 CSV 表。

打开资源关联文章

展示威胁建模、鲁棒评估、数据完整性、模型隐私和 RAG 防护之间的关系。

打开资源关联文章

本地 digits 分类器的 FGSM-style 扰动和准确率下降实验。

打开资源关联文章

用 digits 数据演示污染率、触发器和 attack success rate。

打开资源关联文章

输出 membership AUC、target accuracy、surrogate fidelity 和 surrogate accuracy。

打开资源关联文章

用确定性 toy agent 演示外部数据降权和工具权限阻断。

打开资源关联文章

包含安全 toy scripts、结果 CSV、风险登记表、攻防矩阵和架构图。

打开资源关联文章

常见问题

把搜索问题直接回答清楚

这个专题会提供真实攻击系统的步骤吗？

不会。实验只使用 scikit-learn 内置数据和自造 toy 数据，目标是防御评估、风险记录和工程复查。

适合什么背景的读者？

适合已经能阅读 Python、理解基本机器学习流程，并希望把 AI 系统纳入安全评审的工程读者。

AI 安全攻防专题

AI 安全攻防专题

你会得到一套安全 toy 实验包，并能把风险、指标、边界和工程防护清单放进同一个复查流程。

先建立概念，再进入可运行项目

AI 安全威胁建模：用 NIST AML、MITRE ATLAS 和 OWASP 建立攻防地图

对抗样本与鲁棒评估：从 FGSM 公式到 scikit-learn 数字分类实验

数据投毒与后门攻击防御：污染率、触发器和训练管线隔离

模型隐私与模型窃取风险：成员推断、模型抽取和输出接口防护

LLM/RAG/Agent 安全：Prompt Injection、工具权限和边界感知防护

代码、数据、图示和可分享摘要集中管理

AI Security Lab 说明

AI 安全风险登记表

AI 攻防矩阵

AI Security Lab 架构图

FGSM digits 鲁棒评估脚本

数据投毒与后门 toy 脚本

模型隐私与抽取 toy 脚本

RAG prompt injection guard toy 脚本

AI Security Lab 完整实验包

把搜索问题直接回答清楚

这个专题会提供真实攻击系统的步骤吗？

适合什么背景的读者？