专题路线
AI 安全攻防专题
把威胁建模、对抗样本、数据投毒、模型隐私和 LLM/RAG/Agent 安全组织成一条可复现实验路线。
面向搜索 AI 安全威胁建模、对抗样本鲁棒评估、数据投毒防御、成员推断、模型抽取和 Prompt Injection 防护的工程读者。
你会完成什么
你会得到一套安全 toy 实验包,并能把风险、指标、边界和工程防护清单放进同一个复查流程。
推荐阅读顺序
先建立概念,再进入可运行项目
AI 安全威胁建模:用 NIST AML、MITRE ATLAS 和 OWASP 建立攻防地图
用 NIST Adversarial ML、MITRE ATLAS 和 OWASP LLM Top 10 建立 AI 安全威胁模型,覆盖资产、攻击面、证据和剩余风险。
对抗样本与鲁棒评估:从 FGSM 公式到 scikit-learn 数字分类实验
从 FGSM 公式解释对抗样本,用 scikit-learn digits toy 实验评估 clean accuracy、perturbed accuracy 和扰动预算。
数据投毒与后门攻击防御:污染率、触发器和训练管线隔离
用 toy digits 实验解释数据投毒、后门触发器、attack success rate、数据来源审计和训练管线隔离。
模型隐私与模型窃取风险:成员推断、模型抽取和输出接口防护
用本地 toy 实验解释成员推断、模型抽取、membership AUC、surrogate fidelity、输出最小化和查询治理。
LLM/RAG/Agent 安全:Prompt Injection、工具权限和边界感知防护
从 RAG 和 Agent 架构解释 prompt injection、外部数据降权、工具 allowlist、人工审批和边界感知防护。
资源与分发素材
代码、数据、图示和可分享摘要集中管理
人工智能项目 / GUIDE
AI Security Lab 说明
说明 AI 安全攻防系列的安全边界、安装命令和 quick-run 实验。
人工智能项目 / DATASET
AI 安全风险登记表
面向 AI 威胁建模和上线评审的 CSV 风险登记模板。
人工智能项目 / DATASET
AI 攻防矩阵
把攻击面、toy demo、指标和防护控制映射到一张 CSV 表。
人工智能项目 / DIAGRAM
AI Security Lab 架构图
展示威胁建模、鲁棒评估、数据完整性、模型隐私和 RAG 防护之间的关系。
人工智能项目 / CODE
FGSM digits 鲁棒评估脚本
本地 digits 分类器的 FGSM-style 扰动和准确率下降实验。
人工智能项目 / CODE
数据投毒与后门 toy 脚本
用 digits 数据演示污染率、触发器和 attack success rate。
人工智能项目 / CODE
模型隐私与抽取 toy 脚本
输出 membership AUC、target accuracy、surrogate fidelity 和 surrogate accuracy。
人工智能项目 / CODE
RAG prompt injection guard toy 脚本
用确定性 toy agent 演示外部数据降权和工具权限阻断。
人工智能项目 / ARCHIVE
AI Security Lab 完整实验包
包含安全 toy scripts、结果 CSV、风险登记表、攻防矩阵和架构图。
常见问题
把搜索问题直接回答清楚
这个专题会提供真实攻击系统的步骤吗?
不会。实验只使用 scikit-learn 内置数据和自造 toy 数据,目标是防御评估、风险记录和工程复查。
适合什么背景的读者?
适合已经能阅读 Python、理解基本机器学习流程,并希望把 AI 系统纳入安全评审的工程读者。
