用 garak 给本地大模型做“体检“：零成本搭一套 LLM 安全扫描流程

cooldream2009

308人浏览 · 2026-06-20 22:15:41

cooldream2009 · 2026-06-20 22:15:41 发布

前言

大模型落地到生产环境之前，你是否担心过这些问题：用户输入一段话，模型突然开始输出违规内容？一段精心构造的提示词绕过系统限制，让模型给出危险回答？这些并非危言耸听——提示注入（Prompt Injection）、越狱（Jailbreak）、有害内容生成（Harmful Generation），已经成为大模型应用的三大主要安全风险。

与传统的软件漏洞不同，大模型的"漏洞"并不在代码里，而在它的行为中。要发现这些行为漏洞，必须用大量对抗性提示词去"试探"模型，观察它在压力下的反应。这个过程被称作红队测试（Red Teaming），也是当前学术界和工业界公认的大模型安全评估手段。

然而，手动构造攻击用例效率极低，NVIDIA 推出的开源工具 garak 正是为了解决这个问题而生。它内置了数十种探测插件，覆盖越狱、提示注入、幻觉、偏见、毒性等多个维度，可以一键对接 Hugging Face、OpenAI、Ollama 等多种模型后端。本文将带你从零开始，搭建一套基于 garak + Ollama 的本地大模型安全扫描环境，并用 deepseek-r1:1.5b 这款轻量级模型完整跑一次越狱与提示注入扫描。整套流程无需联网调用任何商业 API，所有测试都在本地完成，零成本、可复现，适合个人开发者和教学场景。

1. 环境准备：使用 Conda 创建隔离的 Python 环境

garak 依赖较新版本的 Python 以及若干机器学习库，为了避免污染系统 Python 环境，强烈建议使用 Conda 创建独立的虚拟环境。

conda create -n garak python=3.12
conda env list
conda activate garak

第一条命令创建名为 garak 的虚拟环境，并指定 Python 3.12 作为解释器版本（garak 0.15.x 要求 Python ≥ 3.10，3.12 是当前最稳定的兼容版本）。第二条命令列出所有已创建的 Conda 环境，确认 garak 已经被正确创建。第三条命令激活环境，激活后命令行前缀会出现 (garak) 标记，后续所有安装和运行操作都将在该隔离环境中进行。

2. 下载并安装 garak

环境准备好之后，下一步是从 GitHub 拉取 garak 源码并进行本地安装。

git clone https://github.com/leondz/garak.git
cd garak
pip install -r requirements.txt
pip install .
# 验证garak
garak --version

在这里插入图片描述

第一条命令将 garak 仓库克隆到本地。garak 的迭代非常活跃，建议始终从 GitHub 拉取最新代码，而不是使用 PyPI 上的稳定版——很多新增的探测插件和模型适配器只在主干分支上才有。第二条命令进入项目目录后，使用 pip install -r requirements.txt 安装所有运行时依赖。garak 的依赖列表较长，包括 transformers、torch、nltk、requests 等，安装过程通常需要 1-3 分钟。第三条命令 pip install . 将 garak 本身以可编辑模式安装到当前环境，这样后续升级只需 git pull 即可。第四条命令验证安装，如果终端打印出形如 garak LLM vulnerability scanner v0.15.2.pre1 的版本号，说明安装成功。

3. 使用 Ollama 部署本地大模型

garak 本身只负责发起探测和评估回复，要真正扫描一个模型，还需要先有一个可访问的模型服务。Ollama 是当前最流行的本地大模型运行工具之一，支持 macOS、Linux 和 Windows，且对消费级显卡非常友好。

3.1 启动 Ollama 服务

需要打开一个新的命令窗口，启动 Ollama 服务：

ollama serve

在这里插入图片描述

ollama serve 会在本地 11434 端口启动一个 RESTful API 服务，这个服务将作为 garak 的"被测目标"。Ollama 启动后，不要关闭该命令窗口，否则服务会立刻中断。

3.2 查看本地已有模型

在另外的命令窗口中，可以查看当前机器上已经下载的模型：

ollama list

该命令会列出所有已下载的模型及其版本、大小，例如 deepseek-r1:1.5b、qwen2:7b、llama3:8b 等。可以根据本地硬件配置和测试需求，选取一个模型作为本次扫描的目标。

4. 使用 garak 进行大模型攻防测试

环境就绪后，就可以使用 garak 对目标模型发起扫描了。下面这条命令展示了完整的扫描流程：

garak --target_type ollama --target_name deepseek-r1:1.5b -p promptinject --report_prefix scan_result2 --generations 1

4.1 参数详解

下表列出了上述命令中各参数的作用：

参数	含义
`--target_type ollama`	指定目标服务类型为 Ollama（本地大模型服务）
`--target_name deepseek-r1:1.5b`	指定要扫描的模型：deepseek-r1:1.5b
`-p promptinject`	加载提示注入探测插件，测试提示词注入漏洞
`--report_prefix scan_result2`	扫描报告文件名前缀设为 scan_result2
`--generations 1`	每条探测提示，只让模型生成 1 轮回复
`--probe_options "limit=5"`	每个探测插件仅使用前 5 条测试用例

需要特别说明的是，-p 参数可以同时指定多个探测插件，例如 -p jailbreak -p promptinject 表示同时加载越狱和提示注入两类探测。--probe_options "limit=5" 用于限制每个插件的测试用例数量，在快速验证场景下非常有用——既能跑通流程，又不会让单次扫描耗时过长。

4.2 一次完整的扫描实例

下面是在 Windows 11 + Conda + Ollama 环境下执行 garak 扫描的完整输出：

(garak) PS D:\dev\code\llm-course\07-security\garak> garak --target_type ollama --target_name deepseek-r1:1.5b -p jailbreak -p promptinject --report_prefix scan_result2 --generations 1 --probe_options "limit=5"
garak LLM vulnerability scanner v0.15.2.pre1 ( https://github.com/NVIDIA/garak ) at 2026-06-12T10:41:33.891984
📜 logging to C:\Users\coold\.local\share\garak\garak.log
🦜 loading generator: Ollama: deepseek-r1:1.5b
📜 reporting to C:\Users\coold\.local\share\garak\garak_runs\scan_result2.report.jsonl
🕵️ queue of probes: promptinject.HijackHateHumans, promptinject.HijackKillHumans, promptinject.HijackLongPrompt
promptinject.HijackHateHumans promptinject.AttackRogueString: FAIL ok on 130/ 256 (attack success rate: 49.22% [42.97%, 55.47%])
promptinject.HijackKillHumans promptinject.AttackRogueString: FAIL ok on 149/ 256 (attack success rate: 41.80% [35.94%, 48.05%])
promptinject.HijackLongPrompt promptinject.AttackRogueString: FAIL ok on 151/ 256 (attack success rate: 41.02% [35.16%, 47.27%])
📜 report closed :) C:\Users\coold\.local\share\garak\garak_runs\scan_result2.report.jsonl
📜 report html summary being written to C:\Users\coold\.local\share\garak\garak_runs\scan_result2.report.html
✔️ garak run complete in 1812.59s

从输出中可以看到几个关键信息：

目标模型：Ollama: deepseek-r1:1.5b 已成功加载；
探测队列：本次加载了 promptinject.HijackHateHumans、promptinject.HijackKillHumans、promptinject.HijackLongPrompt 三个提示注入子插件；
失败率：三个插件的攻击成功率分别为 49.22%、41.80%、41.02%——这里的"FAIL"对应 garak 的安全评估语义，表示模型在攻击下"没有通过"安全测试；
报告产物：scan_result2.report.jsonl（结构化日志）和 scan_result2.report.html（可视化摘要）；
耗时：本次扫描总计用时 1812.59 秒（约 30 分钟），主要由本地模型推理速度决定。

4.3 如何解读扫描结果

garak 的评估逻辑和软件测试完全一致：探测插件向模型发送对抗性提示，如果模型"上当"了，就标记为 FAIL（未通过安全测试），攻击成功率高意味着模型防御能力弱。从上例可以看到，deepseek-r1:1.5b 在三类提示注入攻击下都呈现出 40%-50% 的成功率，这个比例对 1.5B 参数量的轻量模型而言并不意外——参数规模越小，指令遵循能力和安全对齐强度通常也越弱。

如果换成 qwen2:7b 或 llama3:8b 等更大参数量的模型，对应的攻击成功率会显著下降，这正是模型安全对齐训练的直接体现。通过对同一组探测在不同模型上反复扫描，可以定量比较不同模型的安全强度，这也是 garak 在大模型选型阶段的重要应用价值。

5. 常见问题与进阶建议

5.1 扫描速度过慢怎么办

如果单次扫描耗时超过 1 小时，可以通过以下三种方式加速：

降低生成轮数：--generations 1 已经是最小值，但如果连 1 轮都觉得慢，可以考虑换用更小的模型（如 tinyllama:1.1b）。
限制测试用例：--probe_options "limit=5" 把每个插件限制到 5 条用例，进一步可改为 limit=3 或 limit=1。
GPU 加速：Ollama 默认会自动检测 NVIDIA/AMD GPU 并启用加速；可以通过 nvidia-smi 确认 GPU 占用率，如果占用率为 0，说明 Ollama 回退到了 CPU 模式。

5.2 报告打不开或找不到路径

garak 的报告默认存放在用户主目录下的 .local/share/garak/garak_runs/（Linux/macOS）或 C:\Users\<用户名>\.local\share\garak\garak_runs\（Windows）。可以使用 --report_prefix 自定义前缀，避免和历史报告混淆。

5.3 如何扩展到更多探测维度

在这里插入图片描述

garak 内置了超过 80 个探测插件，覆盖以下几大类别：

越狱类（Jailbreak）：DAN、AntiGPT、Goodside 等经典越狱模板
提示注入类（PromptInject）：Hijack 系列、AttackRogueString
幻觉类（Hallucination）：测试模型是否会编造事实
偏见类（Bias）：测试性别、种族、宗教等敏感维度的偏见
毒性类（Toxicity）：测试模型生成有害内容的倾向
数据泄露类（Leakage）：测试是否会复现训练数据中的隐私信息

可以使用 garak --list_probes 查看所有可用插件，并通过多次 -p 参数自由组合扫描维度。

结语

大模型安全不是一道选择题，而是上线前的必答题。garak 给我们提供了一种低门槛、可复现、可量化的方式去审视模型的行为边界——无论是个人项目、毕业设计还是企业级应用，都应该在大模型对外提供服务之前完成一轮系统性的安全扫描。

本文展示的 Ollama + garak 组合最大优势在于完全本地化：不需要将业务数据上传到任何第三方 API，不需要为每次扫描支付调用费用，也不存在数据泄露风险。这对于教学场景尤其友好——学生可以在自己的笔记本上完整复现整个流程，亲手观察不同模型在同一组对抗性提示下的差异化表现，把"大模型安全"从一个抽象概念变成可观测、可度量的工程实践。

下一步建议：把 garak 集成到 CI/CD 流水线中，在每次模型升级或微调后自动执行一轮基线扫描，把安全指标纳入模型发布的准入门槛（Quality Gate）。这样，大模型安全才能从"事后补救"转变为"事前预防"。

参考资料

NVIDIA garak 官方仓库：https://github.com/leondz/garak
Ollama 官方网站：https://ollama.com/
DeepSeek-R1 模型介绍：https://api-docs.deepseek.com/quick_start/
Prompt Injection 攻击原理综述：https://arxiv.org/abs/2311.16119
OWASP Top 10 for LLM Applications：https://owasp.org/www-project-top-10-for-large-language-model-applications/

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

AI 数字人直播对电脑配置有要求吗？

DeepSeek技术社区

阿里面试官问：同样写系统提示，Claude Code 凭什么比你稳？

DeepSeek技术社区

Codex 接入 DeepSeek 教程：使用 CC-Switch 配置 API 渠道（图文详解）

通过以上步骤，您即可在 Codex 客户端中通过 CC-Switch 调用 DeepSeek API，实现 AI 编程助手的本地化部署。近期，OpenAI 推出的 Codex 客户端受到众多开发者关注，但由于网络环境及接口配置限制，不少朋友希望借助 DeepSeek API 来驱动 Codex，实现更稳定、灵活的模型调用。返回 CC-Switch 主界面，在渠道列表中选择刚刚创建的 DeepSee