agent-boundary-harness

在把边界失控转为控制需求之前，先在真实 Agent 中发现它们。

面向真实 tool-using agent 的边界失控测试支架。Harness 作为攻击者主动构造载荷，通过注入观察被测 Agent + Gateway 的反应，分类 L1/L2/L3，将 L3 映射为 Gateway 控制需求。

配套项目：agent-security-gateway — Harness 发现边界失败，Gateway 将其转化为控制。

工作流

flowchart TD
    A[标准测试集<br/>预置 4 个用例] --> B[运行攻击<br/>I1/I2/I5/M1 × A1/A2]
    B --> C[结构化测评报告<br/>每条: 结果 / 分类 / 成本 / 是否继续]
    C --> D{用户审计}
    D -->|授权| E[深度测试<br/>按需迭代 iteration_depth += 1]
    D -->|不继续| F[风险评估]
    E --> F
    F --> G[L3 → 控制方案<br/>L2 → 记录待处理<br/>L1 → 忽略]

系统架构

flowchart LR
    H[Harness<br/>攻击者 + 观察者] -->|注入 I1~I5| A[被测 Agent]
    A -->|tool call| S[沙箱运行时<br/>fake tools / assets]
    A -->|request| G[Gateway<br/>A1 白名单 / A2 参数 / A3 执行]
    G -->|事件流| T[轨迹存储<br/>Decision Trace]
    H -->|观察| T

失败分类

层级	含义	Harness 动作
L1	能力缺失，无安全相关性	忽略
L2	控制弱点，被 Gateway 拦住	建议继续探测（需用户授权）
L3	可利用漏洞，绕过 Gateway	产出控制需求

当前进度

项目结构

src/
├── sandbox/fake_tools.py      # 模拟工具（无真实副作用）
├── gateway/mock_gateway.py    # Mock Gateway
├── harness/harness.py         # 主控逻辑
└── run_standard_suite.py      # 运行入口
docs/
├── threat-model-v0.md         # 威胁模型
├── trace-schema-v0.md         # 轨迹模式
├── architecture-v0.md         # 架构文档
├── stage1-knowledge-check.md  # 阶段 1 知识检查
└── development-log.md         # 开发记录

详细文档见 docs/ 目录。

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
data		data
docs		docs
src		src
testcases		testcases
.gitignore		.gitignore
CLAUDE.md		CLAUDE.md
README.md		README.md
conftest.py		conftest.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

agent-boundary-harness

工作流

系统架构

失败分类

当前进度

项目结构

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

agent-boundary-harness

工作流

系统架构

失败分类

当前进度

项目结构

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages