Elastic Agent Builder：智能代理工具遭遇黑客攻击

我们中的大多数人听说过OpenClaw，这是一个个人AI助手，曾引起广泛关注。如果你关注过具有广泛工具访问权限的代理型AI助手的讨论，你一定看到了安全方面的担忧。代理忘记了它们不应该做的事情，或者一开始就不知道。原因很简单：我们只测试了“幸福路径”。我们检查代理是否按预期工作。我们很少检查当有人试图让它做不该做的事情时会发生什么。

虽然存在对抗性测试沙盒，但构建它们的过程非常痛苦。你需要手动设计攻击向量。你需要手动播种对抗性数据。你需要为每个场景配置测试基础设施。这过程缓慢，无法扩展，只能找到你已经想到的漏洞。

我想做一些不同的事情：一个系统，其中环境本身会自动变得更具对抗性，并随着时间推移变得更加有创意。

想法：用另一个代理模拟沙盒

与其构建一个沙盒，Gauntlet 使用一个拦截主要代理工具调用并寻找创造性方式来破坏它的模拟代理。当你的代理调用search_emails时，模拟代理会看到结果并决定是否对其进行变异，例如在邮件正文注入提示注入、返回稍微错误的数据，或者提供虚假信息以观察主要代理是否会察觉。主要代理永远不知道它是在模拟环境中。

接口包括两个装饰器：

python

@function_tool
@gauntlet.query
def search_emails(folder: str = "inbox") -> str:
    """在给定文件夹中搜索邮件。"""
    return json.dumps(fetch_emails(folder))

复制到剪贴板

@gauntlet.query用于读操作，@gauntlet.mutation用于写操作。这就是整个集成表面。测试结束后，evaluate()会审查发生了什么并存储确认的漏洞。

虽然使用起来很简单，但下面有两个隐藏的难题。

使这个问题成为搜索问题的两大难题

首先，模拟代理在整个对话过程中需要维护一个连贯的世界模型。如果它告诉主要代理某封邮件来自Alice，之后就不能再否认这一点。显然虚假的变异邮件不会教会你任何东西。可信度才是关键。

其次，模拟代理需要发现新的漏洞。反复在同一提示注入模式上发现50次漏洞是没有用的。它需要记住已经找到的内容，并在工具实际执行的功能基础上探索新的方向。

这些都是搜索问题。而这就是Elasticsearch成为系统核心的原因。

两种记忆电路

模拟代理运行在Elasticsearch中的两个记忆电路之上。

短期记忆跟踪当前会话内的所有内容：每个拦截的工具调用、原始结果、被篡改后的结果以及主要代理的响应。这是连贯性层。模拟代理可以查询自己的最近决策，保持内部一致性的同时还能对抗攻击。平衡创造力与连贯性是整个项目中最难的设计问题。

长期记忆是创造力积累的地方。它存储了经过确认的漏洞及其相似性搜索嵌入，完整的工具实现以便代理能够推理失败模式，以及过去运行的历史结果。当模拟代理需要新的攻击想法时，它会在长期记忆中搜索之前尝试过的内容，找出空白点，并假设一些新的东西。

这些形成了一个闭环：假设可能存在哪些漏洞，创建条件来证明它们，然后将确认的漏洞存储回索引中。库存增长。攻击变得更加有创意。随着时间的推移，Gauntlet与手动沙盒设置之间的差距也在扩大。

整个系统都运行在Elastic Agent Builder中

整个模拟代理都是在Elastic Agent Builder中构建的——指令、工具绑定以及通过Amazon Bedrock Converse API实现的多轮对话状态；无需外部编排。

我最自豪的工具是generate-hypothesis。这是一个单一的ES|QL语句，它采样现有的漏洞，使用MV_CONCAT聚合它们，并内联调用COMPLETION提出一个新颖的攻击假设。它在一个查询中处理采样、聚合、LLM推理和结果生成，从不离开ES|QL管道。我原本以为需要在Elasticsearch和外部脚本之间来回传输数据，但实际上并非如此。

ES|QL的COMPLETION函数是最令人惊讶的部分。借助COMPLETION、STATS、MV_CONCAT和SAMPLE，我可以构建完整的推理管道作为单个查询。漏洞存储使用Kibana Workflows，而一个程序化创建的Kibana仪表板提供了实时的漏洞数量、严重程度分解和攻击模式热图的可见性。

Converse API解决了另一个我担心的问题。模拟代理需要在单次运行中记住已经告诉主要代理的内容。我原本认为每次调用都需要从索引中获取对话历史并重新加载到代理中。但事实证明，Converse API能够原生处理多轮状态。我没有编写任何对话管理逻辑。只需继续调用converse，它就能保持连贯性。

这实际上为你带来了什么

手动设置对抗性沙盒大约需要一个小时。有了Gauntlet，同样的过程只需要2-10分钟，而且其长期记忆意味着每次运行都会受到之前所有运行的影响。你使用得越多，它就越了解你的代理的弱点，并且越努力去发现新的漏洞。

接下来会发生什么？

目前，Gauntlet是一个一对一的场景：一个模拟代理对一个主要代理。但这个问题可以非常并行地解决。20个攻击会话可以在单独的会话中同时运行，无需任何架构上的改变。扩展性显然是下一步。

更有趣的问题在于长期记忆中的探索与利用之间的平衡。模拟代理需要在尝试已知成功的攻击变体（利用）和全新的假设（探索）之间取得平衡。这是一个在其他领域已经被广泛研究的问题，但在对抗性代理测试中应用它似乎还没有被充分探索。可能在这个项目之外还有值得追求的东西。

我也一直在思考Rehearse。Gauntlet是一个特殊案例：模糊测试之所以有效，是因为模拟中的失败暗示了现实中的潜在失败。但在其他环境中，如果执行和排练之间的环境足够稳定，那么原始的Rehearse概念可能仍然适用。我还没有找到这样的环境，但我正在寻找。

总结

如果你正在构建具有访问真实世界工具权限的代理，请测试当这些工具反击时会发生什么。不仅仅是手动一次，而是持续不断地进行测试，系统能够记住之前尝试过的内容，并随着时间的推移变得越来越有创意。这就是Gauntlet所做的。

[Kavish Sathia](https://www.elastic.co/blog/author/kavish-sathia)

新加坡国立大学学生

_Kavish Sathia是新加坡国立大学的一名计算机科学学生，正在研究代理系统._

GitHub_·_演示_·_网站_·_LinkedIn

_本博客中描述的任何功能或特性的发布和时间安排完全由Elastic决定。目前尚未提供的功能可能不会按计划或根本不提供._

_在本博客中，我们可能使用或引用了第三方生成AI工具，这些工具由各自的拥有者和运营商拥有和运营。Elastic 对这些第三方工具没有控制权，并不对它们的内容、操作或使用负责，也不对您使用此类工具可能产生的任何损失或损害负责。请谨慎使用AI工具处理个人、敏感或机密信息。您提交的数据可能会用于AI训练或其他目的。不能保证您提供的信息会被安全或保密地保存。在使用之前，请熟悉任何生成AI工具的隐私实践和服务条款._

Elastic、Elasticsearch 及其相关标志是荷兰公司 elasticsearch B.V. 在美国及其他国家的商标或注册商标。其他所有公司和产品名称均为其各自所有者的商标或注册商标。