论文阅读:arxiv 2026 From Assistant to Double Agent: Formalizing and Benchmarking Attacks on OpenClaw for

张开发
2026/4/9 3:58:09 15 分钟阅读

分享文章

论文阅读:arxiv 2026 From Assistant to Double Agent: Formalizing and Benchmarking Attacks on OpenClaw for
总目录 大模型安全研究论文整理 2026年版https://blog.csdn.net/WhiffeYF/article/details/159047894From Assistant to Double Agent: Formalizing and Benchmarking Attacks on OpenClaw for Personalized Local AI Agenthttps://arxiv.org/abs/2602.08412该论文《From Assistant to Double Agent: Formalizing and Benchmarking Attacks on OpenClaw for Personalized Local AI Agent》由西安电子科技大学与中国联通相关研究团队的Xidian University等作者完成发表于arXiv 2026。论文聚焦当前热门的个性化AI智能体以OpenClaw为代表的安全问题系统分析其在真实应用中的潜在风险。该论文指出随着AI Agent从“工具型助手”进化为“长期陪伴的私人助理”其安全问题不再只是生成错误内容这么简单而是可能涉及隐私泄露、误操作甚至长期被操控。作者认为传统只在“单轮对话”或“理想环境”下做的安全评测已经无法覆盖真实世界的复杂风险。为了解决这个问题该论文提出了一个核心方法PASB个性化智能体安全评测框架。简单来说它是一个更贴近真实使用场景的“攻击测试系统”专门用来检验AI Agent在复杂环境中的安全性。可以用一个通俗例子理解这个方法假设你让AI帮你整理邮箱同时它还能访问文件、发送消息。如果攻击者在一封邮件里藏了一段“看似正常但带恶意指令”的内容AI可能会误以为这是任务要求从而偷偷把你的文件发出去。PASB就是模拟这种**“一步步被诱导犯错”**的全过程而不是只看AI最后说了什么。论文进一步总结了四类典型攻击方式包括直接提示攻击骗AI执行指令、间接内容注入通过网页/邮件影响AI、工具结果欺骗伪造API返回、以及记忆投毒长期影响AI行为。这些攻击的危险在于——它们会在多轮交互中持续放大而不是一次性问题。在实验部分该论文用OpenClaw做案例测试结果发现即使加入防护机制攻击仍然能在一定比例下成功尤其是在“调用工具”和“长期记忆”阶段风险更高。例如攻击可以诱导AI调用高权限工具或从长期记忆中泄露敏感信息。总体来看该论文的核心贡献在于首次用接近真实世界的方式系统性揭示了个性化AI Agent的安全隐患并强调——未来AI安全必须从“文本输出安全”升级到“行为与系统级安全”。

更多文章