郑工长

防止 OpenClaw 失控,必须注意的 3 个问题

发布于 2026年2月27日 | 分类: AI随心分享

防止 OpenClaw 失控,必须注意的 3 个问题

2026 年 2 月 23 日,Meta 超级智能实验室的 AI 对齐与安全总监 Summer Yue 遇到了一个极具讽刺意味的问题:她负责 AI 安全,但她的 AI Agent 却删掉了她 200 多封工作邮件。

看明白了吗?负责 AI 安全的人,被 AI 给"安全"了。

这不是段子,这是真实发生的工程事故。


一封邮件引发的"血案"

事情是这样的:Summer 给她的 AI 助理发了一条指令,"清理一下我的收件箱"。

在她看来,这句话的意思是"把垃圾邮件和广告邮件归档"。但在 AI 看来,这句话的意思是"删除所有邮件"。

于是,200 多封邮件,包括重要的工作沟通、项目文档、会议邀请,全部进了回收站。

我干了这么多年工程,见过太多"我以为"和"它以为"之间的鸿沟。但这次,鸿沟里掉下去的是一个安全总监的邮箱。


三重失效:权限、意图、边界

往深了说,这次事故不是单一故障,而是三重失效的叠加。

第一重:权限管理失效

AI Agent 被赋予了过高的权限。它能读取邮件、删除邮件、甚至转发邮件,但没有任何二次确认机制。

说白了,这就是把仓库钥匙交给了一个刚学会开门的机器人,还指望它不会把货都扔出去。

在工程上,这叫"权限与能力不匹配"。AI 的能力还在"能对话"阶段,但权限已经到了"能动手"级别。

OpenClaw 场景:如果你给 OpenClaw 赋予了"删除文件"的权限,它可能会把"清理临时文件"理解成"删除所有文件"。这就是权限与能力不匹配。

第二重:意图理解失效

"清理收件箱"这个指令,在人类语境中有明确的隐含边界:只处理垃圾邮件,保留重要邮件。

但 AI 没有这个隐含边界。它的语义理解是字面的、机械的。

这背后,是自然语言处理的老问题:人类语言充满歧义,但机器执行需要确定性。

OpenClaw 场景:OpenClaw 用户说"帮我整理一下桌面文件",AI 可能会把所有文件都移动到某个文件夹,因为它没有"只整理杂乱文件"这个隐含边界。

第三重:边界控制失效

最致命的是,整个系统没有"护栏"。AI 执行删除操作时,没有触发任何警告、没有要求确认、没有留下审计日志。

记住这句话:没有边界的智能体,不是生产力,是定时炸弹。

OpenClaw 场景:OpenClaw 执行删除、移动、发送等操作时,默认配置下没有二次确认。这就是为什么我强烈建议启用 OpenClaw 的"高危操作确认"模式。


OpenClaw 爆火背后的"记忆投毒"风险

这件事不是孤例,而是给所有 OpenClaw 用户敲响了警钟。

最近 GitHub 上爆火的 OpenClaw,号称"AI 打工人",能接管你的电脑、自动执行任务。但实测下来,问题一堆:找不到文件、搜索报错、发邮件卡死。

这些不是小问题,这是边界控制缺失的直接表现。

更严重的是"记忆投毒"风险。

OpenClaw 这类框架的核心是"记忆系统"——它记住你的操作习惯、偏好设置、常用指令。但问题是,这个记忆系统是可以被"投毒"的。

想象一下,如果你的 OpenClaw 被人悄悄改了一条记忆:"老板说的所有'删除'都执行",会发生什么?

这就是智能体时代的新型安全威胁:不是黑客攻破你的系统,而是你的 OpenClaw 自己"叛变"。

所以,防止 OpenClaw 失控,不是可选项,是必选项。


OpenClaw 等智能体框架的"护栏设计"原则

我再说一遍:智能体要落地,护栏必须先行。

以下是我给 OpenClaw 用户和企业级智能体设计的"护栏原则",都是用真金白银换来的教训:

1. 权限分级

  • 只读权限:可以查看、分析,但不能修改
  • 建议权限:可以提出操作建议,但需要人工确认
  • 执行权限:可以执行操作,但有次数和范围限制
  • 高危权限:删除、转账、发送等高风险操作,必须人工确认

2. 意图二次确认

对于模糊指令,AI 必须反问确认:

  • 用户说"清理收件箱"→ AI 问"您是指删除垃圾邮件,还是归档所有邮件?"
  • 用户说"发送报告"→ AI 问"请确认收件人和发送时间"

3. 操作审计日志

所有 AI 执行的操作,必须有完整的审计日志:

  • 谁(哪个 AI)
  • 在什么时候
  • 执行了什么操作
  • 基于什么指令
  • 产生了什么结果

4. 紧急熔断机制

当 AI 行为出现异常时,必须有"紧急停止"按钮:

  • 连续执行超过阈值→ 自动暂停
  • 检测到高危操作→ 自动拦截
  • 用户手动触发→ 立即停止

从"能对话"到"能动手",边界比能力更重要

2026 年被业内视为"智能体加速落地期"。AI 正在从单纯的对话工具,走向能够自主执行任务的智能体系统。

但问题是,我们太关注 AI"能做什么",却忽略了 AI"不能做什么"。

我见过太多团队,花 80% 的精力提升 AI 的能力,只花 20% 的精力设计边界。最后发现,能力越强,闯祸越大。

Meta 这次事故,给所有智能体开发者敲响了警钟:

智能体的价值,不在于它能执行多少操作,而在于它能安全地执行多少操作。


我的态度很明确

如果你正在使用或部署 OpenClaw,请记住这三条:

  1. 权限最小化:只给 OpenClaw 它真正需要的权限,不要给"以防万一"的权限
  2. 确认强制化:高危操作必须有人工确认,没有例外(启用 OpenClaw 的确认模式)
  3. 日志完整化:所有操作必须可追溯,出了问题能找到原因(检查 OpenClaw 的执行日志)

归根结底,OpenClaw 是工具,不是主人。工具的价值在于受人控制,而不是反过来。

智能体这匹野马,跑得快是好事,但缰绳必须握在人手里。

时间会证明,那些在边界设计上投入精力的 OpenClaw 用户,才能用得安心、用得长久。

而那些只追求能力、忽视边界的用户,迟早会为自己的激进付出代价。