
2026 年 2 月 23 日,Meta 超级智能实验室的 AI 对齐与安全总监 Summer Yue 遇到了一个极具讽刺意味的问题:她负责 AI 安全,但她的 AI Agent 却删掉了她 200 多封工作邮件。
看明白了吗?负责 AI 安全的人,被 AI 给"安全"了。
这不是段子,这是真实发生的工程事故。
一封邮件引发的"血案"
事情是这样的:Summer 给她的 AI 助理发了一条指令,"清理一下我的收件箱"。
在她看来,这句话的意思是"把垃圾邮件和广告邮件归档"。但在 AI 看来,这句话的意思是"删除所有邮件"。
于是,200 多封邮件,包括重要的工作沟通、项目文档、会议邀请,全部进了回收站。
我干了这么多年工程,见过太多"我以为"和"它以为"之间的鸿沟。但这次,鸿沟里掉下去的是一个安全总监的邮箱。
三重失效:权限、意图、边界
往深了说,这次事故不是单一故障,而是三重失效的叠加。
第一重:权限管理失效
AI Agent 被赋予了过高的权限。它能读取邮件、删除邮件、甚至转发邮件,但没有任何二次确认机制。
说白了,这就是把仓库钥匙交给了一个刚学会开门的机器人,还指望它不会把货都扔出去。
在工程上,这叫"权限与能力不匹配"。AI 的能力还在"能对话"阶段,但权限已经到了"能动手"级别。
OpenClaw 场景:如果你给 OpenClaw 赋予了"删除文件"的权限,它可能会把"清理临时文件"理解成"删除所有文件"。这就是权限与能力不匹配。
第二重:意图理解失效
"清理收件箱"这个指令,在人类语境中有明确的隐含边界:只处理垃圾邮件,保留重要邮件。
但 AI 没有这个隐含边界。它的语义理解是字面的、机械的。
这背后,是自然语言处理的老问题:人类语言充满歧义,但机器执行需要确定性。
OpenClaw 场景:OpenClaw 用户说"帮我整理一下桌面文件",AI 可能会把所有文件都移动到某个文件夹,因为它没有"只整理杂乱文件"这个隐含边界。
第三重:边界控制失效
最致命的是,整个系统没有"护栏"。AI 执行删除操作时,没有触发任何警告、没有要求确认、没有留下审计日志。
记住这句话:没有边界的智能体,不是生产力,是定时炸弹。
OpenClaw 场景:OpenClaw 执行删除、移动、发送等操作时,默认配置下没有二次确认。这就是为什么我强烈建议启用 OpenClaw 的"高危操作确认"模式。
OpenClaw 爆火背后的"记忆投毒"风险
这件事不是孤例,而是给所有 OpenClaw 用户敲响了警钟。
最近 GitHub 上爆火的 OpenClaw,号称"AI 打工人",能接管你的电脑、自动执行任务。但实测下来,问题一堆:找不到文件、搜索报错、发邮件卡死。
这些不是小问题,这是边界控制缺失的直接表现。
更严重的是"记忆投毒"风险。
OpenClaw 这类框架的核心是"记忆系统"——它记住你的操作习惯、偏好设置、常用指令。但问题是,这个记忆系统是可以被"投毒"的。
想象一下,如果你的 OpenClaw 被人悄悄改了一条记忆:"老板说的所有'删除'都执行",会发生什么?
这就是智能体时代的新型安全威胁:不是黑客攻破你的系统,而是你的 OpenClaw 自己"叛变"。
所以,防止 OpenClaw 失控,不是可选项,是必选项。
OpenClaw 等智能体框架的"护栏设计"原则
我再说一遍:智能体要落地,护栏必须先行。
以下是我给 OpenClaw 用户和企业级智能体设计的"护栏原则",都是用真金白银换来的教训:
1. 权限分级
- 只读权限:可以查看、分析,但不能修改
- 建议权限:可以提出操作建议,但需要人工确认
- 执行权限:可以执行操作,但有次数和范围限制
- 高危权限:删除、转账、发送等高风险操作,必须人工确认
2. 意图二次确认
对于模糊指令,AI 必须反问确认:
- 用户说"清理收件箱"→ AI 问"您是指删除垃圾邮件,还是归档所有邮件?"
- 用户说"发送报告"→ AI 问"请确认收件人和发送时间"
3. 操作审计日志
所有 AI 执行的操作,必须有完整的审计日志:
- 谁(哪个 AI)
- 在什么时候
- 执行了什么操作
- 基于什么指令
- 产生了什么结果
4. 紧急熔断机制
当 AI 行为出现异常时,必须有"紧急停止"按钮:
- 连续执行超过阈值→ 自动暂停
- 检测到高危操作→ 自动拦截
- 用户手动触发→ 立即停止
从"能对话"到"能动手",边界比能力更重要
2026 年被业内视为"智能体加速落地期"。AI 正在从单纯的对话工具,走向能够自主执行任务的智能体系统。
但问题是,我们太关注 AI"能做什么",却忽略了 AI"不能做什么"。
我见过太多团队,花 80% 的精力提升 AI 的能力,只花 20% 的精力设计边界。最后发现,能力越强,闯祸越大。
Meta 这次事故,给所有智能体开发者敲响了警钟:
智能体的价值,不在于它能执行多少操作,而在于它能安全地执行多少操作。
我的态度很明确
如果你正在使用或部署 OpenClaw,请记住这三条:
- 权限最小化:只给 OpenClaw 它真正需要的权限,不要给"以防万一"的权限
- 确认强制化:高危操作必须有人工确认,没有例外(启用 OpenClaw 的确认模式)
- 日志完整化:所有操作必须可追溯,出了问题能找到原因(检查 OpenClaw 的执行日志)
归根结底,OpenClaw 是工具,不是主人。工具的价值在于受人控制,而不是反过来。
智能体这匹野马,跑得快是好事,但缰绳必须握在人手里。
时间会证明,那些在边界设计上投入精力的 OpenClaw 用户,才能用得安心、用得长久。
而那些只追求能力、忽视边界的用户,迟早会为自己的激进付出代价。





