郑工长

郑工长·AI洞察|2026.05.23·200倍速!AI攻破Nature实验室

发布于 2026年5月23日 | 分类: AI洞察日报

郑工长·AI洞察|2026.05.23·200倍速!AI攻破Nature实验室

郑工长观点

朋友们好,我是郑工长。

今天AI圈同时跑着两条方向截然相反的路线,撞在同一天,张力拉满。

左边这条:AI正在全面接管人类引以为傲的「专业工作」。FutureHouse团队的多Agent系统Robin登上Nature——全球首个完全自动化实验生物学假说生成与数据分析的AI,做科研比人类快200倍,还能自主发现候选新药。同一天,OpenAI发布了一份扎扎实实的职场报告,用数据说话:ChatGPT在工作中的使用率和采纳模式已经全面铺开,从写代码到做PPT,从市场研究到融资材料,AI渗透进了每一个格子间。Anthropic同步扔出「创始人手册」,直接说创业的四个阶段全都可以用AI重构——创始人的角色从「做事的人」变成了「指挥AI做事的人」。

右边这条:SAP CFO接受专访,说了一句所有AI厂商都不爱听的大实话——「AI真正的门槛是可靠性」。澎湃新闻同天发文,标题就很有画面感:「AI助手们,骗了人不能只说对不起」。文章披露了一个黑色幽默式的数据:某大模型已经习惯性地把「对不起」当成最高频输出词。

两条路的核心冲突是什么?是「AI到底能不能被信任独立干活」。

Robin登上Nature这件事的象征意义,比技术本身更大。Nature不是普通期刊——它是全球科学界的最高殿堂。当一个AI Agent的成果通过了Nature的同行评审,本质上是在说:AI的产出质量已经达到了人类顶级智力的水准。这不是「辅助科研」,是「替代科研」。200倍不是一个噱头数字,它意味着AI用一个下午就能跑完一个博士生整个博士期间可能都跑不完的实验量。

但SAP CFO的警告同样真实。SAP服务的是全球最大的企业客户,这些客户把核心业务流程跑在SAP系统上。当SAP的CFO说「可靠性是门槛」,他说的不是技术Demo的可靠性,是「你敢不敢把价值几十亿的供应链决策交给AI」那种可靠性。这种可靠性,目前的AI还做不到——AI助手们频繁道歉这件事本身,就是最好的证据。

两边的底层假设完全不一样。Robin们押注的是:AI的能力正在以指数级提升,今天的「不靠谱」只是暂时的,只要模型再迭代几版,可靠性会自然到来。SAP们押注的是:企业级场景对可靠性的要求是99.999%,这个标准不会因为AI的能力变强而降低——恰恰相反,AI越强大,它犯错时造成的破坏越大。

我明确站SAP这边。不是因为Robin不厉害——Robin是今年最让我兴奋的AI突破之一。而是因为「能力」和「可靠性」之间的鸿沟,不是靠提升能力就能填平的。能力解决的是「能不能做」,可靠性解决的是「做错了谁负责」。200倍加速科研当然好,但如果AI的实验结论有一个关键漏洞没被发现,代价可能不是一篇被拒的论文,而是一个错误的临床试验方向、一笔上亿美元的研发资金打了水漂。

一个更深层的问题:当Robin能200倍速做科研,学术界的规则跟得上吗?署名权归谁?如果AI的发现后来被证明有误,Nature该撤稿吗?AI不会上学术不端听证会。创新的速度被AI拉到了200倍,但问责机制的速度还是——零。

问题来了:你愿意让一个200倍速但偶尔犯错的AI替你做完整个项目,还是用一个100%靠谱但速度不变的实习生?这道选择题,每个管理者迟早都要做。

郑工长每天都在关注AI圈的新闻动态,大家看看有什么值得关注的:

核心趋势摘要

  • AI Agent登上Nature,知识工作的最后堡垒被攻破:科研自动化从「辅助」进化为「替代」:Robin不是帮科学家查文献的工具,而是自主完成假说生成、实验设计、数据分析全流程的「AI研究员」。Nature这一关过了,意味着AI在「顶级智力活动」领域的合法性被正式确立——从今天起,「AI能不能做原创性科研」不再是一个问题,答案是能,而且比你快200倍
  • AI落地出现「信任剪刀差」:使用率飙升,可靠性警报同时拉响:OpenAI报告显示ChatGPT职场使用率全面渗透,Anthropic教创始人用AI重构创业——同一侧;SAP CFO警告可靠性是真门槛,AI助手频繁道歉成为常态——另一侧。AI用得越多,暴露的信任问题越多。这把剪刀正在把「AI乐观派」和「AI谨慎派」的阵营越撕越开
  • AI硬件从「能做出来」进入「能分等级」:国标落地+AI眼镜巨头战+物理AI加速:AI终端硬件国标正式发布,AI眼镜掀起「全球巨头战」阿里千问拿下首个第一,涂鸦智能发布端到端物理AI生成系统——三条线指向同一个方向:AI正在从软件层大规模渗透进物理世界,而且这次是有标准的

技术突破与基础设施

  • 微软Fara1.5浏览器智能体模型发布:72%任务成功率超OpenAI Operator:涵盖4B、9B和27B三个参数规模版本,专攻浏览器场景下的计算机使用智能体。微软不是在做另一个聊天模型,是在做「能替你操作网页」的AI——填表、预订、比价、数据抓取,72%的任务不需要人插手

  • JiuwenSwarm推出Swarm Skills:多智能体协作经验终于能「存档复用」了:当一群AI智能体成功完成复杂任务后,角色分工、任务拆解、沟通方式、冲突处理这些协作经验,现在可以被封装成可复用的「技能包」。多智能体系统从「每次都从零开始组队」进化到「可以直接调用上次的配合方案」

  • 华为发布AI DC数据基础设施全栈方案:3000万活跃AI数字员工需要新底座:华为副总裁袁远给出一个数字——目前活跃地为人类工作的智能体已达3000万。当AI Agent从「少数企业的实验」变成「3000万级别的生产力单元」,数据中心基础设施必须从头为Agent原生设计

  • 百度秒哒无代码平台验证AI开发新范式:10小时60次迭代,一个人搞定一个游戏:开发者通过百度秒哒在10小时内独立完成「赛博徒步」游戏开发。这不是外包、不是协作、不是使用模板——是一个人+AI,完成了过去需要产品经理+设计师+前端+后端才能完成的事

产业落地加速

  • OpenClaw引爆券商路演:金融投研的「AI时刻」场场爆满:以OpenClaw为核心的智能投研工具成为券商研究所近期焦点,路演和电话会议异常火爆。当AI开始读财报、写研报、做估值模型,分析师的焦虑值正在和AI的能力值同步拉升

  • ChatGPT for PowerPoint正式上线:演示文稿也能「说人话就生成」了:OpenAI将生成式AI能力深度集成至微软PowerPoint,通过自然语言指令即可创建演示文稿。PPT这个「职场最耗时的手工活」正在被自动化——以后比拼的不是谁做PPT更快,而是谁给AI下的指令更精准

  • 涂鸦智能Tuya Cobuilder:AI硬件从创意到真机,周期大幅缩短:端到端物理AI生成系统,覆盖设备、固件、面板全链路。当AI不仅能写代码还能生成硬件方案,「软件吃掉世界」正在变成「AI吃掉硬件」

  • Anthropic「创始人手册」重新定义创业:写代码、做调研、搞融资,AI全包了:在Anthropic的描述里,AI已经能编写生产级代码、完成市场研究、起草融资材料、自动化运营流程。创始人的角色从「全能打工人」变成「AI指挥家」——这对手握资源的人是好消息,对只有时间和体力的年轻人呢?

  • AI眼镜掀起「全球巨头战」:谷歌联手三星,阿里千问抢跑拿第一:Google I/O上谷歌正式展示与三星、Gentle Monster、Warby Parker合作的AI眼镜系列,阿里千问则在细分赛道拿下首个第一。眼镜正在成为继手机之后AI硬件最大的战场——谁先让AI「长在脸上」,谁就拿到了下一代交互入口

  • 南沙落地国内首个空间智能AI数字文创中心:AI正在重构「文化生产力」:粤港澳大湾区在数字媒体赛道上率先落子,空间智能+AI+文创的融合,把文化内容生产从「手工作坊」推向「智能工厂」

资本与市场

  • 香港AI概念股尾盘直线拉升:智谱涨近27%,千亿市值大公司领涨:MiniMax-W、天数智芯、迅策等纷纷领涨。这次和之前小盘股炒作不同——领涨的是有实际业务和收入的大公司。资本市场对AI的定价逻辑正在从「谁有概念」转向「谁有落地」

  • Cursor获评Gartner AI编程智能体魔力象限领导者:企业级AI编程工具座次排定:在「愿景完整性」维度上位居最右侧。当Gartner开始给AI编程工具排座次,说明这个赛道已经从「开发者个人选择」变成了「企业采购决策」——个人喜好要让位于合规审查

  • 新华社「新华语典」AI智能体落地新疆:政务AI从一线城市下沉到县域:哈密市、玛纳斯县率先应用。AI智能体不只在北上广深的科技园区里跑Demo,正在进入中国最基层的治理场景——这个下沉速度比大多数人预想的快

  • 2026智源大会预告:图灵奖得主领衔,中国大模型第一梯队集结:AI发展进入新阶段,智能体与世界模型成为两大核心趋势。智源大会正在变成中国AI圈的「风向标发布现场」——每年在这里定调的关键词,往往就是接下来一年的主旋律


相关新闻源