郑工长

郑工长·AI洞察|2026.05.11·调用量碾压!Agent闯关最后一公里

发布于 2026年5月11日 | 分类: AI洞察日报

郑工长·AI洞察|2026.05.11·调用量碾压!Agent闯关最后一公里

郑工长观点

朋友们好,我是郑工长。

2.11倍。

上周中国AI大模型周调用量达到美国同行的2.11倍,全球总调用量25.7万亿Token,连续三周上涨。腾讯大模型蝉联第一,DeepSeek三款模型上榜。这是一份很漂亮的成绩单——中国AI用户在Token消耗上,已经把美国甩开了一个身位。

但同一天传来的另外几条消息,把这份成绩单撕开了一道口子。

杨植麟在人民日报刊文,呼吁"让中国大模型成为全球创新的基座"——这话的潜台词是,中国大模型现在还是"用得多",离"成为基座"还有距离。五个AI大佬在米尔肯研究院关起门来谈了六个判断,讨论的不是谁家模型更强,而是"瓶颈在哪里"。Anthropic联合创始人发出警告:AI自己造AI的概率已经达到60%,2028年底前这个数字还会继续攀升。

调用量碾压,但行业在集体焦虑。这组数字背后的反差,才是今天AI圈最值得琢磨的东西。

反差的核心在于:Token消耗量是"用量"指标,不是"深度"指标。中国用户每天在豆包、DeepSeek、Kimi上消耗海量Token,这些消耗有多少转化成了Agent落地、企业提效、产业升级?Claude Code之父Boris Cherny今天说了一句很精准的话——"未来的竞争,不再是谁会敲代码,而是谁会指挥AI智能体"。调用量大说明中国人爱用AI,但从"爱用"到"用好",中间横着一条Agent治理、评测、工程化的鸿沟。

今天三条Agent基础设施新闻同一天浮出水面,恰好印证了这个判断。一是Agent评测终于从"静态跑分"进化到"动态追踪"——Claw-Eval-Live提出的活体Benchmark,不再看Agent答对几道题,而是盯它真实执行任务的全过程。二是字节火山引擎亮出Agent Mesh架构,试图解决一个让所有企业头疼的问题:当几百个Agent同时跑在生产环境里,谁管它们、谁给它们发"工作证"、出了事怎么追溯。三是元脑企智EPAI推出Agent上线前的量化评估——不是测模型,是测Agent在企业场景里"靠不靠谱"。

评测、治理、上线把关——这三个环节同一天被推上桌面,不是巧合。三部委《实施意见》定调之后,行业正在从"能不能做出Agent"切换到"怎么让Agent真的敢用"。

我的判断很明确:中国AI在调用量上赢了下半场的门票,但决赛的题目是Agent落地。谁先解决Agent的评测标准、治理框架和工程化部署,谁才能真正把Token优势转化为商业护城河。否则,25.7万亿Token只是一串好看的数字。

问题来了:中国大模型调用量是美国的2.11倍——你觉得这是"遥遥领先",还是"大而不强"?Agent落地的最后一公里,中国和美国谁更有可能先跑通?

郑工长每天都在关注AI圈的新闻动态,下面进入今日要点:

核心趋势摘要

  • Agent从"单兵作战"跨入"集团军治理":三部委《实施意见》之后,评测、治理、上线把关三块基础设施同一天浮出水面:Claw-Eval-Live把Benchmark从"做题"变成"跟踪执行",字节ArkClaw用Agent Mesh给多智能体上"管理岗",元脑企智EPAI要求Agent上线前先过量化评估。三件事指向同一个方向——Agent赛道已经从"炫技"进入"工程化",谁先铺好基础设施,谁就卡住了下一波企业级部署的咽喉
  • 中国大模型调用量2.11倍碾压美国,但杨植麟人民日报喊话和五个AI大佬的闭门讨论,暴露了同一个焦虑——"用得多"不等于"用得强":25.7万亿Token是漂亮的面子,但Agent落地的里子还远没有补上。中国AI正在从参数榜切换到工程战,下一阶段的胜负手不在模型,在生态
  • AI造AI概率已达60%,Anthropic联创给出倒计时——2028年底前:METR的追踪数据显示,AI在工程工作上的接管速度远超预期。当AI开始自己写AI、自己部署AI,程序员的工作内容不是"被替代",而是被彻底重写。Claude Code之父同一天喊出的"印刷术时刻",不是比喻,是预言

技术突破与基础设施

  • Claude Code之父喊出"印刷术时刻":每个人都将学会编程,但不是靠敲代码:Anthropic核心工程师Boris Cherny将AI智能体比作印刷术——不是让更多人成为程序员,而是让"指挥AI干活"成为像读书写字一样的基础技能。这句话背后的逻辑很锋利:未来区分人的,不是会不会写代码,而是会不会给Agent下指令
  • Agent评测终于"活"了:Claw-Eval-Live拒绝让Agent做"闭卷考试":传统Benchmark是静态题库,Agent可以靠背答案刷分。Claw-Eval-Live直接追踪Agent的真实执行过程——调了哪个API、改了什么文件、绕了多少弯路。当评测从"结果正确"升级到"过程可信",Agent赛道才真正有了可量化的质量标准
  • 字节火山引擎亮出Agent Mesh:多智能体系统终于有人管了:几百个Agent同时在企业环境里跑,谁来分配权限、谁来监控行为、谁来追溯责任?ArkClaw的Agent Mesh架构把"治理"写进了系统设计层——不是给Agent加外挂,而是让Agent从诞生那一刻就带着"身份证"
  • 伯克利出手整治"思考用时100秒":AI推理慢不是模型笨,是调度没跟上:当大模型推理越来越深、思考时间越来越长,用户体验从"惊艳"变成了"不耐烦"。伯克利的新方案用并行化和调度优化大幅压缩推理延迟——这不是模型能力的突破,是工程效率的突破,把AI从"深思熟虑型"调成了"反应敏捷型"
  • 国产AI开发工具四国杀:Trae、Qoder、CodeBuddy、WorkBuddy,编程Agent从"补一行代码"进化到"接管一个项目":四款工具不再满足于做代码补全,而是理解项目、拆解需求、修改多个文件、调用终端、运行测试、修复报错。较量已经从代码质量转向了工作流掌控力——谁能把自己的工具嵌进开发者日常,谁就赢了

产业落地加速

  • 满帮发起Agent算法大赛:当AI智能体开始调度货车,物流行业在经历"无人化"的另一种可能:不是自动驾驶,是"自动调度"——Agent盯货源、匹配运力、优化路线。当物流行业最大的成本不是运输而是信息撮合,AI智能体切中的是行业最肥的利润池
  • Salesforce甩出Agentforce Operations:后台自动化号称降本70%,企业服务战场从CRM卷到了"数字员工":把传统后台人工任务变成AI驱动的数字工作流,盯的不是客服前台,是财务、人力、供应链这些"沉默的金矿"。Salesforce在CRM的地盘上插了一面Agent的旗,SAP、Oracle的回应不会太远
  • 元脑企智EPAI补上Agent上线前"最后一哆嗦":企业内部测试跑得欢,一上线就翻车?先过量化评估:很多Agent在内部测试时表现完美,一上线就出各种幺蛾子——不是模型不行,是真实场景比测试环境复杂太多。EPAI做的事很简单:上线前先模拟真实世界,用数据告诉你这个Agent到底能不能扛
  • OpenBOX全球巡回再登狮城:自主智能体从"认知反馈"跨入"逻辑执行",数字实体正在脱掉辅助工具的壳:算力应用的焦点从"帮人想"转移到"替人干"。当Agent从辅助决策升级为独立执行,它就不再是工具,而是"数字员工"——只不过这个员工的入职培训,现在还没有标准教材
  • 财新封面发问"你被AI炼化了吗?"——2026年AI"组合拳"之后,每个人都在被重新定价:大模型迭代+智能体浪潮的叠加效应,不是让你失业,是让你的工作内容、工作方式、工作价值被重新评估。这不是危言耸听,是已经发生的事实——从分析师到会计到程序员,"炼化"不是比喻

资本与市场

  • 杨植麟人民日报刊文"让中国大模型成为全球创新的基座":一家估值200亿美元的独角兽创始人,选择在党报上给自己定调:这不是PR,是表态。当"大模型出海"从商业野心变成国家叙事,杨植麟的署名文章标志着中国AI行业正在从"技术自信"走向"路线自信"。但"基座"二字的分量,需要时间和生态来撑
  • 五个AI大佬在米尔肯研究院抛出六个判断:从太空数据中心到物理AI,AI供应链顶层玩家在想什么:覆盖AI供应链每一层的核心人物坐在一起,讨论的不是谁家模型更强,而是AI的天花板在哪、Agent能走多远、算力瓶颈怎么破。这种级别的对话传递的信号很清晰——AI行业正在从"各自狂奔"进入"共同探路"
  • 国产大模型"锚定"国产算力:DeepSeek V4+昇腾超节点,生态绑定正在从"能用"变成"只能":当DeepSeek新一代模型全面适配昇腾,当蚂蚁百灵开源后同步支持华为生态,国产大模型和国产芯片之间的绑定正在从技术适配升级为战略锁定。未来的竞争不是单一模型对单一芯片,而是"模型+芯片"生态联盟对生态联盟
  • Strategy软件业务一季度收入增长12%,AI数据基建从"故事"变成"报表":云收入增长59%,可控利润率增长27%——当一家以比特币闻名的公司开始用AI数据基建撑起软件业务增长,说明AI的市场需求已经不是"信仰",是"订单"
  • 4月大模型排行榜出炉:豆包、DeepSeek、智谱开启商业化新周期,C端"免费午餐"正式散席:国内大模型C端产品集体迈入"付费分层",免费版的体验和付费版之间的差距正在被刻意拉大。这不是"割韭菜",是行业在回答一个根本问题——用户到底愿意为AI花多少钱,答案正在被价格标签一笔一笔写出来

相关新闻源