郑工长

郑工长·AI洞察|2025.12.05·实战突围!AI从"画饼"到"造血"的生死竞速

发布于 2025年12月5日 | 分类: AI洞察日报

郑工长观点


朋友们好,我是郑工长。今天AI圈有几件大事值得关注:首先是京东、飞猪、云知声等企业专家集体复盘,揭秘AI从"画饼"到"造血"的实战账本;其次是中科院团队突破AI诚信对齐难题,仅需千分之一数据让大模型学会"知之为知之";同时,Salesforce发布EDR系统,让AI智能体能像专业分析师一样做企业深度研究。

这让我想到了一个"AI从炫技到务实"的深刻转变。过去一年,我们见证了太多AI的"魔法时刻"——生成精美的图片、写出流畅的文章、进行复杂的对话。但今天,当京东、飞猪、云知声的专家们坐下来算账时,他们问的是最现实的问题:AI到底是在"画饼",还是在真的"造血"?如果AI仅仅停留在生成一些文案或图片,那它还不足以成为驱动增长的核心引擎。这种从"技术秀"到"价值算账"的转变,标志着AI行业正在进入一个更加务实、更加注重ROI(投资回报率)的新阶段。

更值得深思的是中科院团队的突破。他们提出的EliCal框架,仅需0.18%的标注数据就能达到传统方法98%的性能,解决了大语言模型的"诚信对齐"难题。这就像是给AI装上了"自知之明"的开关——让AI学会区分"我知道什么"和"我不知道什么",而不是为了完成任务而胡编乱造。在AI大规模应用的今天,这种"诚信"能力可能比单纯的"聪明"更重要。想象一下,如果一个医疗AI系统因为"面子"而不敢承认自己不确定,后果可能是灾难性的。

与此同时,Salesforce的EDR系统展示了AI智能体的另一个进化方向:从简单的任务执行者,升级为能够像专业分析师团队一样协作的"企业研究大脑"。这个系统包含主规划智能体和四个专业智能体,能够处理复杂的企业研究任务。这不再是单个AI的"单打独斗",而是多个AI的"团队作战",每个智能体都有自己的专长,通过协作完成更复杂的任务。

那么,当AI从"画饼"走向"造血",企业该如何建立科学的AI价值评估体系?在AI诚信成为核心竞争力的时代,我们又该如何平衡AI的"自信"与"诚实"?

今日快讯汇总,请关注落地案例与趋势:

核心趋势摘要

  • AI价值评估从"画饼"转向"造血" 企业开始系统复盘AI投入产出,关注AI是否真正创造业务价值,而非停留在技术演示层面。
  • 大模型诚信对齐成技术新前沿 中科院团队突破AI诚信对齐难题,仅需千分之一数据让大模型学会"知之为知之",解决AI"胡说"问题。
  • 多智能体协作从简单任务走向复杂研究 AI智能体正从单一任务执行者,向能够像专业团队一样协作处理复杂研究任务的方向演进。

革命性突破

  • 中科院突破AI诚信对齐 中科院团队提出EliCal框架,通过两阶段训练解决大语言模型诚信对齐难题,仅需0.18%标注数据达到传统方法98%性能,并在未见任务上表现优异。
  • 斯坦福ReCAP框架性能提升112.5% 斯坦福和MIT研究团队推出新型AI智能体推理框架ReCAP,在长上下文任务中全面超越主流框架ReAct,通过递归树结构和三大机制提升性能。
  • OpenAGI发布Lux基座模型 OpenAGI基金会发布首个"computer-use"基座模型Lux,号称是世界上最好、最快、最便宜的computer-use模型,已通过SDK对外开放。

产业落地加速

  • 京东飞猪云知声复盘AI实战账本 企业专家集体复盘AI提效实战,探讨AI从"画饼"到"造血"的转变,关注AI是否真正成为驱动增长的核心引擎。
  • Salesforce发布EDR企业深度研究系统 Salesforce AI Research开发EDR系统,这是一个可操控的多智能体AI框架,能像专业分析师团队一样处理复杂企业研究任务。
  • 群思AI语音客服线上发布会启幕 群思AI语音客服线上发布会即将启幕,针对医疗、金融、政务等高频服务场景中传统智能客服的局限性,推出AI解决方案。
  • 新华网"AI探真"智能体正式上线 新华网联合中国科学技术大学、支付宝共同研发的"AI探真"智能体正式上线,作为我国辟谣领域首个中央主流媒体AI智能体。
  • 宁夏银行AI大模型知识库项目招标 宁夏银行发布AI大模型知识库场景建设项目竞争性磋商公告,显示金融行业对AI大模型落地的实际需求。

技术生态进展

  • 亚马逊让Agent"长出"手脚 亚马逊云科技在re:Invent上强调AI Agent时代已来,未来将出现数十亿AI Agent,为工作流自动化提供完整解决方案。
  • 基于文本AI的终结?Agent协作复制思维 在Agentic AI时代,多智能体系统让AI学会组队协作,Token效率暴涨,推动AI从单一模型向协作系统演进。
  • SIEM与数据湖融合演变 安全信息与事件管理(SIEM)市场正经历重大转变,由安全数据湖、数据管道及高级分析平台驱动,从集中式日志管理向智能分析演进。
  • AI生成只占10%?工程深海占90% 业界共识浮出水面:在严肃的企业级应用开发中,AI生成或许只占最终成功交付的10%,90%在于工程化、集成与业务流程适配。

资本与市场

  • 专访大模型创业公司商业化突围 澎湃新闻专访大模型创业公司,探讨在AI大模型讨论热潮不再的背景下,创业公司如何在商业化中实现突围。
  • UiPath股价大涨超8% UiPath股价在盘前交易中上涨超过8%,此前这家自动化软件提供商在第三财季的营收和盈利均超过预期。
  • 机器人行业泡沫破灭后的新巨头 36Kr分析机器人行业泡沫破灭后的格局,认为未来具备真正壁垒的机器人企业,会是最早实现"从产品能力到组织资产"转化的企业。
  • 卢伟冰:小米AI大模型进展远超预期 小米集团合伙人卢伟冰表示,在AI大模型和应用方面的进展远超预期,显示小米在AI领域的加速布局。

相关新闻源