郑工长·AI洞察｜2025.12.25·AI的阿喀琉斯之踵：逻辑99.6%，常识仅52%

郑工长·AI洞察｜2025.12.25·模型“双人格”震惊，90%落地

郑工长观点

朋友们好，我是郑工长。今天AI圈最刺激的，莫过于印度统计学院那份“炸裂”报告：顶级大模型在逻辑推理上近乎完美地达到了99.6%的准确率，然而在常识判断上却仅有随机水平的52%！这简直是给高歌猛进的AI泼了一盆冷水。

更有意思的是，一边是底座大模型暴露出严重的“常识短板”，另一边，腾讯混元大模型驱动的ETC助手智能体，在特定场景下实现了90%的问题解决率！这感觉就像一个“高考状元”进了考场能解最难的数学题，出门却连自己家门钥匙都找不着，然后他又神奇地帮人解决了90%的停车缴费问题。这不就活生生上演了一出AI版《一个人的武林》，局部战力爆表，整体却可能有点“偏科”吗？

你以为这就完了？大模型进化放缓的声音还在耳边，但我们看到今年前11个月，中国大模型政企采购金额已经突破了21亿元。这说明市场对AI的需求是真金白银的，但同时，行业也在反思，这些投入买回来的AI，是真的“智慧”，还是仅仅是“高能”？

说白了，现在AI圈就像是盖一栋超级大厦，地基部分（大模型）虽然材料堆得足，局部承重（逻辑推理）也无懈可击，但在最关键的“人居体验”（常识判断）上却出了问题。而那些智能体，更像是在这栋大厦里抢先装修好的几个样板间，功能单一但效率惊人。当基础的“常识”都成为AI前进的绊脚石，再高深的逻辑推导，又能在真实世界中走多远？

那么问题来了，当AI开始大规模落地，我们却发现它连“基本常识”都缺乏，你认为这会是未来AI应用最大的“阿喀琉斯之踵”吗？

下面进入今日要点：

核心趋势摘要

大模型“双重人格”：逻辑99.6%常识仅52%惊呆业界 印度统计学院研究揭示顶级大模型在逻辑推理上近乎完美，但在常识判断上表现堪忧，引发对AI真实智能水平的深刻反思。
AI智能体加速特定场景落地，ETC助手问题解决率达90% 腾讯混元大模型赋能ETC助手，通过AI智能体实现90%的问题解决率，显示出AI在垂直应用领域的强劲潜力。
中国大模型政企采购前11月超21亿元，行业呼唤穿越“徘徊期”方案 尽管市场采购需求旺盛，但有声音指出大模型进化速度放缓，行业正探索如何突破当前瓶颈，实现高质量发展。

革命性突破

大模型“双重人格”揭示AI深层瓶颈：逻辑99.6%vs常识52% 印度统计学院团队对14个大语言模型进行测试，发现AI在逻辑推理上近乎完美，但在常识判断上仅达随机水平，暴露其真实世界理解的巨大鸿沟。
ChemOntology计算成本减半，加速化学反应发现效率 日本北海道大学开发的ChemOntology框架，通过将人类直觉“编码”到系统中，成功将化学反应机理研究的计算成本减半，显著加速科学发现进程。
普林斯顿大学GenEnv框架：AI智能体像人一样“玩游戏”成长 研究团队提出GenEnv框架，通过让AI智能体与环境模拟器“共同进化”游戏，有效解决传统训练数据昂贵难题，使7B模型在多项测试中最高提升40.3%。

产业落地加速

腾讯混元大模型赋能ETC助手，AI智能体问题解决率达90% 腾讯云与高灯科技联合发布ETC领域首款AI智能体“助手Agent”，基于混元大模型，通过文本或语音指令将ETC问题解决率提升至90%，大幅优化用户体验。
GetGo携手AWS扩展汽车共享平台，自动索赔报销速度提升10倍 GetGo与AWS合作构建数据驱动型汽车共享平台，将自动处理索赔速度提高到10倍，并提供近乎实时的车队管理，展示AI在服务自动化中的巨大潜力。
YOYO智能体联手飞猪旅行，打造有温度的智慧旅行体验 YOYO智能体与飞猪旅行合作，旨在简化旅行规划、预订等繁琐流程，为用户提供更便捷、个性化的智慧旅行服务。
德州交通智慧驾培快鸭智能体斩获全国大赛特别推荐奖 在首届综合交通运输大模型智能体创新应用大赛全国总决赛中获奖，彰显AI智能体在交通领域的实际应用能力和创新潜力。
中国人寿成功举办AI大模型竞赛，系统锻造人工智能实战能力 中国人寿举办首届AI大模型竞赛，深度契合国家科技强国、金融强国战略，旨在提升内部员工的人工智能实战能力。

技术生态进展

Gartner权威解读AI智能体困境与趋势，2025仍是演进关键年 Gartner研究副总裁与高级研究总监深入剖析2025年“AI智能体元年”的演进方向，指出智能体在技术和应用上面临的核心挑战与发展路径。
开源AI重塑科技创新手册，普及强大模型访问加速协作 IBM探讨开源AI如何颠覆科技创新模式，通过促进协作和普及对强大模型的访问，加速技术生态的进步。
aiXcoder：AI并非软件开发的“银弹”，需与软件工程结合方能发挥价值 硅心科技（aiXcoder）产品研发负责人黄宁强调，AI在软件开发中应与软件工程方法论深度结合，才能真正发挥其效用，而非盲目取代。
n8n高危漏洞曝光，CVSS评分9.9分警示工作流自动化安全风险 开源工作流自动化工具n8n披露一个CVSS评分高达9.9分的高危漏洞，提醒企业在享受自动化便利的同时，需警惕潜在安全隐患，加强安全防护。
中文高质量数据集加速建设，助力大模型更懂“中国话” 强调中文高质量数据集的建设对提升大模型理解和生成中文能力的重要性，以更好地服务中国市场和用户。

资本与市场

中国大模型政企采购前11月超21亿元，百度智能云以7.1亿元领跑 2025年1月至11月，中国主流云厂商在AI大模型相关项目中累计中标291个，总金额突破21亿元，百度智能云中标95个项目，金额达7.1亿元，显示政企市场对AI大模型需求的爆发。
ServiceNow以775亿美元收购Armis，加码物联网安全自动化市场 ServiceNow宣布以重金收购网络安全初创公司Armis，该公司专注于保护联网设备安全，此举旨在进一步拓展其在AI驱动的自动化和网络安全领域的市场份额。
字节AI1080天闪电逆袭：从后知后觉到AGI全面发力 字节跳动在三年内完成了AI战略转型，从初期相对落后到构建全栈AI能力，并在AGI方向全面发力，显示出其在AI领域的快速投入与市场野心。
AI中场时刻：大模型进化放缓，行业探讨如何穿越“徘徊期” 有文章指出当前AI大模型的能力发展遇到瓶颈，行业正面临如何突破“徘徊期”，实现可持续发展的挑战。

相关新闻源

数字工作者、聊天机器人、机器人：有何区别？
深入了解这三种自动化之间的差异，并了解何时在组织中使用这些自动化功能。随着数字化转型持续革新工作场所，企业正日益广泛应用数字（机器人）员工、聊天机器人和机器人...
来源：IBM
工作流自动化工具n8n惊现9.9分漏洞！超10万个实例面临风险-快科技-科技改变生活
快科技12月24日消息，近日，开源工作流自动化工具n8n披露了一个高危漏洞，该漏洞编号CVE-2025-68613，其CVSS评分高达9.9分（满分10分）。n8n是一款开源的工作流自动化工具，...
来源：驱动之家
计算成本减半，化学反应发现工具ChemOntology将人类直觉「编码」到系统中，加速反应路径搜索
日本北海道大学开发的ChemOntology框架，实现化学本体从描述性标注到指导性控制的跨越。其在Heck反应机理研究中的应用，验证了加速反应路径搜索的有效性，展现了化学知识...
来源：智源社区
钉钉为什么改变的这么彻底？
这可能是企业软件史上一个少见的时刻：一款曾以“协同办公”闻名的超级应用，选择用近乎“重做一遍”的方式，去追赶并试图定义下一代工作范式。不到四个月，钉钉从AI 钉...
来源：维科号
基础模型如何助力钢铁和水泥生产实现更高可持续性
重工业，尤其是水泥、钢铁和化工，是最大的温室气体排放行业，占全球二氧化碳排放量的25%。这些行业的许多流程使用高温热量，而这些热量主要来自化石燃料。
来源：IBM
GetGo 利用 AWS 扩展了汽车共享平台，将自动索赔报销速度提高到 10 倍 | GetGo
GetGo 与AWS 进行了合作，共同构建了一个数据驱动型汽车共享平台。该平台可以在需求激增时进行相应调整，不但将自动处理索赔的速度提高到10 倍，还提供了近乎实时的车队...
来源：Amazon Web Services (AWS)
被 Gemini 官方推荐为下一代Agent！Eigent 如何实现企业级浏览器自动化？
被Gemini官方推荐的下一代Agent Eigent，基于开源大模型实现企业级本地浏览器自动化部署。借助多智能体架构与Gemini 3 Pro能力，轻松解决企业复杂系统多步骤自动化难题，...
来源：53AI
aiXcoder：AI并非软件开发的“银弹”，需与软件工程结合
近日，硅心科技（aiXcoder）产品研发负责人黄宁受邀出席CSDN和奇点智能研究院联合主办的“全球C++及系统软件技术大会”，并发表《超越vibe coding...
来源：新浪网
ServiceNow以775亿美元收购物联网安全初创公司Armis
ServiceNow宣布将以775亿美元现金收购网络安全初创公司Armis，该公司专注于保护联网设备安全。Armis的Centrix平台能够保护工业机器人、办公打印机等联网设备免受黑客...
来源：至顶网
开源 AI 重塑科技创新手册
了解开源AI 如何颠覆科技创新，促进协作，并普及对强大模型的访问。
来源：IBM
AI中场时刻②｜大模型进化放缓，AI如何穿越“徘徊期”？
AI 的能力发展到什么程度了？这是一个非常实用的问题。 2024 年春节，OpenAI 推出文生视频模型Sora，足引起一场革命；2025 年春节期间，DeepSeek 引发广泛关注。
来源：ThePaper.cn
中国人寿成功举办AI大模型竞赛，系统锻造人工智能实战能力
日前，中国人寿保险股份有限公司（以下简称“中国人寿”，股票代码：601628.SH，2628.HK）首届AI大模型竞赛在该公司科技园成功举办。活动深度契合国家科技强国、金融强国战略...
来源：中国日报网
“久安”大模型2.0发布助推“人工智能+应急管理”深度融合
“人工智能+”已成为各行业转型的重要方向，应急管理等公共管理领域对AI技术的需求尤为迫切。 12月21日，由应急管理部大数据中心主办、百度智能云和清华大学合肥研究院承办...
来源：新华网
【财经分析】AI“端侧”竞争白热化生态博弈引发产业链价值重估- 中国金融信息网
业内人士指出，这标志着AI大模型产业竞争进入以“端侧生态”为核心的新阶段。这场变革不仅重塑着消费电子与互联网服务格局，也催生了从核心硬件、中间件到平台服务的全新...
来源：中国金融信息网
开源 AI 重塑科技创新手册
了解开源AI 如何颠覆科技创新，促进协作，并普及对强大模型的访问。
来源：IBM
腾讯混元大模型推出AI智能体，革新ETC服务体验
据腾讯云官方消息，ETC助手基于腾讯混元大模型，打造了行业首款AI智能体——「助手Agent」。该智能体已在「ETC助手」小程序正式上线，旨在通过人工智能技术为用户提供更...
来源：品玩
中文高质量数据集加速建设大模型如何更懂“中国话”
中文高质量数据集加速建设. 大模型如何更懂“中国话”(“十五五”文化热词·推进文化和科技融合). “过马路时，你要注意看车！” “我计划明天去车展看车。”...
来源：中国新闻网
当大模型遇见古希腊逻辑学：印度统计学院团队揭示AI推理的"双重人格"
印度统计学院研究团队对14个大语言模型进行三段论推理测试，发现AI存在"双重人格"现象：顶级模型在逻辑推理上近乎完美（99.6%），但常识判断仅达随机水平（52%）。
来源：科技行者
2025 年前 11 个月中国大模型政企采购超 21 亿元
根据对2025 年1 月至11 月全国公开招标数据的综合统计，中国主流云厂商在大模型相关项目中累计中标291 个，总金额突破21 亿元。其中，百度智能云以95个中标项目和7.1亿元...
来源：OSCHINA
字节AI1080天闪电逆袭：从后知后觉到AGI全面发力
字节跳动用三年完成AI战略转型，从初期落后到构建全栈能力。
来源：21财经
ETC助手接入腾讯混元大模型打造行业首款AI智能体
近日，腾讯云、高灯科技全资子公司安徽驿路微行科技有限公司联合宣布，基于混元大模型打造ETC领域首款AI智能体“助手Agent”，用户只需通过文本或语音发出指令，智能体即可...
来源：驱动之家
腾讯混元推出ETC领域首款AI智能体，问题解决率达90%
12 月25 日消息，腾讯混元官宣推出ETC 领域首款AI 智能体。腾讯云和安徽驿路微行联合基于混元大模型推出ETC「助手Agent」，通过文本或语音指令精准执行。自今年4 月内测，...
来源：新浪财经
腾讯混元大模型推出AI智能体，革新ETC服务体验
据腾讯云官方消息，ETC助手基于腾讯混元大模型，打造了行业首款AI智能体——「助手Agent」。该智能体已在「ETC助手」小程序正式上线，旨在通过人工智能技术为用户提供更...
来源：品玩
腾讯混元推出 ETC 领域首款 AI 智能体 - OSCHINA - 开源 × AI · 开发者生态社区
腾讯混元推出ETC 领域首款AI 智能体- 腾讯云与安徽驿路微行科技有限公司联合推出了ETC 助手的全新功能——“助手Agent”，这款基于腾讯混元大模型的AI.
来源：OSCHINA
2025 AI Agent进化大盘点！Gartner 权威解读智能体的困境与趋势
近日，Gartner研究副总裁孙鑫（JulianSun）与Gartner高级研究总监颜晶（MaryYan）接受媒体专访，深度剖析了2025年“AI智能体元年”的.
来源：A5站长网
德州交通赋能智慧驾培快鸭智能体斩获全国大赛特别推荐奖
12月9日至10日，以“智领交通，慧见未来”为主题的首届综合交通运输大模型智能体创新应用大赛全国总决赛在福建厦门举行，来自铁路、公路、水路、城市交通等多个领域的629项...
来源：中国网
你的AI旅行向导：YOYO智能体携手飞猪旅行，打造有温度的智慧旅行体验
你是不是也曾为一次旅行头疼？攻略翻遍、价格比对、行程拼接、预定流程繁琐……本应愉悦的出行前奏，变成了一项耗时耗力的“麻烦事”。为破局此类痛点，YOYO智能体与飞猪...
来源：飞象网
AI中场时刻②｜大模型进化放缓，AI如何穿越“徘徊期”？
AI 的能力发展到什么程度了？这是一个非常实用的问题。 2024 年春节，OpenAI 推出文生视频模型Sora，足引起一场革命；2025 年春节期间，DeepSeek 引发广泛关注。
来源：ThePaper.cn
普林斯顿大学团队让AI智能体像人一样在"游戏"中成长：GenEnv框架破解训练数据昂贵难题
普林斯顿大学研究团队提出GenEnv框架，通过让AI智能体与环境模拟器进行"共同进化"游戏来解决传统训练数据昂贵问题。该方法让7B模型在多项测试中最高提升40.3%，...
来源：科技行者
钉钉为什么改变的这么彻底？
这可能是企业软件史上一个少见的时刻：一款曾以“协同办公”闻名的超级应用，选择用近乎“重做一遍”的方式，去追赶并试图定义下一代工作范式。不到四个月，钉钉从AI 钉...
来源：维科号