揭秘Grok 4.20：四个智能体穿着风衣的把戏

周氏家人

2026-02-18 08:03:27

【揭秘Grok 4.20：四个智能体穿着风衣的把戏】

xAI的Grok 4.20发布后，有开发者通过浏览器网络检查工具发现了一个有趣的事实：所谓的新版本实际上是四个Grok 4.1智能体的组合。这个发现在Reddit的r/singularity社区引发了热议。

xAI员工后来回应称，模型ID只是测试版发布时使用的占位符，底层确实运行的是4.20版本。但这个解释并未完全平息质疑。问题的核心不在于多智能体方法是否有效，而在于这种改进是否配得上一个新的版本号。就像如果Anthropic把Claude Code重新命名为Opus 5一样让人费解。

多智能体系统本身并非没有价值。让不同视角的智能体协同处理问题，这种“群体智能”理论上能带来性能提升。一些用户反馈Grok 4.20的输出质量确实比4.1有所改善。但版本命名的混乱暴露出xAI在产品管理上的随意。

这个事件折射出xAI面临的更深层困境。多次延期发布、员工大量离职、技术路线依赖暴力算力堆叠而非研究突破。相比之下，DeepSeek这样的中国公司能发表有影响力的研究论文，而xAI的策略似乎停留在“拥有最大的计算集群就能赢”的简单逻辑。

在OpenRouter 2025年的统计中，xAI模型占据了近四分之一的token使用量，但这个数字有水分——他们长期通过合作伙伴提供免费访问来刷量。更关键的是，市场份额并不能让一家公司成为真正的AI研究机构。

社区对xAI的质疑集中在几个方面：他们在孵育内容审核上的失败（尤其是CSAM问题）、产品命名的荒诞（4.20这个数字本身就是个梗）、以及Musk一贯的“先吹嘘后兑现”风格。有评论尖锐地指出，如果是其他AI公司这样做，声誉早就彻底毁了。

技术社区对多智能体方法的态度倒是比较中立。有人认为这种架构设计本身就是进步，只要效果好就行。也有人指出，当我们已经接近人类智力的替代水平时，让模型协同工作可能比单纯提升单个模型更有意义。Karpathy曾提出的“LLM委员会”概念，让Gemini、Claude、DeepSeek和GPT等模型共同决策，也许才是更有前景的方向。

但版本号的问题依然存在。这不是技术争论，而是诚信问题。在AI领域，每个小数点的跃升都被视为重大进展的标志。把智能体组合包装成新版本，就像把四个人穿上风衣戴上帽子，然后说这是个全新的人。

xAI的处境颇为微妙。一方面Musk拥有政府关系和资本优势，另一方面技术实力与市场预期存在明显落差。Memphis数据中心的环境争议、Tesla销量危机、CyberTaxi的糟糕表现，都在消耗这家公司的信誉储备。

在AGI竞赛中，真正的突破不会来自算力的简单堆叠，也不会来自版本号的文字游戏。当其他实验室在探索持续学习系统和新架构时，xAI还在用这种方式“创新”，实在令人失望。

深度思考：

Grok 4.20可能是一个能用的产品，甚至因为多模型互检而变得更好用。但它作为一个“版本”，是失败的。它标志着xAI在AGI竞赛中，正在从“技术驱动”滑向“运营驱动”。在通往通用人工智能的道路上，依靠版本号的文字游戏和风衣下的把戏，终究走不远。真正的AGI不需要伪装，因为它本身就是真理。

reddit.com/r/singularity/comments/1r75lya/grok_420_is_just_four_grok_41_agents

相关阅读