揭秘Grok 4.20:四个智能体穿着风衣的把戏

【揭秘Grok 4.20:四个智能体穿着风衣的把戏】

xAI的Grok 4.20发布后,有开发者通过浏览器网络检查工具发现了一个有趣的事实:所谓的新版本实际上是四个Grok 4.1智能体的组合。这个发现在Reddit的r/singularity社区引发了热议。

xAI员工后来回应称,模型ID只是测试版发布时使用的占位符,底层确实运行的是4.20版本。但这个解释并未完全平息质疑。问题的核心不在于多智能体方法是否有效,而在于这种改进是否配得上一个新的版本号。就像如果Anthropic把Claude Code重新命名为Opus 5一样让人费解。

多智能体系统本身并非没有价值。让不同视角的智能体协同处理问题,这种“群体智能”理论上能带来性能提升。一些用户反馈Grok 4.20的输出质量确实比4.1有所改善。但版本命名的混乱暴露出xAI在产品管理上的随意。

这个事件折射出xAI面临的更深层困境。多次延期发布、员工大量离职、技术路线依赖暴力算力堆叠而非研究突破。相比之下,DeepSeek这样的中国公司能发表有影响力的研究论文,而xAI的策略似乎停留在“拥有最大的计算集群就能赢”的简单逻辑。

在OpenRouter 2025年的统计中,xAI模型占据了近四分之一的token使用量,但这个数字有水分——他们长期通过合作伙伴提供免费访问来刷量。更关键的是,市场份额并不能让一家公司成为真正的AI研究机构。

社区对xAI的质疑集中在几个方面:他们在孵育内容审核上的失败(尤其是CSAM问题)、产品命名的荒诞(4.20这个数字本身就是个梗)、以及Musk一贯的“先吹嘘后兑现”风格。有评论尖锐地指出,如果是其他AI公司这样做,声誉早就彻底毁了。

技术社区对多智能体方法的态度倒是比较中立。有人认为这种架构设计本身就是进步,只要效果好就行。也有人指出,当我们已经接近人类智力的替代水平时,让模型协同工作可能比单纯提升单个模型更有意义。Karpathy曾提出的“LLM委员会”概念,让Gemini、Claude、DeepSeek和GPT等模型共同决策,也许才是更有前景的方向。

但版本号的问题依然存在。这不是技术争论,而是诚信问题。在AI领域,每个小数点的跃升都被视为重大进展的标志。把智能体组合包装成新版本,就像把四个人穿上风衣戴上帽子,然后说这是个全新的人。

xAI的处境颇为微妙。一方面Musk拥有政府关系和资本优势,另一方面技术实力与市场预期存在明显落差。Memphis数据中心的环境争议、Tesla销量危机、CyberTaxi的糟糕表现,都在消耗这家公司的信誉储备。

在AGI竞赛中,真正的突破不会来自算力的简单堆叠,也不会来自版本号的文字游戏。当其他实验室在探索持续学习系统和新架构时,xAI还在用这种方式“创新”,实在令人失望。

深度思考:

Grok 4.20可能是一个能用的产品,甚至因为多模型互检而变得更好用。但它作为一个“版本”,是失败的。它标志着xAI在AGI竞赛中,正在从“技术驱动”滑向“运营驱动”。在通往通用人工智能的道路上,依靠版本号的文字游戏和风衣下的把戏,终究走不远。真正的AGI不需要伪装,因为它本身就是真理。

reddit.com/r/singularity/comments/1r75lya/grok_420_is_just_four_grok_41_agents

分类