过去24小时,AI 圈的空气里,都是焦灼和狂欢。

过去24小时,AI 圈的空气里,都是焦灼和狂欢。


先爆的是 Claude Code。

Anthropic这款命令行终端工具的源码意外泄露,很快就在GitHub上引发连锁反应。大量开发者冲进去围观、Fork、拆解,随后又出现了Python和Rust的「复刻版」。

原本只属于Anthropic内部的实验,转眼变成了整个行业的「公开的秘密」。

谁也没想到,第二波泄露来得更快。

就在刚刚,Anthropic疑似下一代旗舰重磅旗舰模型Mythos的基准测试跑分,又又又泄露了。

与以往Claude 4.x/5系列不同,Mythos被称为独立产品线,定位明显更高。而从曝光的数据来看,它很可能是Anthropic目前最具野心的一次模型跃迁。

从泄露信息来看,Mythos对比当前强势模型Opus 4.6,几乎在所有关键指标上都有明显提升:

Terminal-Bench 2.0:78.4%(+13.0%)

SWE-bench Verified:87.4%(+6.6%)

OSWorld:79.6%(+6.9%)

BrowseComp:92.3%(+8.3%)

MCP Atlas:75.7%(+16.2%)

Finance Agent:82.1%(+21.4%)

GDPVal-AA-Elo: 2668 (+1062)

Humanity's Last Exam: 52.3% (无工具, +12.3%), 71.5% (有工具, +18.5%)









分类