先爆的是 Claude Code。
Anthropic这款命令行终端工具的源码意外泄露,很快就在GitHub上引发连锁反应。大量开发者冲进去围观、Fork、拆解,随后又出现了Python和Rust的「复刻版」。
原本只属于Anthropic内部的实验,转眼变成了整个行业的「公开的秘密」。
谁也没想到,第二波泄露来得更快。
就在刚刚,Anthropic疑似下一代旗舰重磅旗舰模型Mythos的基准测试跑分,又又又泄露了。
与以往Claude 4.x/5系列不同,Mythos被称为独立产品线,定位明显更高。而从曝光的数据来看,它很可能是Anthropic目前最具野心的一次模型跃迁。
从泄露信息来看,Mythos对比当前强势模型Opus 4.6,几乎在所有关键指标上都有明显提升:
Terminal-Bench 2.0:78.4%(+13.0%)
SWE-bench Verified:87.4%(+6.6%)
OSWorld:79.6%(+6.9%)
BrowseComp:92.3%(+8.3%)
MCP Atlas:75.7%(+16.2%)
Finance Agent:82.1%(+21.4%)
GDPVal-AA-Elo: 2668 (+1062)
Humanity's Last Exam: 52.3% (无工具, +12.3%), 71.5% (有工具, +18.5%)