查看: 9|回复: 0

过去24小时,AI 圈的空气里,都是焦灼和狂欢。

[复制链接]

14

主题

0

回帖

42

积分

新手上路

积分
42
发表于 昨天 10:02 | 显示全部楼层 |阅读模式
过去24小时,AI 圈的空气里,都是焦灼和狂欢。


先爆的是 Claude Code。

Anthropic这款命令行终端工具的源码意外泄露,很快就在GitHub上引发连锁反应。大量开发者冲进去围观、Fork、拆解,随后又出现了Python和Rust的「复刻版」。

原本只属于Anthropic内部的实验,转眼变成了整个行业的「公开的秘密」。

谁也没想到,第二波泄露来得更快。

就在刚刚,Anthropic疑似下一代旗舰重磅旗舰模型Mythos的基准测试跑分,又又又泄露了。

与以往Claude 4.x/5系列不同,Mythos被称为独立产品线,定位明显更高。而从曝光的数据来看,它很可能是Anthropic目前最具野心的一次模型跃迁。

从泄露信息来看,Mythos对比当前强势模型Opus 4.6,几乎在所有关键指标上都有明显提升:

Terminal-Bench 2.0:78.4%(+13.0%)

SWE-bench Verified:87.4%(+6.6%)

OSWorld:79.6%(+6.9%)

BrowseComp:92.3%(+8.3%)

MCP Atlas:75.7%(+16.2%)

Finance Agent:82.1%(+21.4%)

GDPVal-AA-Elo: 2668 (+1062)

Humanity's Last Exam: 52.3% (无工具, +12.3%), 71.5% (有工具, +18.5%)









本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部