找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 3|回复: 0

Claude Opus 4.6:看起来强大,用起来还差点火候 的主角是Anthropic最新发布的Claude Opu

[复制链接]

4

主题

1

回帖

14

积分

新手上路

积分
14
发表于 3 小时前 | 显示全部楼层 |阅读模式
【Claude Opus 4.6:看起来强大,用起来还差点火候】


Reddit上关于AI的讨论总是热闹。这次的主角是Anthropic最新发布的Claude Opus 4.6,它在METR的软件任务基准测试中,50%成功率的时间跨度达到了14.5小时。


什么意思呢?通俗点说,就是这个AI现在能完成一些需要人类工程师花上大半天(约14.5小时)才能搞定的任务,而且成功率至少有50%。这个数字听起来挺唬人,图表看着也很陡峭——从几个月前的几小时,突然飙升到十几个小时,看起来像是指数级增长,甚至“超指数”增长。


问题来了:50%的成功率够用吗?


评论区吵翻了天。有人说,50%就够了,因为很多任务可以多跑几次,或者用“多数投票”的方式提高准确率。特别是在AI研发领域,只要能偶尔跑出一个突破性结果,然后人工验证一下就行。有人甚至算了笔账:50%成功率,最多也就多花一倍时间,总比人工从零开始强。


可企业级应用不这么看。一位在财富500强AI部门工作的工程师直截了当地说:如果我跟高管汇报说这个系统能用但只有50%成功率,基本不可能获批。80%?勉强有戏。99.99999%?那才叫稳妥。企业要的是可靠性,不是概率游戏。


还有个更根本的问题:METR的基准测试本身快要“饱和”了。他们最近才升级了测试任务,加入了更难的内容,结果新版本就快被攻破了。而且测试结果的误差范围大得吓人——Claude Opus 4.6的14.5小时,置信区间是6小时到98小时。这意味着它可能真的很强,也可能只是运气好。


最要命的是,80%成功率的基准测试,Claude Opus 4.6只比GPT-5.2高一点点。那条曲线看起来就没那么激动人心了。


有人在Reddit上感慨:“我LinkedIn上90%的软件工程师朋友,现在都陷入了'别抬头'(Don't Look Up)的集体否认状态。”有人已经开始用Claude做全栈开发,原本需要一年自学的东西,现在15小时搞定。也有人泼冷水:你让Claude预测关税政策可能行,让它给你投资建议或情感咨询?门都没有。


至于“持续学习”这个AI研究的终极难题,讨论里有个观点挺有意思:也许我们不需要先实现持续学习,再等AI自我改进。如果AI已经能够在上下文中适应任何场景,那就够了。自我改进的过程本身就是一种持续学习。


说到底,Claude Opus 4.6确实在某些任务上变强了,但离“全自动”还很远。它能帮你节省时间,但不能替你做决策,更不能保证不出错。这就像一个很有天赋但还不够成熟的实习生:你可以放心交给他一些任务,但还得时不时盯着点。


也许这才是当下AI的真实状态:数字很漂亮,实用性还在路上。


简评:


所有关于AI能力的争论,本质上都是同一个问题的变体:我们到底需要的是“偶尔惊艳”还是“持续可靠”?


50%成功率放在实验室里叫“重大突破”,放在生产线上叫“质量事故”。这不是AI的问题,是我们对AI的期待出了偏差。


曲线图上的指数增长确实让人心跳加速,但老板们看的从来不是曲线,是底线。技术圈兴奋的是“能做到什么”,决策层紧张的是“会出什么错”。


说白了,当下的AI就像一个智商超高但情商存疑的天才少年:解题能力惊人,但你敢把公司的命运交给他吗?


真正的分水岭不是AI变得多聪明,而是它什么时候变得“无聊”——无聊到像水电一样稳定,像计算器一样可靠。在那一天到来之前,所有的惊叹号后面,都得跟一个问号。


www.reddit.com/r/singularity/com ... xponential_on_metrs


Reddit上关于AI的讨论总是热闹。这次的主角是Anthropic最新发布的Claude Opus 4.6,它在METR的软件任务基准测试中,50%成功率的时间跨度达到了14.5小时。

什么意思呢?通俗点说,就是这个AI现在能完成一些需要人类工程师花上大半天(约14.5小时)才能搞定的任务,而且成功率至少有50%。这个数字听起来挺唬人,图表看着也很陡峭——从几个月前的几小时,突然飙升到十几个小时,看起来像是指数级增长,甚至“超指数”增长。

问题来了:50%的成功率够用吗?

评论区吵翻了天。有人说,50%就够了,因为很多任务可以多跑几次,或者用“多数投票”的方式提高准确率。特别是在AI研发领域,只要能偶尔跑出一个突破性结果,然后人工验证一下就行。有人甚至算了笔账:50%成功率,最多也就多花一倍时间,总比人工从零开始强。

可企业级应用不这么看。一位在财富500强AI部门工作的工程师直截了当地说:如果我跟高管汇报说这个系统能用但只有50%成功率,基本不可能获批。80%?勉强有戏。99.99999%?那才叫稳妥。企业要的是可靠性,不是概率游戏。

还有个更根本的问题:METR的基准测试本身快要“饱和”了。他们最近才升级了测试任务,加入了更难的内容,结果新版本就快被攻破了。而且测试结果的误差范围大得吓人——Claude Opus 4.6的14.5小时,置信区间是6小时到98小时。这意味着它可能真的很强,也可能只是运气好。

最要命的是,80%成功率的基准测试,Claude Opus 4.6只比GPT-5.2高一点点。那条曲线看起来就没那么激动人心了。

有人在Reddit上感慨:“我LinkedIn上90%的软件工程师朋友,现在都陷入了'别抬头'(Don't Look Up)的集体否认状态。”有人已经开始用Claude做全栈开发,原本需要一年自学的东西,现在15小时搞定。也有人泼冷水:你让Claude预测关税政策可能行,让它给你投资建议或情感咨询?门都没有。

至于“持续学习”这个AI研究的终极难题,讨论里有个观点挺有意思:也许我们不需要先实现持续学习,再等AI自我改进。如果AI已经能够在上下文中适应任何场景,那就够了。自我改进的过程本身就是一种持续学习。

说到底,Claude Opus 4.6确实在某些任务上变强了,但离“全自动”还很远。它能帮你节省时间,但不能替你做决策,更不能保证不出错。这就像一个很有天赋但还不够成熟的实习生:你可以放心交给他一些任务,但还得时不时盯着点。

也许这才是当下AI的真实状态:数字很漂亮,实用性还在路上。

简评:

所有关于AI能力的争论,本质上都是同一个问题的变体:我们到底需要的是“偶尔惊艳”还是“持续可靠”?

50%成功率放在实验室里叫“重大突破”,放在生产线上叫“质量事故”。这不是AI的问题,是我们对AI的期待出了偏差。

曲线图上的指数增长确实让人心跳加速,但老板们看的从来不是曲线,是底线。技术圈兴奋的是“能做到什么”,决策层紧张的是“会出什么错”。

说白了,当下的AI就像一个智商超高但情商存疑的天才少年:解题能力惊人,但你敢把公司的命运交给他吗?

真正的分水岭不是AI变得多聪明,而是它什么时候变得“无聊”——无聊到像水电一样稳定,像计算器一样可靠。在那一天到来之前,所有的惊叹号后面,都得跟一个问号。

www.reddit.com/r/singularity/com ... xponential_on_metrs


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-2-21 21:42 , Processed in 1.815982 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表