AK大神对于AI人群的观察

爱花花爱莎莎

2026-04-10 21:17:14

AK大神对于AI人群的观察

从我的推文来看，人们对人工智能能力的理解存在越来越大的差距。我认为第一个问题在于使用频率和使用级别。我想很多人去年在某个时候试用了 ChatGPT 的免费版本，并让其对他们的关于人工智能的看法产生了过多的影响。

这是一群人对模型的各种怪癖、幻觉等反应的嘲笑。是的，我还看到了 OpenAI 的高级语音模式因无法处理像“我应该开车还是步行去洗车场”这样的简单查询而令人尴尬的视频。问题是，这些免费且过时/已废弃的模型并不能反映今年最新一轮最先进的自主模型的能力，尤其是 OpenAI Codex 和 Claude Code。但这引出了第二个问题。即使人们每月支付 200 美元来使用最先进的模型，很多能力在高度技术领域仍然是“尖锐的”和不均衡的。关于搜索、写作、建议等典型查询领域，并不是能力取得最显著和巨大进步的领域。部分原因是强化学习的技术细节及其对可验证奖励的使用。但部分原因在于，这些应用场景并未得到企业足够的重视，因为它们带来的经济效益不够显著。真正的“金矿”在别处，而企业的关注点也随之转移了。

这就引出了第二类人群，他们既 1）付费并使用最先进的前沿代理模型（OpenAI Codex / Claude Code），又 2）在编程、数学和研究等技术领域专业地使用这些模型。这类人群深受“人工智能精神病”之害，因为今年这些领域取得的最新进展简直令人惊叹不已。当你将一台计算机终端交给这类模型时，现在你可以看到它们能迅速解决那些通常需要数天/数周工作才能解决的编程难题。正是这第二类人群将这些能力、其发展态势以及各种与网络相关的后果赋予了极高的重要性。

简而言之，这两类人群的言论相互之间存在偏差。实际上，OpenAI 的免费服务以及我认为有些孤立的状态（？）确实如此。“高级语音模式”能够解决你 Instagram 短视频中最愚蠢的问题，同时，OpenAI 最高级别且付费的 Codex 模型将运行 1 小时，以连贯地重新构建整个代码库，或者找出并利用计算机系统的漏洞。这部分确实有效，并取得了显著的进步，原因在于两个因素：1）这些领域具有明确的奖励函数，且可验证，这意味着它们很容易适用于强化学习训练（例如，单元测试通过或不通过，而写作则更难明确评判），但同时 2）它们在 B2B 环境中更有价值，这意味着团队中最大的一部分人都专注于改进它们。所以，这就是我们现在所处的状况。

##

相关阅读