AK大神对于AI人群的观察
AK大神对于AI人群的观察
从我的推文来看,人们对人工智能能力的理解存在越来越大的差距。我认为第一个问题在于使用频率和使用级别。我想很多人去年在某个时候试用了 ChatGPT 的免费版本,并让其对他们的关于人工智能的看法产生了过多的影响。
这是一群人对模型的各种怪癖、幻觉等反应的嘲笑。是的,我还看到了 OpenAI 的高级语音模式因无法处理像“我应该开车还是步行去洗车场”这样的简单查询而令人尴尬的视频。问题是,这些免费且过时/已废弃的模型并不能反映今年最新一轮最先进的自主模型的能力,尤其是 OpenAI Codex 和 Claude Code。但这引出了第二个问题。即使人们每月支付 200 美元来使用最先进的模型,很多能力在高度技术领域仍然是“尖锐的”和不均衡的。关于搜索、写作、建议等典型查询领域,并不是能力取得最显著和巨大进步的领域。部分原因是强化学习的技术细节及其对可验证奖励的使用。但部分原因在于,这些应用场景并未得到企业足够的重视,因为它们带来的经济效益不够显著。真正的“金矿”在别处,而企业的关注点也随之转移了。
这就引出了第二类人群,他们既 1)付费并使用最先进的前沿代理模型(OpenAI Codex / Claude Code),又 2)在编程、数学和研究等技术领域专业地使用这些模型。这类人群深受“人工智能精神病”之害,因为今年这些领域取得的最新进展简直令人惊叹不已。当你将一台计算机终端交给这类模型时,现在你可以看到它们能迅速解决那些通常需要数天/数周工作才能解决的编程难题。正是这第二类人群将这些能力、其发展态势以及各种与网络相关的后果赋予了极高的重要性。
简而言之,这两类人群的言论相互之间存在偏差。实际上,OpenAI 的免费服务以及我认为有些孤立的状态(?)确实如此。“高级语音模式”能够解决你 Instagram 短视频中最愚蠢的问题,同时,OpenAI 最高级别且付费的 Codex 模型将运行 1 小时,以连贯地重新构建整个代码库,或者找出并利用计算机系统的漏洞。这部分确实有效,并取得了显著的进步,原因在于两个因素:1)这些领域具有明确的奖励函数,且可验证,这意味着它们很容易适用于强化学习训练(例如,单元测试通过或不通过,而写作则更难明确评判),但同时 2)它们在 B2B 环境中更有价值,这意味着团队中最大的一部分人都专注于改进它们。所以,这就是我们现在所处的状况。
##