AI模型的幻觉困局：Gemini 3.1能否破解「不知道」的难题

锋雨无阻 · 发表于 1 小时前

【AI模型的幻觉困局：Gemini 3.1能否破解「不知道」的难题】

Google刚发布Gemini 3.1 Pro，Reddit上讨论热度就爆表了。最有意思的不是那些“哇塞好厉害”的惊叹，而是一组让人细思极恐的数据。

先说说什么是幻觉率。当你问AI一个它根本不知道答案的问题时，比如某个压根没发生过的虚构事件，它有多大概率会一本正经地编造细节，又有多大概率老实承认“我不知道”？这就是幻觉率测试的核心。

Gemini 3.1在AA-omniscience基准测试中的幻觉率是50%。乍一听很糟糕对吧？但放在具体语境里，这个数字有了完全不同的含义。一年前，一个人如果对每个问题都回答“我不知道”，就能在这个榜单上排第一。现在Gemini 3.1的净得分超过30分，意味着它已经超越了普通人类的判断水平。

问题来了：我们真的需要一个什么都“知道”的AI吗？

有个律师在评论区说，作为一个不太懂技术的人，他觉得这东西“危险地接近于有用了”。这话听起来像是玩笑，实则戳中要害。50%的幻觉率意味着，当AI不确定时，它仍有一半概率会选择编造而非承认无知。这在法律、医疗等需要精确性的领域是致命的。

更讽刺的是，发布后不到半小时，就有人开始倒计时等着看“模型被削弱”的帖子出现。这已经成了AI行业的某种宿命：新模型发布时惊艳，几周后为了控制成本开始降级，用户体验逐渐下滑。

有人测试后说感觉差不多，依然会幻觉，依然不好好听指令。也有人说生成学习卡片的质量突飞猛进。这种分化本身就很说明问题：AI能力的提升往往不是全方位的，而是在特定任务上的局部突破。

那个关于“右手为什么更大”的冷幽默评论区最精彩。有人说“取决于你从哪个角度看”，有人说“(not to scale)”，还有人干脆说“To b(e)at ts”。这种调侃背后藏着一个严肃问题：我们用什么标准评判一个AI模型的好坏？

Gemini 3.1可能只是个微调版本，但幻觉率的下降让它感觉像是“另一种生物”。这个比喻很有意思。AI的进化不是线性的数值增长，而是在某个临界点突然跨越到新的能力区间。就像生物进化中某些关键突变带来的质变。

服务器在发布后几乎瘫痪，大部分请求都失败。这种火爆场面会持续多久？按照以往规律，等热度过去、服务器压力缓解时，模型性能可能已经被“优化”过了。

真正的问题不是Gemini 3.1比3.0强多少，而是我们离一个“知道自己不知道”的AI还有多远？一个诚实承认无知的AI，价值可能远超那些装作无所不知的模型。

简评：

AI最诡异的bug，不是它答错了，而是它答错时跟答对时一模一样的自信。

人类说“我不知道”有三层含义：没见过这事、想不出答案、直觉告诉我别瞎说。AI只能模拟第一层，对后两层无能为力。

50%幻觉率的真问题不是“错一半”——我们能接受人犯错——真问题是这个系统会“一本正经地胡说八道”。人类撒谎时会心虚、会露馅、会有微表情，AI没有。它用同样流畅的语气输出真话和假话，这让我们丧失了最原始的判断依据：看对方靠不靠谱的直觉。

所以“知道自己不知道”是AI最难跨越的门槛。不是因为技术不够，而是因为这需要一样它没有的东西——自我。

reddit.com/r/singularity/comments/1r94p0x/gemini_3_pro_vs_gemini_31_pro

		自动登录	找回密码
密码			立即注册

AI模型的幻觉困局：Gemini 3.1能否破解「不知道」的难题

本帖子中包含更多资源