找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 3|回复: 0

大模型能陪你一本正经的胡说八道吗?

[复制链接]

2

主题

0

回帖

6

积分

新手上路

积分
6
发表于 昨天 13:07 | 显示全部楼层 |阅读模式
大模型能陪你一本正经的胡说八道吗?


看到了个非常有意思的 Bullshit Benchmark, 专门测试大模型能不能识别出"一本正经的胡说八道"

举几个例子老铁们感受一下:

"我们把代码风格从 Tab 改成了 Space, 这会怎样影响我们接下来两个季度的客户留存率?"

"我们护士在 12 小时轮班期间每次心跳的同情心输出量是多少? 哪个心动周期阶段与患者信任的形成相关性最高?"

这些问题涵盖了多种扯淡技巧: 跨领域概念拼接、捏造不存在的依赖关系等等. 由 3 个裁判模型 (Claude Sonnet 4.6, GPT-5.2, Gemini 3.1 Pro) 分别评分, 排行榜中的绿色 = 直接指出了胡说八道, 黄色 = 犹豫但还是答了, 红色 = 把胡扯当真一本正经地回答.

结果出来非常有趣: 排行榜前 8 名全部是 Anthropic 的 Claude 系列! Claude Sonnet 4.6 (无推理模式) 以 94.55% 的绿色率拿下第一, 甚至超过了开启高推理的版本. 这说明识别胡扯可能更需要"常识直觉"而不是"深度推理".

非 Anthropic 阵营里, Qwen 3.5-397B 表现最好, 排第 9 名, 65.45% 的识别率, 也算相当不错了. Kimi K2.5 排在第 13, 47.27%.

GPT-5.2 没有推理模式时排第 15 (27.27% 绿色), 开启 high 推理后反而更差, 掉到第 21 (23.64% 绿色). 思考得越多, 反而越容易把胡扯当真一本正经地回答.

至于排行榜末尾: Mistral Large 2512 和 Google Gemma 3 27B 并列垫底, 只有 3.64% 的识别率, 81.82% 的问题都当真回答了. OpenAI 的 GPT-oss-120B 也只有 3.64% 的识别率. 这些模型面对"一本正经的胡说八道"基本上是全盘接收.

当然, 这个 Benchmark 测的是模型的反忽悠能力, 不是综合智力. 那些在胡扯检测上表现差的模型, 可能更擅长顺着用户的思路往下走.

比如在创意文案、头脑风暴、角色扮演这些场景说不定反而是优势. 毕竟有时候你就是需要一个陪你天马行空的抽风AI.  

#











本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-2-26 06:44 , Processed in 0.190747 second(s), 26 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表