嘉益 发表于 2026-3-28 13:43:00

一个有趣的评测:让大模型互相辩论,看谁能说服谁?

一个有趣的评测:让大模型互相辩论,看谁能说服谁?
详细的评测方法见:github.com/lechmazur/persuasion
图1是综合能力榜。
图2是能力四象限。
右上:既能说服别人,自己又很难被撼动。(相对最好)
左下:说服不了别人,且容易被别人说服。(相对最差)
右下:能说服人,也能被别人说服。
左上:防守性强(固执),但无法说服别人改变立场。
综合最强的是GPT-5.4 (high)。
国产模型里说服能力最强的是豆包,防守能力最强的是Kimi。
只看防守能力最强的是Grok,最差的是小米的mimo。
##
页: [1]
查看完整版本: 一个有趣的评测:让大模型互相辩论,看谁能说服谁?