苹果公司证明,人工智能模型不会做数学题。不是高等数学,而是小学数学,那种10岁孩子都能解出来的数学题。
苹果公司证明,人工智能模型不会做数学题。不是高等数学,而是小学数学,那种10岁孩子都能解出来的数学题。而他们证明这一点的方式令人震惊。
苹果的研究人员选取了人工智能领域最流行的数学基准测试——GSM8K(一套小学数学题)——并做了一个改动:他们交换了数字。题目相同,逻辑相同,步骤相同,只是数字不同。
所有型号的性能都下降了。每一个型号都是如此。我们测试了25款最先进的型号。
但这并非真正的实验。
真正的实验彻底颠覆了一切。
他们在一道数学题里加了一句话。这句话和答案完全无关,跟数学运算毫无关系。任何人读到这句话都会立刻忽略它。
以下是论文中的实际示例:
“奥利弗周五摘了44个奇异果。周六他又摘了58个。周日,他摘的奇异果数量是周五的两倍,但其中有5个比平均大小略小。奥利弗一共摘了多少个奇异果?”
正确答案是 190。猕猴桃的大小与数量无关。
一个十岁的孩子会忽略“其中五个个头稍微小一些”这种说法,因为这显然无关紧要。这并不会改变新西兰人的数量。
但是 OpenAI 的推理模型 o1-mini 减去了 5,结果为 185。
羊驼也做了同样的事情。减去5,得到185。
他们没有进行逻辑推理。他们看到数字5,看到一句听起来很重要的话,就盲目地把它变成了减法运算。
这些模型并不理解减法的含义。它们看到的是类似减法的图案,然后就照搬。仅此而已。
苹果公司在所有机型上都进行了测试。他们将该数据集称为“GSM-NoOp”——也就是说,新增的子句是一个空操作。它什么也不做,也不会改变任何东西。
结果不堪设想。
Phi-3-mini 的分数下降了超过 65%。它一半以上的“数学能力”都因为一句无关紧要的话而消失了。
GPT-4o 从 94.9% 下降到 63.1%。
o1-mini 从 94.5% 下降到 66.0%。
当时 OpenAI 最先进的推理模型 o1-preview 的准确率从 92.7% 下降到 77.4%。
即使事先给模型提供8个完全相同的例子,并每次都给出正确答案,也几乎没什么帮助。模型仍然会因为无关的从句而出错。
这意味着这不是提示问题,也不是语境问题,而是结构性问题。
苹果的研究人员还发现,这些模型会将文字转换成数学运算,却不理解这些文字的含义。它们看到“折扣”这个词就进行乘法运算,看到“更小”这个词旁边有个数字就进行减法运算,全然不顾这些运算是否合乎逻辑。
论文原文是:“当前的逻辑学习模型无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤。”
而且:“LLM 可能在训练过程中执行某种概率模式匹配和搜索,以找到最接近的已见数据,而没有对概念有正确的理解。”
他们还测试了增加问题步骤数后会发生什么。结果发现,性能不仅下降,而且下降速度加快。在问题中添加两个额外的子句后,Gemma2-9b 的准确率从 84.4% 降至 41.8%,Phi-3.5-mini 的准确率从 87.6% 降至 44.8%。需要思考的步骤越多,模型崩溃的程度就越严重。
真正的推理者会放慢速度,仔细分析。这些模型不会放慢速度down.它们只是进行模式匹配。而当模式变得足够复杂时,它们就会崩溃。
该文发表于 ICLR 2025,这是世界上最负盛名的 AI 会议之一。
你用人工智能来帮你做财务决策,审核法律文件,解决工作难题,甚至辅导孩子做作业。而苹果公司刚刚证明,人工智能根本没有思考这些,它只是在进行模式匹配。一旦你的问题中出现任何意料之外的情况,它就会崩溃。它不会告诉你它崩溃了,而是默默地、自信满满地给出错误的答案。
##
页:
[1]