栏目分类
发布日期:2025-02-06 15:37 点击次数:190
奇月 发自 凹非寺
量子位 | 公众号 QbitAI
只是换一下数学题的变量称呼,大模子就可能集体降智??
斯坦福大学最新商酌标明,在他们最新提议的Putnam-AXIOM测试集上,只是是更换一下原题主张变量称呼、变量取值范围,模子的准确率就直线下落。
也即是说,大模子的数学推明智力并不是的确掌捏了解题逻辑,很可能只是检索已存储的题目……
即使是推崇最佳的o1-preview,它的收成也从50%下落到了33.96%,GPT-4o、Claude、Deepseek、Qwen等模子也简直是一网尽扫。
要知说念,模子推明智力的端庄性可黑白常挫折的主张,能代表他们是否的确掌捏了贬责纪律:
有网友锐评到:o1的o不会是overfitting的o吧?(doge)
还有存眷网友作念了解释,他以为模子的搜索空间会跟着深度指数级增长,搜索时分越长,搜索的难度也会更高。
全新无玷辱的数学测试基准
LLM在复杂数常识题上的推明智力逐步成为模子发展的流毒挑战,干系词现存的评估基准,如MMLU、MMMU、GSM8K和MATH等却濒临着好多问题。
一方面,数据玷辱可能导致模子在评估中推崇虚高,因为模子可能在探员经由中搏斗到了评估基准中的问题。
另一方面,开端进的模子在许多现存基准上也曾达到或杰出东说念主类水平,这使得这些基准失去了应有的评估价值。
对此,斯坦福商酌团队提议了Putnam-AXIOM基准,专用于评估模子在贬责复杂数常识题上的智力。
该基准的原始数据集涵盖了1985-2023年William Lowell Putnam数学竞赛的236个问题。
任意举个例题民众感受一下:
这些题目涵盖了11个不同数学范围的问题,团队也进行了筛选,确保能产生便于自动化评估的boxed{}谜底。
同期,他们还模仿MATH数据集的纪律进行模子评估,并规划了一个等价函数,不错贬责字符串不一致问题、和复杂的数学等价同质化问题。
除此以外,为防护模子在探员经由中际遇Putnam原问题而出现评估偏差,团队还引入了功能变异构建变异数据集。
变异分为变量变化(仅变嫌量名)和常数变化(修改数值属性)两类,能生成无穷多疏通难度的新问题,况兼这些问题在互联网上莫得现成的谜底。
具体的变化神气就像这么:
在试验中,商酌东说念主员将1985-2023年的竞赛中的236个问题整理成程序化形状,使用LM Harness评估框架对多个开源模子的SOTA LLMs进行评估。
样本包括236个原始问题和52个变异问题,参与测试的模子包含OpenAI的o1-preview、GPT-4o、Claude-3.5 Sonnet等多种模子。
题目一变,模子集体懵试验效果有些令东说念主不测,模子们的推崇皆不太乐不雅。
领先来望望模子们在原始数据集上的推崇。
多半模子的准确率皆低于10%,曾获AI数学奥林匹克竞赛冠军的uminaMath仅为4.66%,可见Putnam-AXIOM数据集难度确凿很高。
而在变异数据集上,模子们的准确率则权贵下落。
比如在原始数据集上推崇最佳的o1-preview,准确率为50%,而在变异数据蚁合则降到了33.96%。
也即是说,o1-preview模子在原始问题上推崇可能虚高,之前的得分主如果依赖顾忌而非的确的推明智力。
名按序二的Claude在原始数据集上的准确率为26.40%,而在变异数据集上的准确率降至18.86%,其他模子的分数也基本皆下落了。
团队还进一步对OpenAI o1-preview和GPT-4o的谜底进行了分析。
效果发现它们的纰谬皆比拟严重,在逻辑推理和数学严谨性方面存在着显然的颓势。
底下全部康康几个例子。
比如o1-preview在解答问题时就没能提供充分的讲明注解,它宣称m的最大可能值是n,意义是m的上界是2n,但它莫得讲明为什么m的值介于n和2n之间弗成行。
而GPT-4o则存在逻辑高出和不连贯的推理,比如不才面这说念题中,它从逻辑上径直跳转到面积最小的几何神气是矩形这一不雅点,但并莫得讲明注解这一说法的合感性,而是将其默许为事实。
DeepSeek的模子也在流毒要道想维发生了高出,导致最终效果乖谬。
看来,普及大模子的数学智力照旧任重说念远呀!
不外斯坦福大学这篇著述中的Putnam-AXIOM基准的确缓解了现存基准有余的问题。
它不仅为评估模子的数学推明智力提供了一个额外有挑战性的新纪律,还终明晰十足自动化评估、并提供了丰富各类的变体数据集。
团队也暗示,天然现在变体数据集生成经由复杂耗时,但异日如果能优化变体生成纪律,将更有助于加快对于东说念主工推理的商酌。
论文:https://openreview.net/forum?id=YXnwlZe0yf¬eId=yrsGpHd0Sf代码:https://anonymous.4open.science/r/putnam-axiom-B57C/README.md
— 完 —
量子位 QbitAI · 头条号
关注咱们,第一时分获知前沿科技动态