获胜的AI数学奥林匹克模型出炉!
几天前,随着榜单的公布,大家对全球首届AI数学奥林匹克竞赛(AIMO)进步奖的讨论量居高不下。
这次比赛共有5个团队胜出,获得第一名的是Numina的团队,CMU_MATH位列第二,afterexams暂居第三,codeinter、Conor#2团队分别拿到第四、第五的成绩。
图源:https://www.kaggle.com/c/ai-mathematical-olympiad-prize/leaderboard
这一成绩,曾让陶哲轩感到惊讶。
当时官方只公布了获奖名单,并未透漏背后模型的更多信息。大家都在好奇,获得冠军的队伍到底是用了哪种模型?
刚刚,AIMO进步奖公布了前四名背后模型。
冠军团队用到的模型是NuminaMath7BTIR,该模型是deepseek-math-7b-base的微调版本。
获得第二名的队伍微调了两个DeepSeek-Math-7B-RL模型,一个用作策略模型(用于生成解决方案),一个用作奖励模型(用于对加权多数投票的解决方案进行评分)。
第三名同样使用了DeepSeek-Math-7B-RL模型,没有进行任何微调,并通过制定的评分规则使用多数投票的策略选择正确答案。
排名第四的队伍同样使用了deepseek-math-7b-rl,参数设置temperature为0.9、top_p为1.0、maxtokens为2048。该模型搭配代码工具,在MATH基准测试中可达到58.8%。
我们不难发现,排名前四的队伍都选择了DeepSeekMath-7B作为基础模型,并取得了较好的成绩。该模型数学推理能力逼近GPT-4,在MATH基准榜单上超过一众30B~70B的开源模型。
冠军:NuminaMath7BTIR模型
接下来,就让我们详细看下这场比赛的冠军方案。
NuminaMath是一系列语言模型,经过训练可以使用工具集成推理(TIR)解决数学问题。
NuminaMath7BTIR是deepseek-math-7b-base的微调版本,进行了两个阶段的监督微调:
第1阶段:在自然语言数学问题和解决方案的大型、多样化数据集上微调基本模型,其中每个解决方案都使用思维链(CoT)进行模板化以促进推理。
第2阶段:在工具集成推理(TIR)的合成数据集上微调第1阶段得到的模型,其中每个数学问题都分解为一系列基本原理、Python程序及其输出。这里会promptGPT-4生成带有代码执行反馈的ToRA格式(微软)解决方案。在这些数据上进行微调会产生一个推理智能体,它可以通过结合自然语言推理和使用PythonREPL来计算中间结果,以解决数学问题。
值得注意的是,NuminaMath7BTIR是专门为了解决竞赛级别数学问题而创建的。因此,该模型不应用于一般聊天应用程序。通过贪婪解码(greedydecoding),冠军团队发现该模型能够解决AMC12级别的问题,但通常很难为AIME和数学奥林匹克级困难问题生成有效的解决方案。该模型还难以解决几何问题,可能是因为其容量有限且缺乏视觉等模态。
未经允许不得转载:头条资讯网_今日热点_娱乐才是你关心的时事 » 首届AI奥数竞赛方案:4支获奖队伍,都选择国产模型DeepSeekMath