头条资讯网_今日热点_娱乐才是你关心的时事

今日热点 时事资讯
娱乐头条才是你关心的新闻
首页 > 头条资讯 > 科技

首届AI奥数竞赛方案:4支获奖队伍,都选择国产模型DeepSeekMath

获胜的AI数学奥林匹克模型出炉!

几天前,随着榜单的公布,大家对全球首届AI数学奥林匹克竞赛(AIMO)进步奖的讨论量居高不下。

这次比赛共有5个团队胜出,获得第一名的是Numina的团队,CMU_MATH位列第二,afterexams暂居第三,codeinter、Conor#2团队分别拿到第四、第五的成绩。

图源:https://www.kaggle.com/c/ai-mathematical-olympiad-prize/leaderboard

这一成绩,曾让陶哲轩感到惊讶。

当时官方只公布了获奖名单,并未透漏背后模型的更多信息。大家都在好奇,获得冠军的队伍到底是用了哪种模型?

刚刚,AIMO进步奖公布了前四名背后模型。

冠军团队用到的模型是NuminaMath7BTIR,该模型是deepseek-math-7b-base的微调版本。

获得第二名的队伍微调了两个DeepSeek-Math-7B-RL模型,一个用作策略模型(用于生成解决方案),一个用作奖励模型(用于对加权多数投票的解决方案进行评分)。

第三名同样使用了DeepSeek-Math-7B-RL模型,没有进行任何微调,并通过制定的评分规则使用多数投票的策略选择正确答案。

排名第四的队伍同样使用了deepseek-math-7b-rl,参数设置temperature为0.9、top_p为1.0、maxtokens为2048。该模型搭配代码工具,在MATH基准测试中可达到58.8%。

我们不难发现,排名前四的队伍都选择了DeepSeekMath-7B作为基础模型,并取得了较好的成绩。该模型数学推理能力逼近GPT-4,在MATH基准榜单上超过一众30B~70B的开源模型。

冠军:NuminaMath7BTIR模型

接下来,就让我们详细看下这场比赛的冠军方案。

NuminaMath是一系列语言模型,经过训练可以使用工具集成推理(TIR)解决数学问题。

NuminaMath7BTIR是deepseek-math-7b-base的微调版本,进行了两个阶段的监督微调:

第1阶段:在自然语言数学问题和解决方案的大型、多样化数据集上微调基本模型,其中每个解决方案都使用思维链(CoT)进行模板化以促进推理。

第2阶段:在工具集成推理(TIR)的合成数据集上微调第1阶段得到的模型,其中每个数学问题都分解为一系列基本原理、Python程序及其输出。这里会promptGPT-4生成带有代码执行反馈的ToRA格式(微软)解决方案。在这些数据上进行微调会产生一个推理智能体,它可以通过结合自然语言推理和使用PythonREPL来计算中间结果,以解决数学问题。

值得注意的是,NuminaMath7BTIR是专门为了解决竞赛级别数学问题而创建的。因此,该模型不应用于一般聊天应用程序。通过贪婪解码(greedydecoding),冠军团队发现该模型能够解决AMC12级别的问题,但通常很难为AIME和数学奥林匹克级困难问题生成有效的解决方案。该模型还难以解决几何问题,可能是因为其容量有限且缺乏视觉等模态。

未经允许不得转载:头条资讯网_今日热点_娱乐才是你关心的时事 » 首届AI奥数竞赛方案:4支获奖队伍,都选择国产模型DeepSeekMath

分享到:更多 ()
来源:机器之心Pro 编辑:科技

评论

留言/评论 共有条点评
昵称:
验证码:
匿名发表