首届AI奥数竞赛方案：4支获奖队伍，都选择国产模型DeepSeekMath-科技今日热点

获胜的AI数学奥林匹克模型出炉！

几天前，随着榜单的公布，大家对全球首届AI数学奥林匹克竞赛（AIMO）进步奖的讨论量居高不下。

这次比赛共有5个团队胜出，获得第一名的是Numina的团队，CMU_MATH位列第二，afterexams暂居第三，codeinter、Conor#2团队分别拿到第四、第五的成绩。

图源：https://www.kaggle.com/c/ai-mathematical-olympiad-prize/leaderboard

这一成绩，曾让陶哲轩感到惊讶。

当时官方只公布了获奖名单，并未透漏背后模型的更多信息。大家都在好奇，获得冠军的队伍到底是用了哪种模型？

刚刚，AIMO进步奖公布了前四名背后模型。

冠军团队用到的模型是NuminaMath7BTIR，该模型是deepseek-math-7b-base的微调版本。

获得第二名的队伍微调了两个DeepSeek-Math-7B-RL模型，一个用作策略模型（用于生成解决方案），一个用作奖励模型（用于对加权多数投票的解决方案进行评分）。

第三名同样使用了DeepSeek-Math-7B-RL模型，没有进行任何微调，并通过制定的评分规则使用多数投票的策略选择正确答案。

排名第四的队伍同样使用了deepseek-math-7b-rl，参数设置temperature为0.9、top_p为1.0、maxtokens为2048。该模型搭配代码工具，在MATH基准测试中可达到58.8%。

我们不难发现，排名前四的队伍都选择了DeepSeekMath-7B作为基础模型，并取得了较好的成绩。该模型数学推理能力逼近GPT-4，在MATH基准榜单上超过一众30B~70B的开源模型。

冠军：NuminaMath7BTIR模型

接下来，就让我们详细看下这场比赛的冠军方案。

NuminaMath是一系列语言模型，经过训练可以使用工具集成推理（TIR）解决数学问题。

NuminaMath7BTIR是deepseek-math-7b-base的微调版本，进行了两个阶段的监督微调：

第1阶段：在自然语言数学问题和解决方案的大型、多样化数据集上微调基本模型，其中每个解决方案都使用思维链(CoT)进行模板化以促进推理。

第2阶段：在工具集成推理（TIR）的合成数据集上微调第1阶段得到的模型，其中每个数学问题都分解为一系列基本原理、Python程序及其输出。这里会promptGPT-4生成带有代码执行反馈的ToRA格式（微软）解决方案。在这些数据上进行微调会产生一个推理智能体，它可以通过结合自然语言推理和使用PythonREPL来计算中间结果，以解决数学问题。

值得注意的是，NuminaMath7BTIR是专门为了解决竞赛级别数学问题而创建的。因此，该模型不应用于一般聊天应用程序。通过贪婪解码（greedydecoding），冠军团队发现该模型能够解决AMC12级别的问题，但通常很难为AIME和数学奥林匹克级困难问题生成有效的解决方案。该模型还难以解决几何问题，可能是因为其容量有限且缺乏视觉等模态。

未经允许不得转载：头条资讯网_今日热点_娱乐才是你关心的时事 » 首届AI奥数竞赛方案：4支获奖队伍，都选择国产模型DeepSeekMath

	秦皇岛市抚宁区：升级养老服务，助老人生活更美好
	iPhone15Pro跌至“谷底价”, 突降2041元, 售价更加亲民了
	华为HarmonyOS NEXT测试版暗黑模式曝光
	买手机最好一步到位, 2024年这5款手机口碑好, 拍照强使用流畅
	南阳市中心医院泌尿外科专家团队走进镇平县妇幼保健院开展学术交流活动
	离大谱！iOS18“真的很你”文案把人看懵，苹果好好学中文吧
	华为Mate70系列“含金量”正在上升：五点原因，望周知
	孟晚舟曾建议不要选和机器竞争的职业，阿尔特曼：AI可不容小觑
	在佛山看“西甲” 好city啊！
	抖音评论区不再是白色! 华为HarmonyOS NEXT测试版暗黑模式曝光

相关推荐

评论