头条资讯网_今日热点_娱乐才是你关心的时事

今日热点 时事资讯
娱乐头条才是你关心的新闻
首页 > 头条资讯 > 科技

Anthropic挖走DeepMind强化学习大牛、AlphaGo核心作者

从AlphaGo、AlphaZero、MuZero到AlphaCode、AlphaTensor,再到最近的Gemini和AlphaProof,JulianSchrittwieser的工作成果似乎比他的名字更广为人知。

今天的AI社区,再次被一则大佬转会消息吸引了目光。

在谷歌工作十年后,大名鼎鼎的谷歌DeepMindAlpha系列核心作者JulianSchrittwieser,宣布加入Anthropic。

我很高兴地宣布,将从本周起加入Anthropic!Claude是我发现自己一直在使用的第一个LLM。最近,我被《Artifacts》和《ComputerUse》以及Claude不断提高的技能深深震撼了。

我非常幸运地参与了谷歌DeepMind过去10年的奇妙旅程,在那里我参与了很多令人兴奋的项目,这是我做梦都想不到的:从AlphaGo到AlphaZero和MuZero的传奇;还有很多的应用研究,如AlphaCode和AlphaTensor,以及最近的Gemini和AlphaProof。我相信,那里的团队也将继续创造惊人的成就,我迫不及待地想一探究竟!

JulianSchrittwieser的跳槽,可以说是近期领域内最为惊人的一则消息,因为JulianSchrittwieser在DeepMind内部的地位非同寻常。更令人好奇的是,Anthropic是如何招揽到这样一位顶尖人才:

不管过程如何,这一定是Anthropic最「超值」的一次招聘:

在DeepMind诞生以来的数年中,「Alpha系列成果」一直是该团队最闪耀的前沿成果。而JulianSchrittwieser是这些伟大成就中不可忽视的贡献者。

2016年,DeepMind开发的AlphaGo以4:1击败世界顶级围棋棋手李世石(LeeSe-dol),成为轰动全球的人工智能里程碑事件。JulianSchrittwieser参与撰写了第一篇关于AlphaGo的里程碑式论文。

《AlphaGo4:1战胜李世石,我们需要更好的理解人工智能》

2017年,在AlphaGo与柯洁的比赛之后,DeepMind宣布退役AlphaGo,自学成才的AlphaGoZero以100:0击败了早期的竞技版AlphaGo,JulianSchrittwieser是AlphaGoZero论文的第二作者,也负责了从主搜索算法、训练框架到对新硬件的支持等工作。

《无需人类知识,DeepMind新一代围棋程序AlphaGoZero再次登上Nature》《DeepMindAlphaGoZero引爆业内,创造者现身Reddit问答》

而AlphaGoZero随后被拓展为一个名为AlphaZero的程序。2017年底,DeepMind正式发表了AlphaZero,这是一种可以从零开始通过Self-Play强化学习在多种任务上达到超越人类水平的算法。该算法经过不到24小时的训练后,即可在国际象棋和日本将棋上击败此前业内顶尖的计算机程序(这些程序早已超越人类世界冠军水平),也轻松击败了训练3天时间的AlphaGoZero。

《不只是围棋!AlphaGoZero之后DeepMind推出泛化强化学习算法AlphaZero》

2020年,DeepMind发表了MuZero。在不具备任何底层动态知识的情况下,该算法通过结合基于树的搜索和学得模型,不仅在国际象棋、日本将棋和围棋的精确规划任务中匹敌AlphaZero,还在30多款雅达利游戏中展示出了超越人类的表现。JulianSchrittwieser是MuZero论文《MasteringAtari,Go,ChessandShogibyPlanningwithaLearnedModel》的核心作者之一。

《通用AlphaGo诞生?DeepMind的MuZero在多种棋类游戏中超越人类》

2022年2月,DeepMind发布了基于Transformer模型的AlphaCode,可以编写与人类相媲美的计算机程序。包括JulianSchrittwieser在内的多位作者后续又在《Science》上发表了论文。

《卷起来了!DeepMind发布媲美普通程序员的AlphaCode,同日OpenAI神经数学证明器拿下奥数题》《DeepMind携AlphaCode登Science封面,写代码能力不输程序员》

2022年10月,DeepMind提出了AlphaTensor,第一个可用于为矩阵乘法等基本任务发现新颖、高效且可证明正确的算法的人工智能系统,并揭示了50年来在数学领域一个悬而未决的问题,即找到两个矩阵相乘最快方法。AlphaTensor建立在AlphaZero的基础上,展示了AlphaZero从用于游戏到首次用于解决未解决的数学问题的一次转变。

《强化学习发现矩阵乘法算法,DeepMind再登Nature封面推出AlphaTensor》

2023年6月,谷歌DeepMind发布了AlphaDev,这种全新的强化学习系统发现了一种比以往更快的哈希算法。JulianSchrittwieser也是AlphaDev项目的核心参与者之一。

《AI重写排序算法,速度快70%:DeepMindAlphaDev革新计算基础,每天调用万亿次的库更新了》

2024年7月,谷歌DeepMind团队研发的AlphaProof和AlphaGeometry2在IMO竞赛上共同实现了里程碑式的突破。AlphaProof是一种用于形式化数学推理的强化学习系统,而AlphaGeometry2是DeepMind几何求解系统AlphaGeometry的改进版本。正式比赛中,AlphaProof+AlphaGeometry2组合成的AI系统在几分钟内就解决了人类参赛选手需要几个小时才能解决的问题。

《谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习issoback》

8年前,基于强化学习的AlphaGo声名大噪;8年后,强化学习在AlphaProof中再次大放异彩。2016年AlphaGo论文的核心成员JulianSchrittwieser、AjaHuang、YannickSchroecker,如今也是AlphaProof的核心贡献者。有人在朋友圈感叹说:RLissoback!

业内普遍认为,OpenAIo1运用的技术关键也在于强化学习的搜索与学习机制,这标志着RL下Post-TrainingScalingLaw的时代正式到来。正如《TheBitterLesson》所说,只有搜索和学习这两种学习范式能够随着计算能力的增长无限扩展。强化学习作为这两种学习范式的载体,如何能够在实现可扩展的RL学习(ScalableRLLearning)和强化学习扩展法则(RLScalingLaw),将成为进一步突破大模型性能上限的关键途径。

这或许就是Calude团队招揽JulianSchrittwieser的出发点。o1研发团队在采访中也谈到过,OpenAI很早就受到AlphaGo的启发,意识到了深度强化学习的巨大潜力,并在相关方向投入了大量研究力量。

作为RL领域的深耕者,JulianSchrittwieser又会带领Claude团队做出怎样的成果呢?让我们拭目以待。

参考链接:https://www.furidamu.org/blog/2024/10/28/joining-anthropic/

未经允许不得转载:头条资讯网_今日热点_娱乐才是你关心的时事 » Anthropic挖走DeepMind强化学习大牛、AlphaGo核心作者

分享到:更多 ()
来源:机器之心Pro 编辑:科技

评论

留言/评论 共有条点评
昵称:
验证码:
匿名发表