精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B-科技今日热点

AI竞赛正以前所未有的速度加速，继Meta昨天推出其新的开源Llama3.1模型之后，法国AI初创公司MistralAI也加入了竞争。

刚刚，MistralAI宣布其旗舰开源模型的下一代产品：MistralLarge2，该模型拥有1230亿个参数，在代码生成、数学、推理等方面与OpenAI和Meta的最新尖端模型不相上下。

紧随Llama3.1405B之后，MistralLarge2的发布让开源大模型的赛道一下子热闹起来，而这一模型的特点是——「足够大」。

具体来说，虽然MistralLarge2参数量低于Llama3.1的4050亿，但两者性能接近。并且在多个基准测试中与GPT-4o、Anthropic的Claude3.5Sonnet媲美。

今年2月，MistralAI推出了最初的Large模型，其上下文窗口包含32,000个token，新版模型在此基础上构建，具有更大的128,000个上下文窗口（大约相当于一本300页的书）——与OpenAI的GPT-4o和GPT-4omini以及Meta的Llama3.1相匹配。

目前，MistralLarge2支持数十种语言，包括法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语，以及80多种编程语言，包括Python、Java、C、C++、JavaScript和Bash。

MistralAI指出，新模型将继续突破成本效率、速度和性能的界限，同时为用户提供新功能，包括高级函数调用和检索，以构建高性能的AI应用。

不过，值得注意的是，MistralLarge2虽然是开放的，但只限于研究和非商业用途。它提供了开放的权重，允许第三方根据自己的需求对模型进行微调。这一协议是对用户使用条件的一个重要限制。对于需要自行部署MistralLarge2的商业用途，必须提前获取MistralAI商业许可证。

性能表现

在多项评估指标上，MistralLarge2刷新了性能和服务成本的新标准。特别是在MMLU上，预训练版本实现了84.0%的准确率。

代码与推理

MistralAI基于此前Codestral22B和CodestralMamba的经验，在很大一部分代码上训练了MistralLarge2。

MistralLarge2的表现远远优于上一代的MistralLarge，并且与GPT-4o、Claude3Opus和Llama3405B等顶尖模型相当。

MistralAI还投入了大量精力来增强模型的推理能力，重点之一就是尽量减少模型产生「幻觉」或产生看似合理但实际上不正确或不相关信息的倾向。这是通过微调模型来实现的，使其在回复时更加谨慎和敏锐，确保其提供可靠和准确的输出。

此外，在找不到解决方案或没有足够的信息来提供一个自信的答案时，MistralLarge2会承认（自己答不出来）。这种对准确性的追求体现在了数学基准测试中模型性能的提高，下图展示了其增强的推理和解决问题的能力：

代码生成基准上的性能准确性（所有模型都通过相同的评估流程进行基准测试）。

MultiPL-E上的性能准确性（除paper外，所有模型都通过相同的评估流程进行基准测试）。

GSM8K（8-shot）和MATH（0-shot，无CoT）生成基准上的性能准确性（所有模型都通过相同的评估流程进行基准测试）。

指令遵循与对齐

MistralAI大幅提升了MistralLarge2的指令遵循和对话能力。新的MistralLarge2尤其擅长遵循精确指令和处理长时间的多轮对话。

以下是其在MT-Bench、WildBench和ArenaHard基准测试中的表现：

模型在通用对齐基准测试中的性能（所有模型均通过相同的评估pipeline进行测试）

在某些基准测试中，生成较长的回答往往会提高评分。然而，在许多商业应用中，简洁至关重要，这是因为简洁的模型生成能够加快交互速度，并降低推理成本。

所以MistralAI花费了大量精力，确保生成的内容尽可能简明扼要。

下图展示了在MTBench基准测试的问题上，不同模型生成的回答的平均长度：

语言多样性

当今大量的商业化应用场景涉及处理多语言文档。MistralLarge2在大量多语言数据上进行了训练，特别是在英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语、韩语、阿拉伯语和印地语方面都表现优异。

以下是MistralLarge2在多语言MMLU基准测试中的性能结果，主要是与之前的MistralLarge、Llama3.1模型以及Cohere的CommandR+的对比：

多语言MMLU性能（以基础预训练模型测量）

工具使用与函数调用

MistralLarge2配备了增强的函数调用和检索技能，经过训练能够熟练地执行并行和顺序函数调用，使其能够成为复杂业务应用程序的强大引擎。

下图为MistralLarge2在函数调用上与其他主流模型的准确性对比：

试用MistralLarge2

用户可以通过laPlateforme上使用MistralLarge2，名称为mistral-large-2407，并在leChat上测试。它的版本是24.07（Mistral对所有模型采用的都是YY.MM版本编号系统），API名称为mistral-large-2407。

指令模型的权重已提供，托管在HuggingFace上。

权重链接：https://huggingface.co/mistralai/Mistral-Large-Instruct-2407

MistralAI正在将laPlateforme上的产品整合为两个通用模型：MistralNemo和MistralLarge，以及两个专业模型：Codestral和Embed。随着他们逐步淘汰laPlateforme上的旧模型，所有的Apache模型（包括Mistral7B、Mixtral8x7B和8x22B、CodestralMamba、Mathstral）仍然可以使用MistralAI的SDK——mistral-inference和mistral-finetune进行部署和微调。

从今天开始，他们扩展了laPlateforme上的微调功能：现在，这些功能适用于MistralLarge、MistralNemo和Codestral。

此外，MistralAI与云服务提供商都有合作，MistralLarge2将很快登陆这些平台。MistralAI扩大了与GoogleCloudPlatform的合作，通过ManagedAPI将MistralAI的模型引入VertexAI。与此同时，还可以在AmazonBedrock、AzureAIStudio和IBMwatsonx.ai上找到。

https://mistral.ai/news/mistral-large-2407/

https://venturebeat.com/ai/mistral-shocks-with-new-open-model-mistral-large-2-taking-on-llama-3-1/

https://techcrunch.com/2024/07/24/mistral-releases-large-2-meta-openai-ai-models/

未经允许不得转载：头条资讯网_今日热点_娱乐才是你关心的时事 » 精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

	成都：试点推出“移动AED”出租车
	江苏，女子带10岁侄子每天爬18层楼梯减肥，16天减了5斤
	西地那非的效果和副作用：你需要知道的一切！
	精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B
	柴桑区涌泉乡：统战成员战高温，助农收稻田间忙
	最新消息！2024巴黎奥运会浙江体育健儿赛程表已出炉！
	修表是生计，诗歌是生活，杭州的菜场里藏着“修表诗人”，已出三本诗集
	相聚 “线上书博会”，共同开启精彩悦读之旅！
	徐州泉山区消防:以人民为中心，做群众满意的消防工作
	武汉200余座地铁车站开放纳凉

头条资讯网_今日热点_娱乐才是你关心的时事

精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

相关推荐

成都：试点推出“移动AED”出租车

江苏，女子带10岁侄子每天爬18层楼梯减肥，16天减了5斤

西地那非的效果和副作用：你需要知道的一切！

精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

柴桑区涌泉乡：统战成员战高温，助农收稻田间忙

最新消息！2024巴黎奥运会浙江体育健儿赛程表已出炉！

修表是生计，诗歌是生活，杭州的菜场里藏着“修表诗人”，已出三本诗集

相聚 “线上书博会”，共同开启精彩悦读之旅！

徐州泉山区消防:以人民为中心，做群众满意的消防工作

武汉200余座地铁车站开放纳凉

评论