头条资讯网_今日热点_娱乐才是你关心的时事

今日热点 时事资讯
娱乐头条才是你关心的新闻
首页 > 头条资讯 > 科技

通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens

IT之家6月7日消息,通义千问(Qwen)今天宣布经过数月的努力,Qwen系列模型从Qwen1.5到Qwen2的重大升级,并已在HuggingFace和ModelScope上同步开源。

IT之家附上Qwen2.0主要内容如下:

5个尺寸的预训练和指令微调模型,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B

在中文英语的基础上,训练数据中增加了27种语言相关的高质量数据;

多个评测基准上的领先表现;

代码和数学能力显著提升;

增大了上下文长度支持,最高达到128Ktokens(Qwen2-72B-Instruct)。

模型基础信息

Qwen2系列包含5个尺寸的预训练和指令微调模型,其中包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。

模型Qwen2-0.5BQwen2-1.5BQwen2-7BQwen2-57B-A14BQwen2-72B参数量0.49B1.54B7.07B57.41B72.71B非Embedding参数量0.35B1.31B5.98B56.32B70.21BGQATrueTrueTrueTrueTrueTieEmbeddingTrueTrueFalseFalseFalse上下文长度32K32K128K64K128K

在Qwen1.5系列中,只有32B和110B的模型使用了GQA。这一次,所有尺寸的模型都使用了GQA,以便让大家体验到GQA带来的推理加速和显存占用降低的优势。

模型评测

相比Qwen1.5,Qwen2在大规模模型实现了非常大幅度的效果提升。我们对Qwen2-72B进行了全方位的评测。

在针对预训练语言模型的评估中,对比当前最优的开源模型,Qwen2-72B在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型,如Llama-3-70B以及Qwen1.5最大的模型Qwen1.5-110B。

未经允许不得转载:头条资讯网_今日热点_娱乐才是你关心的时事 » 通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens

分享到:更多 ()
来源:IT之家 编辑:科技

评论

留言/评论 共有条点评
昵称:
验证码:
匿名发表