通义千问系列AI开源模型升至Qwen2：5个尺寸，最高 128K tokens-科技今日热点

IT之家6月7日消息，通义千问（Qwen）今天宣布经过数月的努力，Qwen系列模型从Qwen1.5到Qwen2的重大升级，并已在HuggingFace和ModelScope上同步开源。

IT之家附上Qwen2.0主要内容如下：

5个尺寸的预训练和指令微调模型，包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B

在中文英语的基础上，训练数据中增加了27种语言相关的高质量数据；

多个评测基准上的领先表现；

代码和数学能力显著提升；

增大了上下文长度支持，最高达到128Ktokens（Qwen2-72B-Instruct）。

模型基础信息

Qwen2系列包含5个尺寸的预训练和指令微调模型，其中包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。

模型Qwen2-0.5BQwen2-1.5BQwen2-7BQwen2-57B-A14BQwen2-72B参数量0.49B1.54B7.07B57.41B72.71B非Embedding参数量0.35B1.31B5.98B56.32B70.21BGQATrueTrueTrueTrueTrueTieEmbeddingTrueTrueFalseFalseFalse上下文长度32K32K128K64K128K

在Qwen1.5系列中，只有32B和110B的模型使用了GQA。这一次，所有尺寸的模型都使用了GQA，以便让大家体验到GQA带来的推理加速和显存占用降低的优势。

模型评测

相比Qwen1.5，Qwen2在大规模模型实现了非常大幅度的效果提升。我们对Qwen2-72B进行了全方位的评测。

在针对预训练语言模型的评估中，对比当前最优的开源模型，Qwen2-72B在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型，如Llama-3-70B以及Qwen1.5最大的模型Qwen1.5-110B。

未经允许不得转载：头条资讯网_今日热点_娱乐才是你关心的时事 » 通义千问系列AI开源模型升至Qwen2：5个尺寸，最高 128K tokens

	为何人们越来越喜欢秦始皇了
	唐朝祭拜的三国名将是哪8人
	短视频app源码，如何设计出流畅的后台系统
	魏延为什么怀念刘备时代，一起来看看
	新旧势力对决: 手机行业泛创新时代, 挑战与机遇如何把握?
	秦始皇为何车裂嫪毐囚其母，赐死吕不韦，一生不立皇后
	OPPO乱套了, 单反级拍照+高端旗舰芯, 256GB降到1571元
	Adobe Audition 2022中文激活版如何安装-Adobe Audition最新汉？
	广州番禺升降平台出租
	杜海涛的瘦身风暴：从圆润到帅气，这还是我们熟悉的大海涛吗？

头条资讯网_今日热点_娱乐才是你关心的时事

通义千问系列AI开源模型升至Qwen2：5个尺寸，最高 128K tokens

相关推荐

为何人们越来越喜欢秦始皇了

唐朝祭拜的三国名将是哪8人

短视频app源码，如何设计出流畅的后台系统

魏延为什么怀念刘备时代，一起来看看

新旧势力对决: 手机行业泛创新时代, 挑战与机遇如何把握?

秦始皇为何车裂嫪毐囚其母，赐死吕不韦，一生不立皇后

OPPO乱套了, 单反级拍照+高端旗舰芯, 256GB降到1571元

Adobe Audition 2022中文激活版如何安装-Adobe Audition最新汉？

广州番禺升降平台出租

杜海涛的瘦身风暴：从圆润到帅气，这还是我们熟悉的大海涛吗？

评论