比美国开源Llama3更强的中国模型Qwen2
Qwen系列模型从Qwen1.5到Qwen2的重大升级。这一次,
- 5个尺寸的预训练和指令微调模型, 包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B;
- 在中文英语的基础上,训练数据中增加了27种语言相关的高质量数据;
- 多个评测基准上的领先表现;
- 代码和数学能力显著提升;
- 增大了上下文长度支持,最高达到128K tokens(Qwen2-72B-Instruct)。
Qwen2系列模型开源
Qwen2系列包含5个尺寸的预训练和指令微调模型,包括:
- Qwen2-0.5B
- Qwen2-1.5B
- Qwen2-7B
- Qwen2-57B-A14B
- Qwen2-72B
模型基础信息
模型 | 参数量 | 非Embedding参数量 | GQA | Tie Embedding | 上下文长度 |
---|---|---|---|---|---|
Qwen2-0.5B | 0.49B | 0.35B | √ | √ | 32K |
Qwen2-1.5B | 1.54B | 1.31B | √ | √ | 32K |
Qwen2-7B | 7.07B | 5.98B | √ | × | 128K |
Qwen2-57B-A14B | 57.41B | 56.32B | √ | × | 64K |
Qwen2-72B | 72.71B | 70.21B | √ | × | 128K |
多语言能力
Qwen2系列模型对包括中英文在内的30种语言进行了增强,包括西欧、东欧及中欧、中东、东亚、东南亚和南亚的语言。
模型测评
Qwen2-72B在多项能力上超越当前领先的模型,如Llama-3-70B和Qwen1.5-110B。小模型Qwen2-7B-Instruct在代码及中文理解上也表现优异。
亮点
代码 & 数学
Qwen2系列在代码和数学方面有显著提升,支持多种编程语言。
长文本处理
Qwen2系列中的所有Instruct模型,均在32k上下文长度上进行训练,并通过YARN或Dual Chunk Attention等技术扩展至更长的上下文长度。 下图展示了我们在Needle in a Haystack测试集上的结果。值得注意的是,Qwen2-72B-Instruct能够完美处理128k上下文长度内的信息抽取任务。结合其本身强大的性能,只要有充足的算力,它一定能成为你处理长文本任务的首选! 此外,Qwen2系列中的其他模型的表现也十分突出:Qwen2-7B-Instruct几乎完美地处理长达128k的上下文;Qwen2-57B-A14B-Instruct则能处理64k的上下文长度;而该系列中的两个较小模型则支持32k的上下文长度。 除了长上下文模型,我们还开源了一个智能体解决方案,用于高效处理100万tokens级别的上下文。更多详细信息,请参见我们关于该主题的博客文章。
安全
下表展示了大型模型在四种多语言不安全查询类别(非法活动、欺诈、色情、隐私暴力)中生成有害响应的比例。测试数据来源于Jailbreak,并被翻译成多种语言进行评估。我们发现Llama-3在处理多语言提示方面表现不佳,因此没有将其纳入比较。通过显著性检验(P值),我们发现Qwen2-72B-Instruct模型在安全性方面与GPT-4的表现相当,并且显著优于Mistral-8x22B模型
使用Qwen2
模型已开源在Hugging Face和ModelScope上。欢迎查阅模型卡了解更多信息。
模型许可
此次我们采用不同的模型许可。除了Qwen2-72B依旧使用此前的Qianwen License外,其余模型,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B以及Qwen2-57B-A14B在内,均采用Apache 2.0的许可。我们希望本次开放程度的提升能够加速Qwen2在全球各地的落地及商业应用。
Qwen2的下一步
Qwen2将继续探索模型及数据的Scaling Law,并扩展成多模态模型。
更多功能可以参考下面的gpt4已经实现的网站
① Chat AI
通用ChatGPT,支持3.5和4.0、最新模型GPT-4.0 Turbo