阿里通义千问开源Qwen1.5-MoE-A2.7B模型-带水拖泥网

当前位置：首页 > 热点 > 阿里通义千问开源Qwen1.5-MoE-A2.7B模型正文

阿里通义千问开源Qwen1.5-MoE-A2.7B模型

时间：2024-07-02 03:58:15 来源：带水拖泥网作者：热点阅读：743次

阿里通义千问开源Qwen1.5-MoE-A2.7B模型

CSS站长资源(ChinaZ.com) 3月29日消息:通义千问团队推出了 Qwen 系列的阿里首个 MoE 模型，命名为 Qwen1.5-MoE-A2.7B。通义这个模型只有27亿个激活参数，千问但性能却与当前最先进的开源70亿参数模型相媲美。与 Qwen1.5-7B 相比，阿里Qwen1.5-MoE-A2.7B 只有20亿个非嵌入参数，通义大约是千问原模型大小的三分之一。此外，开源相较于 Qwen1.5-7B，阿里Qwen1.5-MoE-A2.7B 的通义训练成本降低了75%，推理速度提升了1.74倍。千问

Qwen1.5-MoE 模型采用了特别设计的开源 MoE 架构。与传统 MoE 方法不同的阿里是，Qwen1.5-MoE 使用了64个 finegrained experts，通义并引入了新的千问 routing 机制 DeepSeek-MoE 和 DBRX。这种 finegrained experts 设计的目的是在不增加参数数量的情况下生成更多 expert。Qwen1.5-MoE 模型在训练成本和推理效率方面表现出色，性能接近最先进的7B 模型。

Qwen1.5-MoE-A2.7B 模型拥有14.3亿激活参数和2亿非嵌入参数，训练成本降低了75%。在实验中，使用单个 NVIDIA A100-80G GPU 测试时，Qwen1.5-MoE-A2.7B 的推理速度提高了约1.74倍。Qwen1.5-MoE 模型已在 ModelScope 社区开源，可直接下载使用。

除了性能和效率，Qwen1.5-MoE 模型还将持续更新对第三方框架的支持，包括 llama.cpp、MLX 等。

总体来说，Qwen1.5-MoE 模型在性能、效率和推理速度方面取得了显著的优势，是推理训练的最佳实践之一。

Qwen1.5-MoE体验链接:

https://modelscope.cn/studios/qwen/qwen1.5-MoE-A2.7B-Chat-GPTQ-Int4-demo

(责任编辑：资讯)

[1]

[2]

[3]

上一篇：OnePlus11 和 12 手机将迎来人工智能功能更新
下一篇：14岁女儿将爸爸出轨录音拷贝给妈妈起诉情人返还25万余元