会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 阿里通义千问开源Qwen1.5-MoE-A2.7B模型!

阿里通义千问开源Qwen1.5-MoE-A2.7B模型

时间:2024-07-02 03:58:15 来源:带水拖泥网 作者:热点 阅读:743次

阿里通义千问开源Qwen1.5-MoE-A2.7B模型

CSS站长资源(ChinaZ.com) 3月29日 消息:通义千问团队推出了 Qwen 系列的阿里首个 MoE 模型,命名为 Qwen1.5-MoE-A2.7B。通义这个模型只有27亿个激活参数,千问但性能却与当前最先进的开源70亿参数模型相媲美。与 Qwen1.5-7B 相比,阿里Qwen1.5-MoE-A2.7B 只有20亿个非嵌入参数,通义大约是千问原模型大小的三分之一。此外,开源相较于 Qwen1.5-7B,阿里Qwen1.5-MoE-A2.7B 的通义训练成本降低了75%,推理速度提升了1.74倍。千问

Qwen1.5-MoE 模型采用了特别设计的开源 MoE 架构。与传统 MoE 方法不同的阿里是,Qwen1.5-MoE 使用了64个 finegrained experts,通义并引入了新的千问 routing 机制 DeepSeek-MoE 和 DBRX。这种 finegrained experts 设计的目的是在不增加参数数量的情况下生成更多 expert。Qwen1.5-MoE 模型在训练成本和推理效率方面表现出色,性能接近最先进的7B 模型。

Qwen1.5-MoE-A2.7B 模型拥有14.3亿激活参数和2亿非嵌入参数,训练成本降低了75%。在实验中,使用单个 NVIDIA A100-80G GPU 测试时,Qwen1.5-MoE-A2.7B 的推理速度提高了约1.74倍。Qwen1.5-MoE 模型已在 ModelScope 社区开源,可直接下载使用。

除了性能和效率,Qwen1.5-MoE 模型还将持续更新对第三方框架的支持,包括 llama.cpp、MLX 等。

总体来说,Qwen1.5-MoE 模型在性能、效率和推理速度方面取得了显著的优势,是推理训练的最佳实践之一。

Qwen1.5-MoE体验链接:

https://modelscope.cn/studios/qwen/qwen1.5-MoE-A2.7B-Chat-GPTQ-Int4-demo

(责任编辑:资讯)

相关内容
  • 决战拜年之巅!你能经受住AI七大姑八大姨的灵魂拷问吗?
  • 终于等来了榴莲1斤1字打头 榴莲自由的风刮到了青岛
  • 好莱坞经纪公司CAA为明星提供管理AI形象方案避免遭滥用
  • 南京10元咖啡阿姨回应爆火:前两天就感觉有些不对劲
  • Informatica调查:全球企业优先考虑生成式 AI
  • 曝iPhone 16系列将新增玫瑰色钛金属 取消蓝色钛金属
  • GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4
  • Open AI 宫斗第二季时间线及各方观点梳理
推荐内容
  • 央视:龙年《春晚》采用XR VP虚实融合超高清制作 主舞台上百块LED屏
  • 当我给Kimi打赏了399块钱后,我觉得他离赛博飞升不远了。
  • GPT-4o团队引发OpenAI组织创新热议!应届生领衔Sora,本科生带队GPT-1,经验职级都是浮云
  • 卢伟冰问成功融入小米标准 雷军:要米粉认可你
  • 孩子玩手机把导航从回江西换到福建引热议:网友称导航软件Bug 别太依赖
  • Viva功能介绍及免费使用指南 文生视频体验地址入口