昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE
CSS站长资源(ChinaZ.com) 6月3日 消息:2024年6月3日,昆仑开源昆仑万维宣布开源了一个性能强劲的宣布稀疏型2千亿稀疏大模型,名为 Skywork-MoE。千亿这个模型是大模在之前开源的 Skywork-13B 模型的基础上扩展而来的,是昆仑开源首个完整应用并落地 MoE Upcycling 技术的开源千亿级 MoE 大模型。同时,宣布稀疏型这也是千亿全球首个支持在单台4090服务器上进行推理的开源千亿级 MoE 大模型。
Skywork-MoE 的大模模型权重、技术报告完全开源,昆仑开源可以免费商用,宣布稀疏型无需申请。千亿模型的大模总参数量为146B,激活参数量为22B,昆仑开源共有16个 Expert,宣布稀疏型每次激活其中的千亿2个 Expert。与其他主流模型相比,在相同的激活参数量下,Skywork-MoE 的性能接近70B 的 Dense 模型,推理成本下降了近3倍。
为了解决 MoE 模型训练困难、泛化性能差等问题,Skywork-MoE 采用了两种训练优化算法:Gating Logits 归一化操作和自适应的 Aux Loss。此外,为了高效进行大规模分布式训练,Skywork-MoE 提出了两个并行优化设计:Expert Data Parallel 和非均匀切分流水并行。
在推理方面,Skywork-MoE 是目前能够在8台4090服务器上进行推理的最大开源 MoE 模型。通过首创的非均匀 Tensor Parallel 并行推理方式,在 FP8量化下,Skywork-MoE 可以实现2200tokens/s 的吞吐。
•模型权重下载:
○https://huggingface.co/Skywork/Skywork-MoE-base
○https://huggingface.co/Skywork/Skywork-MoE-Base-FP8
•模型开源仓库:https://github.com/SkyworkAI/Skywork-MoE
•模型技术报告:https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdf
•模型推理代码:(支持8x4090服务器上8bit 量化加载推理) https://github.com/SkyworkAI/vllm
(责任编辑:电商)
- ·起猛了看湖南下雪还以为天上掉大米 你见过这么大粒的雪吗?
- ·日本品白菜价 白菜变品 网友晒图:切成一半甚至四分之一卖
- ·清华团队国产Sora火了 背后创业公司已融资数亿元
- ·雷诺CEO北京车展会面雷军、李想:后续有望展开合作
- ·美邦创始人:亏损责任不在我女儿 自己将全面参与经营
- ·豪华品牌开始发力!奔驰推出以旧换新限时政策:补贴至高1.5万元
- ·OPPO标准版旗舰 OPPO Find X7白色版开售:3999元起
- ·安卓15新增功能:可关闭的振动提醒 还能阻止手机锁屏疯狂振动
- ·问界新M7助力AITO汽车登顶,月交付3万 诠释“新王登基”
- ·LLaVA++:为Phi-3和Llama-3模型增加视觉处理能力
- ·怕不怕:调查称单身更容易使人变傻、死亡率更高
- ·广州白云区强龙卷风 气象部门分析出现4个原因
- ·马斯克也要来北京车展么 其私人飞机将落地北京首都机场
- ·三星或于7月10日举办发布会,智能戒指、折叠产品将登场
- ·图领域通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东
- ·群像种田剧,《惜花芷》走出“上扬曲线”的创作密码 | 专访鄢蓓
- ·《仙剑世界》将开启付费测试:PC、安卓、iOS三端互通
- ·调查显示:1/3的翻译者和1/4的插画师已经因AI失去了工作
- ·115网盘正式上线“飘流瓶”功能:扔瓶者一次可获得4.75G空间
- ·你认同吗!双休政策参与者谈调休:我们差的是年带薪休假