幻方DeepSeek-V2系列模型已在魔搭社区开源
CSS站长资源(ChinaZ.com) 5月8日 消息:魔搭ModelScope社区宣布,幻方DeepSeek-V2系列模型现已在魔搭ModelScope社区开源。系型已
据悉,列模幻方公司在5月6日推出了第二代 MoE 模型 DeepSeek-V2,魔搭并开源了技术报告和模型权重,社区该模型引入了 MLA 架构和自研 Sparse 结构 DeepSeekMoE,开源以236B 总参数、幻方21B 激活,系型已实际部署在8卡 H800机器上,列模输入吞吐量超过每秒10万 tokens 输出超过每秒5万 tokens。魔搭
性能方面,社区在目前大模型主流榜单中,开源DeepSeek-V2均表现出色:
中文综合能力(AlignBench)开源模型中最强,幻方与GPT-4-Turbo,系型已文心4.0等闭源模型在评测中处于同一梯队
英文综合能力(MT-Bench)与最强的列模开源模型LLaMA3-70B同处第一梯队,超过最强MoE开源模型Mixtral8x22B
知识、数学、推理、编程等榜单结果也位居前列
支持128K上下文窗口
和DeepSeek67B相比,DeepSeek-V2节约了42.5%训练成本,推理的KV Cache节约了93.3%,最大吞吐是之前的576%。
DeepSeek-V2的推理代码和模型下载链接已经在魔搭 ModelScope 社区开源,用户可以通过该平台直接下载模型。
项目地址:
DeepSeek-V2-Chat:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V2-Chat
DeepSeek-V2:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V2
(责任编辑:自媒体)
- ·图领域通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东
- ·曝小米Redmi 13手机已通过3C认证:支持33W快充!
- ·生成式AI:三块短板、两道难题、一个悖论
- ·特斯拉中国上架新款Model 3高性能全轮驱动版 售价33.59万元
- ·女子直播被指虐猫后直接放嘴里咬 网友愤慨:行为不人道
- ·据报道,苹果因需求低迷而削减 Vision Pro 产量
- ·特斯拉中国上架新款Model 3高性能全轮驱动版 售价33.59万元
- ·华为发布新一代鸿蒙座舱:搭载千悟大模型
- ·亿万富翁投资者 David Tepper 将58%的投资组合投入这7只AI股票
- ·微信支付多场景支持,境外来华人士可使用数字人民币便捷支付
- ·欠债人连发20个250元 债主怒而报警:履行方式不当
- ·对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程
- ·特斯拉发布2024年季度财报 称将加速推出更便宜车型
- ·iPhone 16 Pro售价曝光:256GB起步约7999元,终于摆脱128GB束缚
- ·6岁女孩在爸爸公司年会上自信跳舞:完全没有怯场
- ·全国首例“AI声音侵权案”宣判:获赔25万元
- ·低于30万的华为高阶智驾亏本卖!余承东:华为智能驾驶全球
- ·低于30万的华为高阶智驾亏本卖!余承东:华为智能驾驶全球
- ·还坚持4G吗!工信部公布5G手机用户平均下载速率 你达标没
- ·Adobe发布新一代图像生成模型Firefly Image3,号称迄今为止