性能超越LLaMA2-7B!AI模型JetMoE-8B训练成本不到10万美元
时间:2024-07-04 04:46:30 来源:带水拖泥网 作者:小程序 阅读:613次
CSS站长资源(ChinaZ.com)4月17日 消息:JetMoE-8B是性能B训一款采用稀疏激活架构的人工智能模型,其性能卓越且训练成本不到10万美元,模型美元令人惊讶的练成是,它的到万表现甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。性能B训
JetMoE-8B由24个块组成,模型美元每个块包含两个MoE层:注意力头混合(MoA)和MLP专家混合(MoE)。练成每个MoA和MoE层有8个专家,到万并且每个输入令牌激活2个专家。性能B训这种独特的模型美元设计使得在不牺牲性能的情况下显著降低了计算成本。
值得一提的练成是,尽管JetMoE-8B的到万总参数量达到80亿,但由于其特殊的性能B训架构设计,每个输入令牌仅激活约22亿参数,模型美元从而大大减少了总体的练成计算需求。
此外,JetMoE-8B的训练完全依赖于公开数据,并且整个训练过程,包括代码,都是完全开源的,这无疑为AI领域的研究和应用提供了极大的便利。
在与Open LLM排行榜相同的评估方法下,JetMoE-8B的性能表现优于LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B,这一结果无疑是对其高效性能的最好证明。
与此同时,与具有类似训练和推理计算的模型(如Gemma-2B)相比,JetMoE-8B展示了更优异的表现。这不仅证明了其在性能上的优势,也展示了其在成本效益上的显著优势。
模型地址:https://huggingface.co/jetmoe/jetmoe-8b
(责任编辑:热点)
最新内容
- ·鞠婧祎成《荣耀》品牌大使 持伞跳舞美翻了
- ·《庆余年第二季》长线IP开发背后,我们看到了季播剧的新解法
- ·送外卖被拦发现保安是发小:突然开怀大笑 仿佛重回童年
- ·抖音:将打击使用AI技术P图侮辱他人等行为
- ·超越微软、亚马逊:苹果连续17年蝉联“全球最受赞赏公司”榜首
- ·AI日报:SD 3宣布开源;中文语音AIChatTTS官网上线;Veo支持单图生成视频;ElevenLabs推多样化AI音频模型
- ·2024年新剧第3!《庆余年2》集均播放量超5000万
- ·腾讯游戏发布2024年端午节未成年人游戏限玩通知
- ·降雪冻雨下列车车顶一路火花带闪电 专家解读拉弧现象
- ·民进中央领导一行赴学大教育集团旗下大连文谷双语学校考察调研