会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 性能超越LLaMA2-7B!AI模型JetMoE-8B训练成本不到10万美元!

性能超越LLaMA2-7B!AI模型JetMoE-8B训练成本不到10万美元

时间:2024-07-04 04:46:30 来源:带水拖泥网 作者:小程序 阅读:613次

性能超越LLaMA2-7B!AI模型JetMoE-8B训练成本不到10万美元

CSS站长资源(ChinaZ.com)4月17日 消息:JetMoE-8B是性能B训一款采用稀疏激活架构的人工智能模型,其性能卓越且训练成本不到10万美元,模型美元令人惊讶的练成是,它的到万表现甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。性能B训

JetMoE-8B由24个块组成,模型美元每个块包含两个MoE层:注意力头混合(MoA)和MLP专家混合(MoE)。练成每个MoA和MoE层有8个专家,到万并且每个输入令牌激活2个专家。性能B训这种独特的模型美元设计使得在不牺牲性能的情况下显著降低了计算成本。

值得一提的练成是,尽管JetMoE-8B的到万总参数量达到80亿,但由于其特殊的性能B训架构设计,每个输入令牌仅激活约22亿参数,模型美元从而大大减少了总体的练成计算需求。

此外,JetMoE-8B的训练完全依赖于公开数据,并且整个训练过程,包括代码,都是完全开源的,这无疑为AI领域的研究和应用提供了极大的便利。

在与Open LLM排行榜相同的评估方法下,JetMoE-8B的性能表现优于LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B,这一结果无疑是对其高效性能的最好证明。

与此同时,与具有类似训练和推理计算的模型(如Gemma-2B)相比,JetMoE-8B展示了更优异的表现。这不仅证明了其在性能上的优势,也展示了其在成本效益上的显著优势。

模型地址:https://huggingface.co/jetmoe/jetmoe-8b

(责任编辑:热点)

相关内容
  • AI大模型哪家强?七大维度横评四款主流大模型!
  • 市监局通报二手空调翻新造假:已立案查处
  • 女子穿7cm厚洞洞鞋崴脚粉碎性骨折:完全康复需3个月
  • ​麦肯锡调查显示:生成式AI应用大中华区增长最快
  • 《完蛋!我被美女包围了!》DLC倒计时海报:美女室友让人心跳
  • 周星驰首部短剧上线:首集播放量超千万,徐志胜登上热搜
  • 小鹏汽车公布小鹏X9用户画像:1/3车主家庭年收入百万
  • 欠债上亿?“雪糕刺客”背后的网红老板,直播还债
推荐内容
  • 春节穿汉服可免费乘苏州地铁 苏州轨道交通推出春节免费乘车活动
  • 市监局通报二手空调翻新造假:已立案查处
  • 沙特阿美投资中国AI初创企业智谱AI 估值达30亿美元
  • 爸爸抽烟把3岁娃忘车里直接回家:代驾小哥发现果断报警
  • FaceChain-FACT怎么使用 零成本AI人像生成工具使用方法教程指南
  • 央视曝光二手空调用致癌药水翻新套路:几毛钱一套能效标签随便贴