性能超越LLaMA2-7B！AI模型JetMoE-8B训练成本不到10万美元-带水拖泥网

性能超越LLaMA2-7B！AI模型JetMoE-8B训练成本不到10万美元

时间：2024-07-04 04:46:30 来源：带水拖泥网作者：小程序阅读：613次

性能超越LLaMA2-7B！AI模型JetMoE-8B训练成本不到10万美元

CSS站长资源（ChinaZ.com）4月17日消息:JetMoE-8B是性能B训一款采用稀疏激活架构的人工智能模型，其性能卓越且训练成本不到10万美元，模型美元令人惊讶的练成是，它的到万表现甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。性能B训

JetMoE-8B由24个块组成，模型美元每个块包含两个MoE层:注意力头混合（MoA）和MLP专家混合(MoE)。练成每个MoA和MoE层有8个专家，到万并且每个输入令牌激活2个专家。性能B训这种独特的模型美元设计使得在不牺牲性能的情况下显著降低了计算成本。

值得一提的练成是，尽管JetMoE-8B的到万总参数量达到80亿，但由于其特殊的性能B训架构设计，每个输入令牌仅激活约22亿参数，模型美元从而大大减少了总体的练成计算需求。

此外，JetMoE-8B的训练完全依赖于公开数据，并且整个训练过程，包括代码，都是完全开源的，这无疑为AI领域的研究和应用提供了极大的便利。

在与Open LLM排行榜相同的评估方法下，JetMoE-8B的性能表现优于LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B，这一结果无疑是对其高效性能的最好证明。

与此同时，与具有类似训练和推理计算的模型（如Gemma-2B）相比，JetMoE-8B展示了更优异的表现。这不仅证明了其在性能上的优势，也展示了其在成本效益上的显著优势。

模型地址:https://huggingface.co/jetmoe/jetmoe-8b

(责任编辑：热点)