会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 英伟达发布Nemotron-4 15B: 8 万亿训练数据,性能超LLaMA-2!

英伟达发布Nemotron-4 15B: 8 万亿训练数据,性能超LLaMA-2

时间:2024-07-02 04:01:58 来源:带水拖泥网 作者:电商 阅读:263次

英伟达发布Nemotron-4 15B: 8 万亿训练数据,性能超LLaMA-2

**划重点:

**

1. 🌐 Nemotron-415B拥有150亿参数,英伟基于8万亿文本标注数据预训练,训练性在多领域测试中超越同类大小的数据开源模型,尤其在代码语言准确率上表现出色。英伟

2. 🧠采用标准Transformer架构,训练性结合自注意力、数据全局注意力和多头注意力等机制,英伟以及旋转位置编码技术,训练性提升模型表达和泛化能力。数据

3. 🌐 利用384个DGX H100节点,英伟每节点搭载8个NVIDIA Hopper架构的训练性H10080GB SXM5GPU,采用8路张量并行和数据并行的数据组合,以及分布式优化器进行分片。英伟

CSS站长资源(ChinaZ.com)3月7日 消息:英伟达最新推出的训练性大型语言模型Nemotron-415B,以其卓越性能和创新架构引起广泛关注。数据该模型拥有150亿参数,基于庞大的8万亿文本标注数据进行了预训练。

在多领域测试中,Nemotron-415B在7个领域中的4个表现优异,超越了同类大小的开源模型。特别值得注意的是,在代码语言方面,Nemotron-415B展现出更高的准确率,尤其在资源稀缺的编程语言上超过了Starcoder和Mistral7B等模型。

该模型采用了标准的Transformer架构,包括多头自注意力机制和前馈神经网络。其独特之处在于,Nemotron-415B结合了自注意力和全局注意力机制,以更好地理解输入序列内部的依赖关系和输入序列与输出序列之间的对应关系。多头注意力的引入进一步提高了模型的表达能力和泛化能力。

在训练过程中,研究人员充分利用了384个DGX H100节点,每个节点搭载8个基于NVIDIA Hopper架构的H10080GB SXM5GPU。通过8路张量并行和数据并行的组合,以及分布式优化器进行分片,成功完成了Nemotron-415B的训练。

Nemotron-415B在英语、数学推理、多语言分类和代码等多个测试任务中表现出色,不仅在性能上超越了LLaMA-234B和Mistral7B,在广泛的代码语言中也取得了更高的准确率。这一成就为大型语言模型的发展和应用提供了崭新的视角。

技术报告https://arxiv.org/abs/2402.16819

(责任编辑:知识)

相关内容
  • 苹果财季中国收入下降13% 库克回应:仍是热销产品
  • 小米汽车SU7部分展车已到店:3月25日开业品鉴 28日试驾
  • 长城汽车回应多位中高层员工离职:恶意揣测误导舆论
  • 张雪峰谈大学越来越像工厂说法:发现问题不是能耐
  • 为什么高铁座椅没有E号上热搜 网友:抓去当视力表了
  • 反诈老陈更名变身健身主播:流量暴涨10倍 超338万人观看
  • 3月28日上市交付!雷军微博调研:小米SU7 3种颜色你会买哪个
  • 反诈老陈更名变身健身主播:流量暴涨10倍 超338万人观看
推荐内容
  • 女子因彩礼和相恋8年男友分手:18.8万都会带到新家 还陪嫁车
  • 张雪峰谈大学越来越像工厂说法:发现问题不是能耐
  • 欧盟通过世界首部人工智能法案 开创全球监管先河
  • 魅族新机入网:骁龙7  Gen3、5400mAh大电池
  • 混合现实社交平台Wooorld 将3D世界地图带入用户的房间
  • 对标Sora?国产公司推文生视频工具Etna 能生成15秒4K视频