英伟达发布Nemotron-4:150亿参数通用大模型,目标单张A100/H100可跑
**划重点:
**1. 🌐 Nemotron-4是英伟n亿英伟达最新的通用大模型,拥有150亿参数,达发大模在各语言和编码任务中表现出色。布N标单
2. 💡 该模型采用Chinchilla模型的参数「缩放定律」,通过优化计算预算、通用数据和模型大小实现性能提升。型目
3. 🔥 在多领域下游评估中,英伟n亿Nemotron-415B超越同等参数规模的达发大模模型,甚至击败4倍大的布N标单模型,成为最强通用语言模型。参数
CSS站长资源(ChinaZ.com)2月29日 消息:英伟达最新推出的通用Nemotron-4语言模型引起广泛关注。这一通用大模型拥有150亿参数,型目经过在8T token上的英伟n亿训练,在英语、达发大模多语言和编码任务中表现出色。布N标单具体而言,Nemotron-4在7个评估基准上的15B模型表现优异,超越同等参数规模的模型,甚至击败了4倍大的模型。
该模型的设计灵感来自Chinchilla模型的「缩放定律」,该定律强调在给定固定计算预算的情况下,同时优化数据和模型大小。与过去主要关注模型大小不同,这一研究强调将计算分配给更多数据的训练,以降低延迟和服务模型所需的计算量。因此,Nemotron-4的主要目标是打造一个能在单个英伟达A100或H100GPU上运行的最佳「通用大模型」。
在架构方面,Nemotron-4采用了标准的纯解码器Transformer架构,并带有因果注意掩码。核心超参数包括32亿个嵌入参数和125亿个非嵌入参数。在数据方面,研究人员使用了包含8万亿个token的预训练数据集,分为英语自然语言数据(70%)、多语言自然语言数据(15%)和源代码数据(15%)。
为了实现这一庞大模型的训练,Nemotron-4使用了384个DGX H100节点,每个节点包含8个英伟达H10080GB SXM5GPU。在16位浮点(bfloat16)算术下,每个GPU的峰值吞吐量为989teraFLOP/s。研究人员通过张量并行和数据并行的组合进行训练,并使用了分布式优化器。
在下游评估中,Nemotron-4在各领域均表现强劲,特别是在常识推理、热门综合基准和数学、代码任务上。该模型在多语言分类和生成任务中也实现了最佳性能,展现了其在不同语言的卓越理解能力。值得注意的是,Nemotron-4在机器翻译任务中取得了显著的进展,不仅在中文翻译成英文方面表现出色,而且在中文直接翻译成其他语言方面也取得了印象深刻的效果。
Nemotron-4的推出标志着英伟达在通用大模型领域的一次重要突破,为单个A100或H100GPU上运行的最佳通用大模型设定了新标准。
论文地址:https://arxiv.org/abs/2402.16819
(责任编辑:业界)
- ·Noi官网体验入口 GPT模型驱动的AI写作助手软件工具免费下载地址
- ·特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个!
- ·YouTube Premium 会员现在可以测试人工智能驱动的“跳转”
- ·高铁上2女子因遮光帘拉扯40分钟 12306回应
- ·高铁超载无法运行 有旅客被请下车!12306回应:不建议买短补长
- ·Al加码,引爆“躺平式”旅游
- ·ElevenLabs AI创始人提出应对音频Deepfakes想法:加水印
- ·苹果iPhone 17 Slim机型曝光:配置已曝光
- ·和自家兄弟“抢饭碗”!特斯拉Model Y海外售价降至Model 3同价
- ·苹果在中国已成Others!iPhone出货量跌出前五
- ·小米高管职务大变动!卢伟冰谈接手小米手机:巨大责任 光荣使命
- ·赛力斯汽车法务部:已对问界新M7 Plus不实信息进行证据保全公证并依法报案
- ·AITO汽车发布山西问界M7事故说明 回应M7事故四大疑问
- ·腾讯爆火剧续作!曝《庆余年2》将登央视八套黄金档
- ·医疗博主发布女性隆胸视频被处罚:已删除相关视频
- ·肯德基软件故障不收现金被罚 应备足零钱满足公众现金支付需求
- ·索尼Xperia 1 VI真机亮相:骁龙8 Gen3加持
- ·真我GT Neo6也玩先锋计划:新品突然上架
- ·董宇辉访谈刘德华宁浩 刘德华在董宇辉直播间唱恭喜发财
- ·华为WATCH FIT 3宣传片曝光:方形表盘酷似Apple Watch