会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 延迟降低2倍!英特尔披露至强6处理器针对Meta Llama 3模型的推理性能!

延迟降低2倍!英特尔披露至强6处理器针对Meta Llama 3模型的推理性能

时间:2024-07-02 03:54:02 来源:带水拖泥网 作者:知识 阅读:115次

延迟降低2倍!英特尔披露至强6处理器针对Meta Llama 3模型的推理性能

4月20日消息,延迟近日,降低Meta重磅推出其80亿和700亿参数的倍英Meta Llama 3开源大模型。该模型引入了改进推理等新功能和更多的披露模型尺寸,并采用全新标记器(Tokenizer),至强旨在提升编码语言效率并提高模型性能。处理

在模型发布的器针第一时间,英特尔即验证了Llama 3能够在包括英特尔至强处理器在内的对M的推丰富AI产品组合上运行,并披露了即将发布的模型英特尔至强6性能核处理器(代号为Granite Rapids)针对Meta Llama 3模型的推理性能。

英特尔至强处理器可以满足要求严苛的理性端到端AI工作负载的需求。以第五代至强处理器为例,延迟每个核心均内置了AMX加速引擎,降低能够提供出色的倍英AI推理和训练性能。截至目前,披露该处理器已被众多主流云服务商所采用。至强不仅如此,至强处理器在进行通用计算时,能够提供更低时延,并能同时处理多种工作负载。

事实上,英特尔一直在持续优化至强平台的大模型推理性能。例如,相较于Llama 2模型的软件,PyTorch及英特尔PyTorch扩展包(IntelExtension for PyTorch)的延迟降低了5倍。这一优化是通过Paged Attention算法和张量并行实现的,这是因为其能够最大化可用算力及内存带宽。下图展示了80亿参数的Meta Lama 3模型在AWS m7i.metal-48x实例上的推理性能,该实例基于第四代英特尔至强可扩展处理器。

AWS实例上Llama 3的下一个Token延迟

不仅如此,英特尔还首次披露了即将发布的产品——英特尔至强6性能核处理器(代号为Granite Rapids)针对Meta Llama 3的性能测试。结果显示,与第四代至强处理器相比,英特尔至强6处理器在80亿参数的Llama 3推理模型的延迟降低了2倍,并且能够以低于100毫秒的token延迟,在单个双路服务器上运行诸如700亿参数的Llama 3这种更大参数的推理模型。

基于英特尔至强 6性能核处理器(代号Granite Rapids)的Llama 3下一个Token延迟

考虑到Llama 3具备更高效的编码语言标记器(Tokenizer),测试采用了随机选择的prompt对Llama 3和Llama 2进行快速比较。在prompt相同的情况下,Llama 3所标记的token数量相较Llama 2减少18%。因此,即使80亿参数的Llama 3模型比70亿参数的Llama 2模型参数更高,在AWS m7i.metal-48xl实例上运行BF16推理时,整体prompt的推理时延几乎相同(该评估中,Llama 3比Llama 2快1.04倍)。

(责任编辑:短视频)

相关内容
  • 春节前三文鱼销量暴涨13倍:鲜美营养 备受消费者喜爱
  • 大量出汗后不能只喝白开水:可能导致低钾血症
  • 男子吃自助顺走20多瓶饮料 网友:来进货的
  • 3款韩国火鸡面太辣被丹麦下架:辣椒素含量过高 官方提醒应丢弃!
  • 高铁少一节车厢致近百乘客无座站了6个小时 官方回应
  • 情绪价值还能这么用?5人团队在社群年收千万!
  • 马斯克:特斯拉新款Roadster跑车可以飞
  • 拼多多,藏着水果版中国地图
推荐内容
  • 网友吐槽服务区充电桩比加油贵 2.98元/度电:官方回应了
  • 上线不到3年!网易花式动作爽游《超激斗梦境》今日停运
  • 中国人自己的操作系统!华为纯血鸿蒙完全独立于安卓、iOS
  • 基于AI的软件代码开发和调试:如何利用AI提高编程效率?AI在代码调试中的应用有哪些?
  • 今天周日春节调休要上班!网友吐槽iPhone闹钟没响 上班迟到了
  • 乳胶枕头投诉量直线飙升 20元乳胶枕加个枕套敢卖1000元