Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏
快科技6月7日消息,条通义Intel官方宣布,线优旗下数据中心、千问客户端、模型边缘AI解决方案均已经为阿里云通义千问2(Qwen2)的亿参全球发布提供支持,已取得ModelScope、数轻松拿阿里云PAI、条通义OpenVINO等诸多创新成果。线优
为了最大限度地提升诸通义千问2等大模型的千问效率,Intel进行了全面的模型软件优化,包括高性能融合算子、亿参平衡精度和速度的数轻松拿先进量化技术等。
Intel还采用KV Caching、条通义PagedAttention机制和张量并行,线优提高推理效率。千问
Intel的硬件也可利用软件框架和工具包进行加速,并获得出色的大模型推理性能,包括PyTorch以及Intel PyTorch扩展包、OpenVINO工具包、DeepSpeed、Hugging Face库、vLLM。
首先看Intel Gaudi AI加速器,专为生成式AI、大模型的高性能加速而设计,最新版的Gaudi Optimum可以轻松部署新号的大模型。
Intel使用Gaudi 2,对70亿参数、720亿参数的通义千问2模型的推理和微调吞吐量进行了基准测试,以下为详细性能指标和测试结果:
70亿参数通义千问2在单颗Gaudi 2加速器上的推理
720亿参数通义千问2在八颗Gaudi 2加速器上的推理
通义千问2 FP8在Gaudi 2加速器上的推理
通义千问2在Gaudi 2加速器上的微调
再看Intel至强处理器,作为通用平台具有广泛的可用性,适用于各个规模的数据中心,对于希望快速部署AI解决方案、没有专项基础设施企业非常理想。
至强处理器的每个核心都内置了Intel AMX高级矩阵扩展,可以处理多样化的AI工作负载,并加速AI推理。
以上是在五代可扩展至强上运行阿里云ecs.ebmg8i.48xlarge实例,通义千问2的下一个推理token延迟情况。
最后是消费级的AI PC,可以在本地部署大模型,既然可以使用处理器内置GPU核显、NPU AI引擎,也可以搭配独立的锐炫显卡。
以下展示了AI PC运行15亿参数的通义千问2:
酷睿Ultra 7 165H上的通义千问2推理
酷睿 Ultra 7 165H上的通义千问2下一个token延迟
锐炫A770 16GB显卡上的通义千问2下一个token延迟
(责任编辑:深度)
- ·苹果折叠屏产品有望在2026-2027年推出 或取代iPad mini
- ·2024英雄联盟手游联赛今日开打:新增独立1v1赛道
- ·vivo方表!vivo Watch GT 5月30日发布:支持独立eSIM
- ·网易2024一季度营收269亿元:连续7季研发投入强度超15%
- ·AI视野:Hugging Face聊天助手上线;SVD的Web平台发放测试资格;AI模拟器“决战拜年之巅”走红;美图宣布2.85亿元收购站酷
- ·英伟达股价创新高!黄仁勋净值超900亿美元 超越美国最富有家族所有成员
- ·卫龙称内部已展开自查工作 魔芋爽称重问题引热议
- ·OPPO Reno12系列搭载四曲柔边小直屏,好看好手感
- ·顶配卖近3万元!库克回应Vision Pro太贵:用了5000项专利
- ·小米SU7支持50W无线充电 为何感觉没那么快:小米汽车回应