会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏!

Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏

时间:2024-07-02 03:33:52 来源:带水拖泥网 作者:电商 阅读:993次

Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏

快科技6月7日消息,条通义Intel官方宣布,线优旗下数据中心、千问客户端、模型边缘AI解决方案均已经为阿里云通义千问2(Qwen2)的亿参全球发布提供支持,已取得ModelScope、数轻松拿阿里云PAI、条通义OpenVINO等诸多创新成果。线优

为了最大限度地提升诸通义千问2等大模型的千问效率,Intel进行了全面的模型软件优化,包括高性能融合算子、亿参平衡精度和速度的数轻松拿先进量化技术等。

Intel还采用KV Caching、条通义PagedAttention机制和张量并行,线优提高推理效率。千问

Intel的硬件也可利用软件框架和工具包进行加速,并获得出色的大模型推理性能,包括PyTorch以及Intel PyTorch扩展包、OpenVINO工具包、DeepSpeed、Hugging Face库、vLLM。

首先看Intel Gaudi AI加速器,专为生成式AI、大模型的高性能加速而设计,最新版的Gaudi Optimum可以轻松部署新号的大模型。

Intel使用Gaudi 2,对70亿参数、720亿参数的通义千问2模型的推理和微调吞吐量进行了基准测试,以下为详细性能指标和测试结果:

70亿参数通义千问2在单颗Gaudi 2加速器上的推理

720亿参数通义千问2在八颗Gaudi 2加速器上的推理

通义千问2 FP8在Gaudi 2加速器上的推理

通义千问2在Gaudi 2加速器上的微调

再看Intel至强处理器,作为通用平台具有广泛的可用性,适用于各个规模的数据中心,对于希望快速部署AI解决方案、没有专项基础设施企业非常理想。

至强处理器的每个核心都内置了Intel AMX高级矩阵扩展,可以处理多样化的AI工作负载,并加速AI推理。

以上是在五代可扩展至强上运行阿里云ecs.ebmg8i.48xlarge实例,通义千问2的下一个推理token延迟情况。

最后是消费级的AI PC,可以在本地部署大模型,既然可以使用处理器内置GPU核显、NPU AI引擎,也可以搭配独立的锐炫显卡。

以下展示了AI PC运行15亿参数的通义千问2:

酷睿Ultra 7 165H上的通义千问2推理

酷睿 Ultra 7 165H上的通义千问2下一个token延迟

锐炫A770 16GB显卡上的通义千问2下一个token延迟

(责任编辑:深度)

相关内容
  • 库克确认,苹果生成式AI功能将于今年晚些时候推出
  • OPPO Reno12系列发布:银色未来美学引领潮流
  • AI能力再提升:Reno12系列智能修复闭眼照片
  • 盖肚脐眼是中国人最后的倔强:表皮角质最薄 屏障功能较弱
  • 申通快递对12省份快件提价 以应对恶劣天气
  • B站发布2024年Q1财报:月活用户、日均使用时长双双再创新高
  • 阿里蔡崇信吴泳铭首封致股东信:对“大公司病”开刀 未来10年视自己为初创企业
  • 腾讯AI实验室开发新型智能体框架TRANSAGENTS 专用于处理超长文学内容的翻译工作
推荐内容
  • 微软XGP史上第三方!《幻兽帕鲁》玩家数突破1900万
  • 小杨哥消失,李佳琦喊“难”,头部主播618众生相
  • 周鸿祎观余承东采访有感:一把手为公司获取流量不可耻
  • OPPO Reno12系列发布:影像全能,5000万AI全焦段人像三摄
  • Informatica调查:全球企业优先考虑生成式 AI
  • OPPO Reno12系列发布:实况照片功能安卓支持小红书分享