会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 BiTA:创新AI方法加速大型语言模型生成!

BiTA:创新AI方法加速大型语言模型生成

时间:2024-06-30 00:37:07 来源:带水拖泥网 作者:资讯 阅读:511次

BiTA:创新AI方法加速大型语言模型生成

**划重点:

**

- 🚀 **加速语言模型推理:** BiTA通过双向调优和简化的创新SAR草稿验证,实现对自回归语言模型(AR)的加速无损加速,为公开可访问的大型基于transformer的LLMs提供插拔式模块,特别适用于聊天机器人等实时应用。模型

- 🌐 **双向调优与树状解码:** BiTA采用双向调优和树状解码技术,生成通过在单个前向传递中同时生成和验证多个标记,创新提高了LLMs的加速生成效率。。大型

- 🤖 **通用架构与可插拔设计:** BiTA的模型通用架构使其成为一个可插拔的方法,可用于加速任何公开可访问的生成transformer-based LLMs,而不会削弱其卓越的创新生成能力。

CSS站长资源(ChinaZ.com)2月2日 消息:近年来,加速基于transformer架构的大型大型语言模型(LLMs)已经崭露头角。Chat-GPT和LLaMA-2等模型展示了LLMs参数的模型迅速增加,从几十亿到数万亿。生成尽管LLMs是非常强大的生成器,但由于所有参数的计算负载,它们在推理延迟方面存在问题。因此,人们一直在努力加速LLMs的推理,尤其是在像边缘设备和实时应用(如聊天机器人)等资源受限的情境中。

最近的研究表明,大多数仅解码器的LLMs遵循逐标记生成模式。由于标记生成的自回归(AR)性质,每个标记必须经过推理执行,导致许多transformer调用。这些调用针对内存带宽限制运行,常常导致降低计算效率和较长的墙钟周期。

通过在单个模型推理步骤中同时合成多个标记,半自回归(SAR)解码减少了推理执行的高需求。问题在于,大多数LLMs只能生成AR模型,而不能生成SAR模型。由于SAR目标和AR预训练不同步,重新训练SAR模型似乎是一项艰巨的任务。

Intellifusion Inc.和哈尔滨工业大学的研究人员希望通过他们的新加速方法,即双向调优以实现无损SAR解码的Bi-directional Tuning for lossless Acceleration(BiTA),通过学习少量额外的可训练参数,甚至只有0.01%。BiTA的两个主要部分是建议的双向调优和简化的SAR草稿候选验证。为了预测未来的标记,AR模型的双向调优将提示和掩码标记一起纳入考虑,超越了下一个标记。标记序列中的可学习前缀和后缀嵌入是这种方法的一个隐喻。在变换后的AR模型中,通过复杂的基于树的注意机制,生成和验证在单个前向传递中同时进行,无需额外的验证程序或第三方验证模型。建议的方法使用快速调优,可作为插拔模块用于加速任何公开可访问的基于transformer的LLMs,特别是那些经过良好指导的聊天机器人,而不削弱其出色的生成能力。

该模型使用基于树的解码技术在并行中执行高效的创建和验证。BiTA的这两个方面共同作用,加速LLMs的同时保持原始输出不变。在对不同大小的LLMs进行了广泛的生成任务测试后,研究发现其印象深刻的加速效果范围为2.1×至3.3×。此外,当资源受限或需要实时应用时,BiTA的可调提示设计使其成为一种可插即用的方法,可用于加速任何公开可用的LLMs。

论文网址:https://arxiv.org/pdf/2401.12522.pdf

(责任编辑:知识)

相关内容
  • 从服装到更多产业创新,属于SHEIN们的繁花时代来了
  • ImagenATexto官网体验入口 AI图像转换为可编辑文本工具
  • 央视首部AI译制英文版系列微纪录片《来龙去脉》今日开播:讲解龙之起源
  • 考研国家线公布 张雪峰调侃预言失败:我真是天才!
  • 法国试行浓缩工时版4天工作制:4天做完5天工作 多1天假
  • 荣耀影像!荣耀Magic6至臻版/RSR保时捷设计首发车规级LOFIC技术
  • 男子二次酒驾被查:辩称“嘴巴长疮擦的药酒”
  • 在家做顿饭等于吸20分钟汽车尾气:开油烟机、定期通风很有必要
推荐内容
  • AI视野:文心一言支持生成数字分身;Bard推出图片生成功能;亚马逊开发AI购物助手Rufus;苹果将推生成式AI功能
  • 丈夫藏10万练功券被妻子拿去存钱:拍摄短视频的道具
  • 荣耀Magic6至臻版全球首发!官方科普LOFIC技术
  • CRM:上传图片生成3D模型,10秒搞定
  • 限时免费!Adobe Firefly AI即将登陆Vision Pro,用户可在现实空间中创造个性化图像
  • 央视首部AI译制英文版系列微纪录片《来龙去脉》今日开播:讲解龙之起源