会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能!

微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能

时间:2024-07-04 04:35:21 来源:带水拖泥网 作者:自媒体 阅读:866次

微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能

划重点:

⭐ LongRoPE 方法将 LLM 的微软文窗上下文窗口扩展至2048k,无需架构变化 + 复杂微调

⭐ 通过高效搜索识别位置插值中的上下非均匀性,为微调提供更好初始化,口突展8倍而保持性能

⭐ 实验结果表明 LongRoPE 成功将 LLM 上下文窗口扩展至2048k,破万并在较短长度内保持与基线相当或更好的倍扩保持困惑度

CSS站长资源(ChinaZ.com)4月29日 消息:近日,微软研究人员提出的展还 LongRoPE 方法首次将预训练的大型语言模型(LLM)的上下文窗口扩展至2048k 个 token,实现了8倍的微软文窗扩展同时保持原始短上下文窗口的性能,而无需进行架构变化和复杂微调。上下

该方法的口突关键创新点包括通过高效搜索识别并利用了位置插值中的两种非均匀性,为微调提供更好的破万初始化,并在非微调情况下实现了8倍扩展;引入了渐进扩展策略,倍扩保持首先微调256k 长度的展还 LLM,然后在微调扩展的微软文窗 LLM 上进行第二次位置插值,以实现2048k 上下文窗口;在8k 长度上重新调整 LongRoPE 以恢复短上下文窗口性能。上下

实验结果表明,口突LongRoPE 方法成功将 LLM 的上下文窗口扩展至2048k,并在256k 的范围内展现出整体困惑度下降的趋势,同时在较短长度内保持与基线相当或更好的困惑度。这一突破性的方法为语言模型的性能提升带来了新的可能性,也为未来的研究和应用奠定了坚实的基础。

产品入口:https://top.aibase.com/tool/longrope

论文链接:https://arxiv.org/abs/2402.13753

代码链接:https: //github.com/microsoft/LongRoPE

(责任编辑:资讯)

相关内容
  • 钉钉正式登陆苹果Vision Pro 推出 Vision Pro 原生应用
  • 巴菲特去年大赚6900亿元 明确接班人为阿贝尔
  • 中兴:今年将发布自研AI大模型以及AI旗舰终端
  • 《熊出没·逆转时空》票房成中国动画影史第2 仍遥不可及
  • 黄牛已炒不动两万五的苹果头显 第三方平台价格降至3万起
  • 小米史上游戏本!Redmi G Pro 2024官宣:i9-14900HX RTX 4060
  • “媲美”Sam Altman的“中国AI教父”,为什么被骂的如此惨烈?
  • 熊出没逆转时空票房破18亿 荣登中国动画电影票房榜第二
推荐内容
  • OpenAI 推出适用于 Apple Vision Pro 的 ChatGPT 应用
  • 哪吒CEO吐槽部分员工过不惯苦日子:有必要把寒气传递到每一个人
  • 谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA
  • 女儿结婚父亲不舍上前拥抱被拒 女儿:离家才6公里
  • 比格PPT体验入口 AI智能PPT设计SaaS平台在线使用入口
  • 苹果计划为AirPods加入摄像头:配合人工智能使用