微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能
划重点:
⭐ LongRoPE 方法将 LLM 的微软文窗上下文窗口扩展至2048k,无需架构变化 + 复杂微调
⭐ 通过高效搜索识别位置插值中的上下非均匀性,为微调提供更好初始化,口突展8倍而保持性能
⭐ 实验结果表明 LongRoPE 成功将 LLM 上下文窗口扩展至2048k,破万并在较短长度内保持与基线相当或更好的倍扩保持困惑度
CSS站长资源(ChinaZ.com)4月29日 消息:近日,微软研究人员提出的展还 LongRoPE 方法首次将预训练的大型语言模型(LLM)的上下文窗口扩展至2048k 个 token,实现了8倍的微软文窗扩展同时保持原始短上下文窗口的性能,而无需进行架构变化和复杂微调。上下
该方法的口突关键创新点包括通过高效搜索识别并利用了位置插值中的两种非均匀性,为微调提供更好的破万初始化,并在非微调情况下实现了8倍扩展;引入了渐进扩展策略,倍扩保持首先微调256k 长度的展还 LLM,然后在微调扩展的微软文窗 LLM 上进行第二次位置插值,以实现2048k 上下文窗口;在8k 长度上重新调整 LongRoPE 以恢复短上下文窗口性能。上下
实验结果表明,口突LongRoPE 方法成功将 LLM 的上下文窗口扩展至2048k,并在256k 的范围内展现出整体困惑度下降的趋势,同时在较短长度内保持与基线相当或更好的困惑度。这一突破性的方法为语言模型的性能提升带来了新的可能性,也为未来的研究和应用奠定了坚实的基础。
产品入口:https://top.aibase.com/tool/longrope
论文链接:https://arxiv.org/abs/2402.13753
代码链接:https: //github.com/microsoft/LongRoPE
(责任编辑:资讯)
- ·1元=1700000tokens!清华系发布国产Mistral仅2B,老手机都带得动,GitHub一天斩获300+星
- ·ChatGPT代码库变更:新增文本朗读功能 DALL·E 3 新增67种图像风格
- ·Move AI推全新Move API 可轻松实现2D转3D
- ·小米携手张艺谋工作室发布小米14 Ultra限定礼盒套装
- ·杨国福放出餐监控回应吃出刀片:若有刀片 筷子搅拌感觉得到
- ·VideoPrism官网体验入口 AI视频理解编码器使用介绍
- ·火灾事故频发!电动自行车电池强制性国家标准即将出台
- ·哪吒CEO吐槽部分员工过不惯苦日子:有必要把寒气传递到每一个人
- ·3499美元起!苹果Vision Pro头显正式开售
- ·「柳夜熙」如何拍短剧:故事一半,技术一半
- ·Shopify发布“Magic”图像编辑器等AI增强功能,助力商家智能经营
- ·Sora训练数据疑暴露,网友:用了UE5
- ·董宇辉称非常多3C厂家愿提供低价 与辉同行开启小家电专场
- ·逻辑推理大翻车!GPT-4、Gemini被曝重大缺陷,LLM严重降智
- ·起猛了看湖南下雪还以为天上掉大米 你见过这么大粒的雪吗?
- ·Sora神图惊掉下巴,好莱坞导演急撤掉8亿美元摄影棚! Sora「内测」提前开放,影视失业潮将至
- ·香港大模型初创公司 Weitu AI 完成天使轮融资 估值一亿美金
- ·比亚迪建欧洲家工厂 已在匈牙利交付首批乘用车
- ·广州鼓励网约车去机场火车站接单 确保旅客出行顺畅
- ·李想:5C超充站不到12分可充500km 将是盈利的投资项目