会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 逻辑推理大翻车!GPT-4、Gemini被曝重大缺陷,LLM严重降智!

逻辑推理大翻车!GPT-4、Gemini被曝重大缺陷,LLM严重降智

时间:2024-07-02 03:34:35 来源:带水拖泥网 作者:短视频 阅读:592次

逻辑推理大翻车!GPT-4、Gemini被曝重大缺陷,LLM严重降智

要点:

1. 大模型逻辑推理表现受前提顺序影响,逻辑打乱顺序可导致性能下降30%。推理

2. 改变前提叙述顺序对大模型推理表现有重大影响,大翻Gemini Pro、被曝GPT-3.5-Turbo表现下降。重大重降智

3. 逻辑推理中改变前提顺序让LLM性能大幅下降,缺陷需要进一步研究解决。逻辑

CSS站长资源(ChinaZ.com)2月26日 消息:近期,推理谷歌DeepMind和斯坦福的大翻研究人员发现大型语言模型在处理逻辑推理任务时,前提信息的被曝呈现顺序对其表现具有决定性影响。

在逻辑推理和数学问题中,重大重降智前提按照逻辑自然顺序排列时,缺陷模型表现更佳。逻辑对于大型语言模型,推理改变前提叙述顺序会导致性能大幅下降,大翻尤其是在添加分散注意力规则的情况下。

论文地址:https://arxiv.org/pdf/2402.08939.pdf

研究人员发现,通过打乱GSM8K测试集中问题陈述的顺序构建R-GSM测试集,几乎所有主流LLM在新测试集上表现下降。尽管人类在逻辑推理时对前提顺序也有偏好,但LLM更容易受到顺序效应影响,这可能与自回归模型训练目标和数据偏差有关。

改变前提顺序可以使模型准确率下降超过30%,不同顺序对不同模型影响也不同,如GPT模型在反向排序下表现较好。研究人员还发现加入更多干扰规则和多种前提顺序会使问题更加复杂,需要进一步研究解决。在逻辑推理中,前提顺序对大型语言模型推理表现有重大影响,如何应对这一问题仍是一个挑战。

(责任编辑:电商)

相关内容
  • 婚宴遇大雪宾客在猪圈里吃席 宾客:比淋雪要舒适得多
  • 年轻人开始整顿卧铺车厢了 挂帘子不让坐:专家呼吁让边界更清晰一点
  • 暴雪国服回归 网易招兵买马:招募游戏、直播运营
  • 12306开秒秒没!官方回应:先放全程票 中间车票可等候补
  • 《原神》成最快赚钱手游 40个月破50亿美元
  • 图像转文字工具2txt 可识别图像中文字并转换为可编辑文本
  • 王婆停下了,但河南没有
  • 火遍县城的中式汉堡,值70亿吗?
推荐内容
  • 6岁女孩在爸爸公司年会上自信跳舞 网友:表情管理天赋异禀
  • 福建一地一夜间出现巨幅蜘蛛网 目测面积约达30多平米
  • GPT-4 Turbo 击败 Claude 3,重新夺回 “AI模型” 称号
  • 年轻人开始整顿卧铺车厢了 挂帘子不让坐:专家呼吁让边界更清晰一点
  • 决战拜年之巅体验入口 回家过年模拟器游戏免费在线使用地址
  • 央媒评卧铺挂帘:谁买的票谁做主