逻辑推理大翻车!GPT-4、Gemini被曝重大缺陷,LLM严重降智
时间:2024-07-02 03:34:35 来源:带水拖泥网 作者:短视频 阅读:592次
要点:
1. 大模型逻辑推理表现受前提顺序影响,逻辑打乱顺序可导致性能下降30%。推理
2. 改变前提叙述顺序对大模型推理表现有重大影响,大翻Gemini Pro、被曝GPT-3.5-Turbo表现下降。重大重降智
3. 逻辑推理中改变前提顺序让LLM性能大幅下降,缺陷需要进一步研究解决。逻辑
CSS站长资源(ChinaZ.com)2月26日 消息:近期,推理谷歌DeepMind和斯坦福的大翻研究人员发现大型语言模型在处理逻辑推理任务时,前提信息的被曝呈现顺序对其表现具有决定性影响。
在逻辑推理和数学问题中,重大重降智前提按照逻辑自然顺序排列时,缺陷模型表现更佳。逻辑对于大型语言模型,推理改变前提叙述顺序会导致性能大幅下降,大翻尤其是在添加分散注意力规则的情况下。
论文地址:https://arxiv.org/pdf/2402.08939.pdf
研究人员发现,通过打乱GSM8K测试集中问题陈述的顺序构建R-GSM测试集,几乎所有主流LLM在新测试集上表现下降。尽管人类在逻辑推理时对前提顺序也有偏好,但LLM更容易受到顺序效应影响,这可能与自回归模型训练目标和数据偏差有关。
改变前提顺序可以使模型准确率下降超过30%,不同顺序对不同模型影响也不同,如GPT模型在反向排序下表现较好。研究人员还发现加入更多干扰规则和多种前提顺序会使问题更加复杂,需要进一步研究解决。在逻辑推理中,前提顺序对大型语言模型推理表现有重大影响,如何应对这一问题仍是一个挑战。
(责任编辑:电商)
最新内容
热点内容