研究发现 52% 的 ChatGPT 编程问题回答错误
划重点:
- 研究人员发现,研究ChatGPT 生成的发现编程问题答案中有52% 是错误的。
- ChatGPT 的编程答案在语言上更正式和分析性更强,但存在信息不准确、问题冗长和与人类答案不一致的回答问题。
- 尽管存在严重缺陷,错误但许多人类程序员更偏好 ChatGPT 的研究答案。
CSS站长资源(ChinaZ.com) 5月24日 消息:在过去的发现几年里,计算机程序员纷纷转向诸如 OpenAI 的编程 ChatGPT 之类的聊天机器人来帮助他们编码,这对 Stack Overflow 等网站造成了打击,问题导致其去年不得不裁员近30% 的回答员工。然而,错误问题在于,研究普度大学的发现研究团队在计算机 - 人类交互会议上发布了研究成果,发现 ChatGPT 生成的编程编程问题答案中有52% 是错误的。
图源备注:图片由AI生成,图片授权服务商Midjourney
对于一个人们依赖于准确性和精确性的程序来说,这一比例是惊人的,这也突显出其他最终用户如作家和教师所经历的问题:像 ChatGPT 这样的 AI 平台经常在空中凭空产生完全错误的答案。研究人员在研究中回顾了517个 Stack Overflow 的问题,并分析了 ChatGPT 尝试回答这些问题的结果。他们写道:“我们发现52% 的 ChatGPT 答案包含错误信息,77% 的答案比人类答案更冗长,78% 的答案与人类答案存在不同程度的不一致”。
该团队还对随机选择的2000个 ChatGPT 答案进行了语言分析,发现这些答案 “更正式和分析性更强”,同时表现出 “更少的负面情绪” —— 这是 AI 倾向于产生的单调而愉快的语气。尤其令人担忧的是,许多人类程序员似乎更喜欢 ChatGPT 的答案。普度大学的研究人员对12名程序员进行了调查,并发现他们以35% 的比例更倾向于选择 ChatGPT,并且在39% 的情况下没有发现 AI 生成的错误。
为什么会发生这种情况呢?这可能只是因为 ChatGPT 比在线人更有礼貌。研究人员写道:“后续的半结构化访谈揭示出,礼貌的语言、文雅而教科书般的回答方式以及全面性是 ChatGPT 答案看起来更具说服力的主要原因之一,因此参与者放低了警惕,忽略了 ChatGPT 答案中的一些错误信息”。
这项研究表明,ChatGPT 仍然存在重大缺陷,但这对于被 Stack Overflow 裁员的人或者不得不纠正 AI 生成的代码错误的程序员来说是一个苦涩的安慰。
(责任编辑:热点)
- ·进击的闲鱼:牵手微信,开线下商店
- ·对标iPhone 16!华为Mate 70主摄曝光:全系标配国产传感器
- ·苦等四年终于来了!腾讯《地下城与勇士》手游定档5月21日上线
- ·魏建军后又一车企董事长亲下场:长安汽车朱华荣试小米SU7
- ·高通猛龙来袭!骁龙8 Gen4多核跑分过万
- ·AI日报:Model3模型重磅发布;阿里云全面支持Llama 3训练推理;Gorq推出iOS应用;批量去水印工具VSR来了
- ·马斯克都来中国设厂!周鸿祎谈贾跃亭:不该带着图纸去美国造车
- ·Gorq推出iOS应用 支持Llama3、Gemma等
- ·中石油官方提醒:“移动加油站”的油千万别加!不合格伤车
- ·12小时万人下定!新款问界M5将于23日上市
- ·存款5万可辅导孩子作业?银行回应:活动已经暂停
- ·起步价2000元以内!魅族21 Note手机曝光:搭载骁龙8 Gen 2
- ·郁金香保安火了:护花喊到喉咙沙哑
- ·AI日报:Model3模型重磅发布;阿里云全面支持Llama 3训练推理;Gorq推出iOS应用;批量去水印工具VSR来了
- ·全年打车免单!滴滴《原神》跨界联动
- ·“动态排版”技术Dynamic Typography 可将文本字母转化为动画
- ·雷军:小米SU7正在快速提升产能 着急购车智界S7等都不错
- ·性能提升 油耗降低!坦克300 Hi4-T今晚开抢:限量3000台
- ·小米15系列有望10月发布 首发骁龙8Gen4
- ·官宣!讯飞星火V3.5更新版本4月26日发布:上新三大能力