会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 GenAudit:帮用户根据输入证据对LLM生成内容进行事实检查!

GenAudit:帮用户根据输入证据对LLM生成内容进行事实检查

时间:2024-07-02 03:29:02 来源:带水拖泥网 作者:电商 阅读:655次

GenAudit:帮用户根据输入证据对LLM生成内容进行事实检查

划重点:

💡 最近,帮用研究人员提出了GENAUDIT,户根一种专门用于帮助核查基于文档基础的据输据对LLM回复的工具。

💡 GENAUDIT通过建议对语言模型生成的入证容进响应进行更改来发挥作用,并从参考文档中突出显示不符合要求的生实检陈述,并建议对响应进行更改或删除。成内查

💡 为了构建GENAUDIT,行事已经训练了专门设计用于执行这些任务的帮用模型,这些模型已经被教导从参考文档中提取证据以支持事实陈述,户根识别不支持的据输据对主张,并推荐合适的入证容进修改。

CSS站长资源(ChinaZ.com) 3月18日 消息:近年来,生实检随着人工智能(AI)和主要是成内查生成式AI领域的进展,已经展示了大型语言模型(LLMs)生成文本以响应输入或提示的行事能力。这些模型能够像人类一样生成文本,帮用回答问题,总结长篇文本段落等。然而,即使在访问参考资料之后,它们也不完美,可能会产生错误。这样的错误可能会在银行业或医疗保健等重要应用中产生严重后果。

为了解决这个问题,一组研究人员最近提出了GENAUDIT,这是一种专门用于帮助核查基于文档基础的LLM回复的工具。GENAUDIT的功能是通过建议对语言模型生成的响应进行更改来发挥作用。它突出显示参考文档中不符合要求的陈述,并建议对响应进行更改或删除。它还提供了来自参考文本的证据,以支持LLM的事实陈述。

为了构建GENAUDIT,已经训练了专门设计用于执行这些任务的模型。这些模型已经被教导从参考文档中提取证据以支持事实陈述,识别不支持的主张,并推荐合适的修改。GENAUDIT具有交互式界面,可帮助进行决策和用户交互。借助此界面,用户可以检查和批准推荐的调整和支持文件。

团队表示,已经通过人工评估对GENAUDIT进行了深入评估,评估人员通过检查它在多个类别中的表现来评估其性能,查看它在总结文件时如何准确识别LLM输出中的缺陷。评估结果表明,GENAUDIT能够准确地识别出来自八种不同LLM的输出中的缺陷,涵盖了多个领域。

为了优化GENAUDIT的错误检测性能,团队建议了一种技术,该技术在减少精度损失的同时最大化错误召回率。该策略确保系统在保持准确性水平基本不变的同时,能够检测到大部分的故障。

团队总结了他们的主要贡献如下:

1.引入了GENAUDIT,这是一种支持基于文档的任务中的事实核查语言模型输出的工具。该工具突出显示了LLM生成的内容中陈述的支持数据,找出了缺陷,并提供了解决方案。

2.评估并提供了用于事实核查的后端模型的优化LLMs。这些版本在少量数据条件下性能相当,尤其是与最先进的专有LLMs相比。

3.对GENAUDIT在检查来自三个不同领域的文件的八种不同LLM生成的摘要中存在的错误的有效性进行了评估。

4.介绍并评估了一种在解码时间使用的技术,旨在通过牺牲精度的微小降低来提高错误检测召回率。这种方法在保持整体准确性的同时增强了错误检测的能力。

GENAUDIT是一款优秀的工具,有助于改善具有强大文档基础的任务中的事实核查程序,并提高LLM生成的信息在重要应用中的可靠性。

产品入口:https://top.aibase.com/tool/genaudit

(责任编辑:小程序)

相关内容
  • AI拜年模拟器“决战拜年之巅”网络走红 快来看看你是不是“大孝子”
  • 太阳发了个脾气:漠河出现极光
  • 年轻人开始整顿自己婚礼:逐渐倾向于简约、极简风格
  • 惠普CEO访华:中国是惠普最重要的市场之一!
  • 等红灯时刷手机被罚200元扣3分 车主:感觉很冤枉
  • 大的Civi!小米Civi 4 Pro明天首销:2999元起
  • 360智脑内测500万字长文本处理功能 将引入360AI 浏览器
  • 苹果回应手记应用默认启用“可被他人发现”选项:不会分享用户位置和姓名
推荐内容
  • 工人从长江大桥桥顶释放铁环除冰 确保桥面通行安全顺畅
  • 岚图CEO卢放:大家都很拼 但是新能源的竞争只会更“卷”
  • 开封王婆5年前的视频仍显工作热情:不辜负大家的喜欢和爱戴
  • 50万粉丝带动1700万GMV,B站服饰赛道起风了
  • 你还会玩吗!消息称微软修复跟网易关系 暴雪国服要回归节奏
  • 网友称苹果CEO库克来华期间偷去小米华为门店参观:本人回应