会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 谷歌DeepMind推出“超人类”AI系统SAFE,擅长事实核查,节约成本并提高准确性!

谷歌DeepMind推出“超人类”AI系统SAFE,擅长事实核查,节约成本并提高准确性

时间:2024-07-04 04:49:16 来源:带水拖泥网 作者:知识 阅读:735次

谷歌DeepMind推出“超人类”AI系统SAFE,擅长事实核查,节约成本并提高准确性

划重点:

🔍 研究人员开发了名为SAFE的超人类AI系统,使用大型语言模型来评估信息的谷歌高准准确性。

💰 SAFE的推出使用成本约为人工事实检查的20倍,可大大降低成本。系统

💡 研究引发了“超人类”表现的擅长事实争议,需要更多透明度和人类基准来评估其真实效果。核查

CSS站长资源(ChinaZ.com)3月29日 消息:谷歌DeepMind的节约研究团队发布了一项新研究,介绍了一种名为“Search-Augmented Factuality Evaluator (SAFE)”的成本人工智能系统。该系统利用大型语言模型将生成的并提文本分解成个别事实,并利用谷歌搜索结果来确定每个声明的确性准确性。研究发现,超人类SAFE在评估大型语言模型生成的谷歌高准信息准确性方面优于人工事实检查员。

与人工标注员的推出对比显示,SAFE的系统评估结果与人工评级的一致率达到了72%。更值得注意的擅长事实是,在100个SAFE与人工评级者之间存在分歧的样本中,SAFE的判断在76%的情况下被证明是正确的。然而,研究中“超人类”表现的说法引发了争议,一些专家质疑这里的“超人类”到底是什么意思。他们认为,需要更多透明度和人类基准来评估SAFE的真实效果,而不仅仅是依赖于众包工人。

SAFE的应用成本约为人工事实检查的20倍,这意味着它可以大大降低事实核查的成本。研究团队还使用SAFE评估了13个顶级语言模型的事实准确性,并发现较大型的模型通常产生较少的错误。尽管最佳模型的表现仍然存在一定数量的错误,但自动事实检查工具如SAFE可能在减少这些风险方面发挥关键作用。

虽然SAFE的代码和LongFact数据集已在GitHub上开源,但研究人员指出,仍需要更多关于研究中使用的人类基准的透明度。正因如此,技术巨头们竞相开发越来越强大的语言模型,自动核查这些系统输出的信息的能力可能变得至关重要。SAFE等工具代表着建立新的信任和责任层面的重要一步。

然而,关键是这类重要技术的发展必须在开放的环境中进行,并获得来自广泛利益相关者的意见。严格、透明地与人类专家进行基准测试将是衡量真正进步的关键所在。只有这样,我们才能评估自动事实检查对打击错误信息的实际影响。

论文地址:https://arxiv.org/pdf/2403.18802.pdf

(责任编辑:资讯)

相关内容
  • 微软 Teams 开始测试自定义表情支持
  • 文旅爆火、平台混战,究竟谁能做好这门生意?
  • 男子屋顶清雪不慎被推下地面:伤势严重 清理积雪需注意
  • iPhone年收入占智能手机市场50% 年收入达 2030 亿美元
  • ​Meta 计划于今年部署自家 AI 芯片,减少对 Nvidia GPU 的依赖
  • 专家称调休时很多人在假装上班 长时间劳累或导致工作效率下降
  • 熊孩子玩手机 把导航从回江西换到福建:多开了200多公里
  • 苹果Vision Pro发售:竞争对手Meta单日大涨20%创纪录!
推荐内容
  • 一汽-大众公布限时优惠政策:涵盖迈腾、速腾、宝来等车型
  • 华为申请合界商标 此前已注册享界、傲界等类似商标
  • 支持534种语言,开源大语言模型MaLA-500
  • 苹果Vision Pro可直接控制Mac电脑!7年前老机型也支持
  • 超小米荣耀!华为HarmonyOS 4无障碍适配获五星评分
  • 美邦创始人:亏损责任不在我女儿 自己将全面参与经营