谷歌DeepMind推出“超人类”AI系统SAFE，擅长事实核查，节约成本并提高准确性-带水拖泥网

当前位置：首页 > 资讯 > 谷歌DeepMind推出“超人类”AI系统SAFE，擅长事实核查，节约成本并提高准确性正文

谷歌DeepMind推出“超人类”AI系统SAFE，擅长事实核查，节约成本并提高准确性

时间：2024-07-04 04:49:16 来源：带水拖泥网作者：知识阅读：735次

谷歌DeepMind推出“超人类”AI系统SAFE，擅长事实核查，节约成本并提高准确性

划重点:

🔍 研究人员开发了名为SAFE的超人类AI系统，使用大型语言模型来评估信息的谷歌高准准确性。

💰 SAFE的推出使用成本约为人工事实检查的20倍，可大大降低成本。系统

💡 研究引发了“超人类”表现的擅长事实争议，需要更多透明度和人类基准来评估其真实效果。核查

CSS站长资源（ChinaZ.com）3月29日消息:谷歌DeepMind的节约研究团队发布了一项新研究，介绍了一种名为“Search-Augmented Factuality Evaluator （SAFE）”的成本人工智能系统。该系统利用大型语言模型将生成的并提文本分解成个别事实，并利用谷歌搜索结果来确定每个声明的确性准确性。研究发现，超人类SAFE在评估大型语言模型生成的谷歌高准信息准确性方面优于人工事实检查员。

与人工标注员的推出对比显示，SAFE的系统评估结果与人工评级的一致率达到了72%。更值得注意的擅长事实是，在100个SAFE与人工评级者之间存在分歧的样本中，SAFE的判断在76%的情况下被证明是正确的。然而，研究中“超人类”表现的说法引发了争议，一些专家质疑这里的“超人类”到底是什么意思。他们认为，需要更多透明度和人类基准来评估SAFE的真实效果，而不仅仅是依赖于众包工人。

SAFE的应用成本约为人工事实检查的20倍，这意味着它可以大大降低事实核查的成本。研究团队还使用SAFE评估了13个顶级语言模型的事实准确性，并发现较大型的模型通常产生较少的错误。尽管最佳模型的表现仍然存在一定数量的错误，但自动事实检查工具如SAFE可能在减少这些风险方面发挥关键作用。

虽然SAFE的代码和LongFact数据集已在GitHub上开源，但研究人员指出，仍需要更多关于研究中使用的人类基准的透明度。正因如此，技术巨头们竞相开发越来越强大的语言模型，自动核查这些系统输出的信息的能力可能变得至关重要。SAFE等工具代表着建立新的信任和责任层面的重要一步。

然而，关键是这类重要技术的发展必须在开放的环境中进行，并获得来自广泛利益相关者的意见。严格、透明地与人类专家进行基准测试将是衡量真正进步的关键所在。只有这样，我们才能评估自动事实检查对打击错误信息的实际影响。

论文地址：https://arxiv.org/pdf/2403.18802.pdf

(责任编辑：资讯)

[1]

[2]

[3]

上一篇：女子发愁春节红包：我1个娃对方3个专家：发红包应与收入匹配
下一篇：深圳地铁感谢格力：用了格力空调一年省1456万元！