TOXCL:用于检测和解释隐性有毒言论的统一AI框架
划重点:
🔍 社交媒体上的用于检隐性有毒言论毒性言论可能会像野火般蔓延,针对个人和边缘化群体。测和
🔍 研究人员提出了名为TOXCL的解释新框架,旨在检测和解释隐含毒性言论。框架
🔍 TOXCL采用多模块方法,用于检隐性有毒言论将问题分解为不同步骤,测和取得了较好的解释效果。
CSS站长资源(ChinaZ.com)3月28日 消息:社交媒体上的框架毒性言论可能会像野火般蔓延,特别是用于检隐性有毒言论针对个人和边缘化群体。明显的测和仇恨言论相对容易被发现,但隐含毒性——依赖于刻板印象和编码语言而不是解释明显的侮辱——提出了更为棘手的挑战。如何训练人工智能系统不仅能够检测到这种隐晦的框架毒性,还能解释为何它是用于检隐性有毒言论有害的呢?
新加坡南洋理工大学、新加坡国立大学和信息通信研究所的测和研究人员直面这一挑战,提出了一种名为TOXCL的解释新框架。与以往将检测和解释合并为一个文本生成任务的系统不同,TOXCL采用了多模块方法,将问题分解为不同步骤。
首先是目标群体生成器——一个文本生成模型,用于识别在给定帖子中可能被针对的少数群体。接下来是编码器-解码器模型,首先使用其编码器将帖子分类为有毒或无毒。如果标记为有毒,解码器将在目标群体信息的帮助下生成为何这种言论有害的解释。
但这里的聪明之处在于,为了增强编码器的检测技能,研究人员还加入了一个强大的教师分类器。利用知识蒸馏技术,这个教师模型在训练过程中将其专业知识传递给编码器,提高其分类能力。
研究人员还添加了条件解码约束——一种巧妙的技巧,确保解码器只为被分类为有毒的帖子生成解释,消除了矛盾的输出。
那么,TOXCL的表现如何呢?在两个主要的隐含毒性基准测试中,TOXCL的表现超过了最先进的基准线,甚至超过了专注于检测或解释的模型。与其他领先系统相比,人类评估员评价其输出在正确性、流畅性和减少有害性方面更高。
当然,仍然有改进的空间。该模型有时可能会因为编码的符号或需要外部知识的缩写而出现问题。而隐含毒性的主观性意味着“正确”的解释往往是多方面的。但总体而言,TOXCL标志着朝着能够识别隐含仇恨并阐明其有害影响的人工智能系统迈出了令人印象深刻的一步。随着这项技术的进一步发展,我们还必须应对潜在的风险,比如强化偏见或产生有毒语言。但通过谨慎使用,它为赋予边缘化声音权力和遏制网络上的压制性言论提供了一条道路。
论文地址:https://arxiv.org/abs/2403.16685v1
项目:https://github.com/nhathoang2002/toxcl
(责任编辑:短视频)
- ·我妈就是董明珠引热议!董明珠怼职场拍马屁:很烦吹捧我的员工
- ·网友调侃邓紫棋上场时间比梅西多:为邓紫棋点赞
- ·央视新闻启动鸿蒙原生应用开发 余承东亲临现场
- ·RMBG-1.4官网体验入口 AI高效准确分割图像前后背景免费在线使用地址
- ·InternLM-XComposer2官网体验入口 视觉语言AI模型文本图像合成在线使用地址
- ·聚餐被收7500元电费?酒店回应:之前彩排期间产生
- ·马斯克评价Vision Pro:并没有让我吃惊
- ·1TB手机快不够用!微信越来越肿胀:1GB能存储75万字 你聊天记录有多少
- ·网友实拍暴雪冻雨压断树枝!武汉铁路:不要贸然前往火车站
- ·只需43秒钟!BitLocker加密被破解:成本不到10美元