来自加利福尼亚州欧文分校的艾伦人工智能研究所和研究人员发布了AllenNLP Interpret,该工具包用于解释自然语言处理(NLP)模型的结果。可扩展的工具包包括用于解释和可视化组件的几种内置方法,以及使用AllenNLP Interpret解释包含BERT和RoBERTa的最新NLP模型的结果的示例。
在arXiv上发表的一篇论文中,研究团队更详细地描述了该工具包。AllenNLP Interpret使用两种基于梯度的解释方法:显着性图,确定输入句子中的每个单词或“标记”对模型的预测有多大作用;以及对抗攻击,尝试删除或更改输入中的单词,同时仍保持来自模型的相同预测。这些技术可用于各种NLP任务和模型架构。这些实现使用一组通用的API和可视化组件,为将来开发其他技术和模型支持提供了框架。
随着公司越来越多地使用AI来自动提供问题的答案,用户想知道为什么 AI会给出给定的答案。例如,在检测到信用卡交易欺诈的情况下,该交易特别暗示欺诈吗?
对模型如何产生答案的解释对于模型开发人员了解面对新数据时系统将如何泛化的能力也很重要。AllenNLP Interpret研究人员Sameer Singh经常引用该模型来区分狼和狗,但实际上只是学会了检测雪。
对于某些机器学习算法,解释很简单:例如,决策树只是一系列if / then规则。但是,深度学习模型的输出可能更难以解释。
辛格的先前工作包括LIME,它使用线性逼近来解释更复杂模型的预测。AllenNLP Interpret使用基于梯度的方法,该方法可测量输入要素对输出的影响。由于计算此梯度是深度学习培训的关键组成部分,因此这些方法可以应用于任何深度学习模型。
尽管这些技术是通用的,但AllenNLP Interpret旨在用于NLP。NLP系统的输入是文本字符串,通常是句子或整个文档,然后将文本解析为其组成词或标记。AllenNLP Interpret包括显着性图,显示每个标记对模型预测的贡献;一个用例可能是解释句子中的哪些单词导致其情感被分为正面或负面。
该工具包还包括两个对抗方法,这些方法显示了更改输入中的标记如何影响输出。第一,HotFlip,用其他单词替换斜率最高的输入单词,直到模型输出更改。另一种攻击是输入缩减,它会反复删除坡度最小的单词,而不会更改输出。这导致输入文本“通常是无意义的,但会引起高置信度预测”。
-
人工智能
+关注
关注
1813文章
49734浏览量
261453 -
自然语言处理
+关注
关注
1文章
629浏览量
14562
发布评论请先 登录
中国信通院发布2025人工智能产业十大关键词
挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器
挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!
最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)
启英泰伦亮相成都人工智能专场路演,发布具身智能新战略!
芯盾时代引领人工智能安全治理新范式
中科曙光助力中科院高能物理研究所打造溪悟大模型
应急管理部天津消防研究所与华为达成合作
纪念斯隆-凯特琳癌症中心与亚马逊云科技携手,加速人工智能驱动的癌症创新
中国地震局地震预测研究所与航天宏图达成战略合作
【「具身智能机器人系统」阅读体验】+初品的体验
研究人员利用激光束开创量子计算新局面

艾伦人工智能研究所和研究人员发布了AllenNLP Interpret
评论