0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何使用CLM自身的embedding来得到OOD score?

深度学习自然语言处理 来源:SimpleAI 作者:郭必扬 2022-12-05 10:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

背景

OOD现象和OOD检测在分类任务中已经被广泛研究:

OOD score:maximum softmax probability(MSP),K个类别中最大的概率来作为衡量OOD的指标

selective classification:对于OOD score太低的输入,模型拒绝输出

在conditional language model(CLM)任务(主要是summarization,translation)中,而由于language generation主要是通过auto-regressive的方式,错误更容易积累,因此OOD问题可能更严重。

本文的主要贡献:

提出一中轻量的、准确的基于CLM的embedding的OOD检测方法

发现perplexity(ppx)不适合作为OOD检测和文本生成质量评估的指标

提出了一套用于OOD检测和selective generation的评测框架

CLM中的OOD detection

如果直接套用classification任务中使用MSP作为OOD score的话,那么对于NLG问题我们就应该采用perplexity(ppx),然而作者实验发现使用ppx的效果很不好:

14e26546-73b4-11ed-8abf-dac502259ad0.jpg

从上图可以看到,不用domain来源的数据,其ppx的分布重叠程度很高;甚至有些明明是OOD的数据,但其综合的ppx比ID的数据还要低。因此ppx对ID vs OOD的区分能力很差。

如何使用CLM自身的embedding来得到OOD score?

15036304-73b4-11ed-8abf-dac502259ad0.jpg

input embedding: encoder最后一层所有hidden states平均

output embedding: decoder最后一层所有hidden states平均(ground truth对应的位置)

151ae920-73b4-11ed-8abf-dac502259ad0.png

1. 使用两个分布的距离来判断——RMD score

直觉上讲,当一个样本的输入/输出的embedding跟我训练样本的embedding分布距离很远的话,就很可能是OOD样本。

因此,可以先用训练数据集,对输入和输出空间拟合一个embedding的高斯分布:

input embedding distribution:

output embedding distribution:

然后,就可以使用马氏距离(Mahalanobis distance,MD)来衡量新来的embedding跟训练集embedding的距离:

马氏距离是基于样本分布的一种距离。物理意义就是在规范化的主成分空间中的欧氏距离。(维基百科)

1535180e-73b4-11ed-8abf-dac502259ad0.jpg

然而,已有一些研究表明,使用相对马氏距离(即增加一个background distribution来作为一个参照),可以更好地进行OOD检测。于是对上述公式改进为:

155ad0d0-73b4-11ed-8abf-dac502259ad0.jpg

其中是衡量test input跟一个background高斯分布的距离,这个background分布,是使用一个通用语料拟合出来的,比方使用C4语料库

而对于CLM这种需要成对语料的任务,通用语料中一般是没有的,所以使用通用文本通过CLM decode出来的 outputs来拟合分布:

1574380e-73b4-11ed-8abf-dac502259ad0.png

这样一来,RMD scores实际上可能为正也可能为负:

当RMD score < 0 时,说明 test example跟training distribution更接近

当RMD score > 0 时,说明 test example跟background更接近,因此更有可能是OOD的

因此,RMD score可以直接作为OOD detection的指标

2. 基于embedding训练一个detector

上面是一种无监督的办法,作者还提出了一种有监督的办法,使用training samples和general samples作为两个类别的数据,使用embedding作为feature来训练一个logistic regressive model,使用background类的logits作为OOD score:

Input Binary logits OOD score

Output Binary logits OOD score

3. OOD detection实验

以summarization为例,实验所用数据为:

In-domain:10000条 xsum 样本

General samples:10000条 C4 样本

OOD datasets:near-OOD数据集(cnn dailymail,newsroom)和far-OOD数据集(reddit tifu,forumsum,samsum)

OOD detection衡量指标:area under the ROC curve (AUROC)

159cb46e-73b4-11ed-8abf-dac502259ad0.jpg

实验结论:

本文提出的RMD和Binary classifier都比baseline有更好的OOD检测能力

能更好地对near-OOD这种hard cases进行检测

15c68082-73b4-11ed-8abf-dac502259ad0.jpg

Selective Generation

当检测到OOD时,一个最保守的做法就是直接拒绝给出输出,从而避免潜在的风险。但是,我们依然希望当模型的输出质量足够高时,即使是OOD也能输出。

当有参考答案时,如何衡量输出文本的质量?

对于translation问题,使用BLEURT作为衡量指标;

对于summarization,常见是使用ROUGE score,但由于不同数据集的摘要模式差别很大,所以只使用ROUGE还不够,作者使用亚马逊众筹平台来对一批数据进行人工质量打标。

能否找到一个指标,不需要参考答案也能衡量文本质量?

实验发现,对于in-domain数据,ppx跟质量有比较好的相关性,但是对于OOD数据,相关性很差。

15e4d44c-73b4-11ed-8abf-dac502259ad0.jpg

但是OOD score可以跟ppx互相补充,从而形成一个比较好的对应指标:

15fe93c8-73b4-11ed-8abf-dac502259ad0.jpg

单独只考察ppx或者RMD OOD score的话,难以区分质量的高低,但是同时考察二者,就有较高的区分度。究其原因,作者这么解释:

ppx反映的是由于内部噪音/模糊造成的的不确定性

RMD score反映的是由于缺乏训练数据所造成的不确定性

因此二者是互补的关系。

那么二者如何结合呢:

训练一个linear regression

或者直接使用二者的某种“和”:,其中PR代表percentile ranks

1622261c-73b4-11ed-8abf-dac502259ad0.jpg

可以看出,这种二者结合的方法,比各种只用单个指标的baselines都能更好地反映生成的质量。

在selective generation阶段,设定一个遗弃比例,然后把quality score最低的那部分丢弃。

Key takeaways:

在生成模型中,ppx无论是作为OOD detection还是quality evaluation都是不太好的选择

基于模型的extracted feature来做OOD detection更好,文中的RMD score就是一个例子。







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • msp
    msp
    +关注

    关注

    0

    文章

    198

    浏览量

    36345

原文标题:CMU&Google提出:条件语言模型中的OOD检测与选择性生成

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    在12V系统中如何计算TJA1043自身的静态电流

    你好,请问在12V系统中如何计算TJA1043自身的静态电流?我在TJA1043的数据手册中看到静态电流计算涉及PIN Vcc,PIN Vio,PIN Vbat,PIN TXD,PIN RXD
    发表于 06-03 06:57

    Infineon XC886/888CLM 8位单片机:特性与应用详解

    Infineon XC886/888CLM 8位单片机:特性与应用详解 在电子设计领域,单片机作为核心部件,其性能和功能直接影响着整个系统的表现。英飞凌(Infineon)的 XC886
    的头像 发表于 03-30 14:40 1174次阅读

    双向全桥DC-DC变换器在船舶应急电源中的应用

    随着新能源产业的发展,双向DC - DC 变换器近年来得到了较多的关注和研究。双向DC - DC 变换器由于其电路拓扑的优越性,不仅可以进行能量的双向流动,而且具有效率高、体积小和稳定性强的优点
    的头像 发表于 03-25 17:47 6934次阅读
    双向全桥DC-DC变换器在船舶应急电源中的应用

    爱博精电荣获“绿色工厂”认证,以自身实践助力行业低碳转型

    凭借在绿色制造、节能降碳方面的突出实力,北京爱博精电科技有限公司荣获2025 年度绿色工厂认定。 这标志着爱博精电在自身生产体系中实现了高标准的绿色低碳与节能减排,更意味着作为智能配电与能源管理领域
    的头像 发表于 03-17 15:19 252次阅读
    爱博精电荣获“绿色工厂”认证,以<b class='flag-5'>自身</b>实践助力行业低碳转型

    【瑞萨AI挑战赛】阶段一:基于RA8P1的人脸识别模型转换和部署

    ; float x2 = (x + w / 2) * CAM_WIDTH; float score = out_c1[i]; if (score <= -100.0) { score
    发表于 03-09 00:49

    RAG(检索增强生成)原理与实践

    2.1 什么是向量检索? 向量检索是RAG系统的第一步,也是最关键的一步。它的任务是从海量文档中快速找出与用户问题最相关的内容。 文本向量化 文本向量化(Embedding)是将文本转换为高维向量
    发表于 02-11 12:46

    【上海晶珩睿莓 1 单板计算机】人脸识别

    = cv2.FaceDetectorYN_create( model=model_path, config=\"\", input_size=(w, h), score_threshold=conf_threshold
    发表于 01-04 20:22

    使用typede的f优势介绍

    name[20]; intage; float score; }student_t, *student_ptr; student_tstu = {\"wit\", 20, 99}; student_t*p1 =stu; student_ptr p2 =stu;
    发表于 11-26 08:15

    6G技术在哪些领域会得到应用

    6G技术作为第六代移动通信标准,将在多个领域得到广泛应用,其核心优势在于通感算智深度融合、空天地一体全域覆盖,以及从“单一通信服务”到“一站式按需服务”的跨越。以下是6G技术的主要应用领域及具体场景
    的头像 发表于 11-05 17:21 2431次阅读

    企业如何根据自身需求选择合适的电能质量在线监测装置数据存储方式?

    企业选择电能质量在线监测装置的数据存储方式,核心是 **“以数据特征为核心,匹配自身运维能力与安全需求”**—— 先明确数据的 “量、实时性、敏感级”,再结合企业的运维资源、成本预算、扩展性需求,从
    的头像 发表于 10-30 09:53 421次阅读

    物联网数据中台在哪些场景得到应用

    物联网数据中台在工业、能源、智慧城市、环保、设备管理等多个领域得到广泛应用,通过数据集成、实时监控、预测性维护等功能,助力企业实现智能化升级与高效管理。以下是具体应用场景及案例说明: 一、工业领域
    的头像 发表于 10-29 14:43 569次阅读

    雷曼光电发起Micro LED显示专利诉讼,维护自身知识产权权益

    近日,雷曼光电就深圳市巴科光电科技股份有限公司及其关联公司涉嫌侵权雷曼光电在中国获得的“像素引擎(PSE)”原创专利行为,正式向深圳市中级人民法院提起专利侵权诉讼程序,以维护自身创新成果与合法权益
    的头像 发表于 09-28 16:37 1206次阅读

    【Milk-V Duo S 开发板免费体验】Duo S(SG2000) CAM-GC2083 流媒体测试

    :kps_8_Conv_dequant score:score_8_Sigmoid_dequant anchor:-32,-32,32,32 anchor:-64,-64,64,64 bbox
    发表于 08-02 20:30

    求助,关于muRata 2GF在定制电路板上的集成问题求解

    我与muRata沟通了有关问题,当我使用 IFX wifi-host-driver/wifi-connection-manager 和muRata特定的 nvram/clm-blob 文件
    发表于 07-17 07:14

    具有同步续流的电动车用直流电机控制器设计

    开关速度快,通态电阻小的功率元件来得到控制。而续流二极管产生的续流功耗则很难降低,即使选用导通压降很低的肖特基二极管,导通压降也至少在0.6V以上,随着续流电流的上升其压降还会进一步增大,那么在续流
    发表于 06-05 11:23