0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

建立计算模型来预测一个给定博文的抱怨强度

深度学习自然语言处理 来源:南大NLP 作者:方铭 2022-11-08 09:54 次阅读

01

研究动机

抱怨是一种表达现实和人类期望之间不一致的言语行为[1]。人们会根据情况的严重性和紧迫性,用抱怨来表达他们的担忧或不满。轻微的抱怨可以达到发泄情绪以促进心理健康的目的,但严重的抱怨可能会导致仇恨甚至欺凌行为[2]。之前的研究主要集中在识别抱怨是否存在或其类型上,但是分析抱怨强度尤其重要,因为一定程度的抱怨可能会对公司或组织造成严重的负面后果。

4b63f274-5e9c-11ed-8abf-dac502259ad0.png

图1 Jin数据集中同类别抱怨博文

在计算语言学中,先前的研究主要集中在建立自动分类模型来识别抱怨是否存在。Jin提供了一个数据集,基于语用学注释了不同严重程度的抱怨博文,分别为“没有明确的指责”、“反对”、“指责”、“指控”和“责备”[3]。在这些研究中,我们注意到一个缺失的部分是测量抱怨的强度。

为了说明这一点,我们展示了Jin最新数据集中的四个例子,如图1所示:“我能向你抱怨我刚刚收到的咖啡吗?”和“维珍媒体如往常一样充满谎言谎言谎言!!!”,这两句话被分为同一类型“指控”,但显然它们在抱怨的程度上是不同的。另一个例子是,“完全不酷”和“请尽快回复我的消息!!!”,这两句都被归类为“反对”,然而,后者明显提出了更强烈的抱怨。

分析不同的抱怨水平是有利的。公司需要定期监控来自用户的反馈,因为某些抱怨可能会严重影响其产品的声誉。组织或政府需要监控民众的抱怨,以了解他们的迫切需求。

02

贡献

1、我们提出一个新颖的工作:即自动捕捉文本中抱怨强度

2、我们展示了第一个中文抱怨强度数据集,包含来自微博平台的3103条数据。

3、通过一系列分析实验进一步证明研究抱怨强度的必要性和重要性,以及一些有趣的实证发现。

4、我们展示了我们的数据集如何帮助预测社交媒体上博文的流行度。

03

数据标注

在这项工作中,我们使用Louviere and Woodworth(1991)提出的最佳最差比例法(Best-Worst Scaling, BWS)[4]注释了抱怨强度。这种方法通过相互比较,可以比直接评分产生更稳定和细粒度的分数。类似的方法也被广泛应用于计算语言学的各种任务中,例如测量攻击性,亲密度等等。我们通过简单的计数百分比统计最终为每个博文分配抱怨强度评分,范围从-1(最不抱怨)到1(最抱怨)。部分标注结果如图2所示:

4b71a2a2-5e9c-11ed-8abf-dac502259ad0.png

图2部分数据标注结果

04

主实验

我们建立计算模型来预测一个给定博文的抱怨强度,使用SVR,Bidirectional LSTM,和BERT, RoBERTa等预训练模型。我们在两种情况下评估模型的性能:(1)混合话题(Mix Hashtag),我们将来自不同话题的微博博文组合在一起;(2)交叉话题(Cross Hashtag),其中训练、开发和测试集的博文与不同的话题分开。我们使用皮尔逊相关性和MSE(均方误差)作为我们所有实验的度量标准。实验结果如图3所示:

4ba3f112-5e9c-11ed-8abf-dac502259ad0.png

图3用于评估预测抱怨强度的Pearson系数的r和均方误差(MSE)

05

分析实验

抱怨和情绪之间的差异

我们注意到更强烈的抱怨似乎与消极词汇有关。先前的研究也指出,抱怨可以被视为一个有影响的情感维度[2].我们展示在标准情绪数据集上训练的模型在我们的抱怨强度预测任务中表现情况,如图4所示,使用来自情绪模型的概率分数在我们的抱怨强度预测任务中表现出不错的表现,这表明了抱怨和情绪之间的明确联系。同时在我们的标注语料库上训练的模型优于情绪模型,这证明了我们的工作的必要性。

4bca3084-5e9c-11ed-8abf-dac502259ad0.png

图4抱怨强度预测任务中情绪模型和抱怨模型的表现

抱怨可以加强情感分析任务

我们将抱怨分数作为一个附加的特性输入被添加到模型中。从图5中,我们观察到具有抱怨特征的模型比原始模型表现得更好。表明一个简单的附加组件可以提高非神经模型和传统神经模型的情绪分类预测精度,分析抱怨可以有助于二元情感分析任务。

4be9dd80-5e9c-11ed-8abf-dac502259ad0.png

图5二元情绪预测的结果(显著性测试p-vlaue < 0.01, t-test)

06

跨语言分析

我们最新收集的抱怨强度数据集是中文的,而当前现有的数据集包含英文推文。这为我们提供了一个机会来了解在社交媒体上使用中文和英语的人在抱怨上的语言差异。

(1)直接和间接抱怨:中文博文中80%为间接抱怨;相反,英文推文91%的都是直接抱怨。

(2)策略:图6显示了不同语言的策略有所不同。我们发现,中文使用者更倾向于不补偿策略,而英文使用者最常用的策略是补偿策略。

4bf739bc-5e9c-11ed-8abf-dac502259ad0.png

图6跨语言分析中不同策略所占百分比。

(3)讽刺:10%的中文数据包含讽刺,26%的英文数据包含讽刺。图7展示了词性分析,中文讽刺表达中名词比例最高,其次是动词;而在英文讽刺表达中,动词最多,其次是名词。此外,英语中的形容词和副词比中文的要多。

4c13166e-5e9c-11ed-8abf-dac502259ad0.png

图7跨语言分析的POS标签的百分比

07

预测博文流行度

我们设想将抱怨强度分数纳入现有的社交媒体监控系统中,以提高它们的预测准确性,证明了来自我们的计算模型的抱怨强度得分可以帮助估计社交媒体上的帖子流行度。

我们遵循Szabo的流行度计算方法[5],使用早期流行度进行预测的基线,为了显示我们的抱怨分数的有效性,我们添加了抱怨强度作为一个新的术语来估计最终的对数流行度,公式如下所示:

4c3c4ef8-5e9c-11ed-8abf-dac502259ad0.png

图8显示,我们结合了抱怨密度的方法优于基线方法。

4c5bd6b0-5e9c-11ed-8abf-dac502259ad0.png

图8 RMSE和MAE的流行度预测

我们还展示了随时间变化的单一话题下的流行度预测,如图9所示。我们观察到,增加了抱怨分数有助于更好地估计发布后的流行度,特别是在早期阶段。这可能是因为抱怨可能会吸引用户的注意力,以便参与讨论,从而提高活动的流行度。

4c6e7ef0-5e9c-11ed-8abf-dac502259ad0.png

图9比较实际的博文流行度和对单一话题的流行度预测

08

总结

我们提出了第一个测量文本抱怨强度的研究。我们构建了一个包含3103篇关于抱怨的中国微博文章的语料库,并使用BWS方法标注了抱怨强度评分。然后,我们证明了我们的语料库支持自动计算模型的发展,以准确的抱怨强度预测。此外,我们还研究了抱怨与情绪之间的联系,并对中文和英文之间的抱怨表达进行了跨语言比较。我们最终证明,我们的抱怨强度得分有助于更好地估计社交媒体上的博文的流行度。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SVR
    SVR
    +关注

    关注

    0

    文章

    7

    浏览量

    10735

原文标题:NAACL'22 Findings | 社交媒体上的抱怨强度分析

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    MOS开关损耗,计算值和datasheet给定值差异很大是什么原因?

    SCTWA40N120G2AG型号SiC MOS,按照datasheet上给定的条件,按照开关过程计算,Eon约为127uJ,Eoff约为164uJ。开关过程计算方法:Eon=0.5*VDD*ID
    发表于 04-03 06:35

    异步电机的磁链给定值该怎样计算

    有人说用这个公式U=4.44f*kN*phi,其中U是相电压额定值,f是额定频率,kN是定子绕组每相有效匝数,phi就是磁链。这里的问题是定子绕组每相有效匝数我不知道呀,是不是有个大概的范围呢?向各位请教了。 另外,还有没有其他的方法计算磁链
    发表于 01-10 07:38

    如何基于深度学习模型训练实现工件切割点位置预测

    Hello大家好,今天给大家分享一下如何基于深度学习模型训练实现工件切割点位置预测,主要是通过对YOLOv8姿态评估模型在自定义的数据集上训练,生成一个工件切割分离点预测
    的头像 发表于 12-22 11:07 351次阅读
    如何基于深度学习<b class='flag-5'>模型</b>训练实现工件切割点位置<b class='flag-5'>预测</b>

    如何基于深度学习模型训练实现圆检测与圆心位置预测

    Hello大家好,今天给大家分享一下如何基于深度学习模型训练实现圆检测与圆心位置预测,主要是通过对YOLOv8姿态评估模型在自定义的数据集上训练,生成一个自定义的圆检测与圆心定位预测
    的头像 发表于 12-21 10:50 694次阅读
    如何基于深度学习<b class='flag-5'>模型</b>训练实现圆检测与圆心位置<b class='flag-5'>预测</b>

    华为助力泰国农业旅游业数智化升级,建立AI大模型

    作为合作项目之一,华为助力泰国气象局构建了AI模型——华为盘古大模型。该模型提供的结果精度优于常规数值预测法,有效提高预测速度,尤其对泰国两
    的头像 发表于 12-20 10:26 512次阅读

    LabVIEW进行癌症预测模型研究

    LabVIEW进行癌症预测模型研究 癌症是种细胞异常增生的疾病。随着年龄的增长,细胞分裂速度放缓,但癌细胞会失去控制地不断分裂,形成可能良性或恶性的肿瘤。 2012年的国际癌症数据显示,新发癌症
    发表于 12-13 19:04

    机器人的ROS模型建立

    这个系列主要介绍机器人ROS模型建立方法,ROS系统带来的好处之一就是: 我们无需自己建立复杂的数学模型来描述自己的机器人几何尺寸、运动学和动力学等,只需要用它提供的
    的头像 发表于 11-28 14:19 294次阅读

    完胜超级计算机!Science:谷歌AI新模型预测天气又快又准

    为降低天气预测的资金和能源成本,几家科技公司开发了机器学习模型,可以根据过去和当前的天气数据快速预测未来的全球天气状况。其中包括DeepMind、英伟达(Nvidia)和华为,以及一系列初创企业。
    的头像 发表于 11-21 16:56 418次阅读

    建立运放传递函数模型

    主要内容:利用运放数据手册大信号增益曲线建立其控制模型,进行环路稳定性分析
    的头像 发表于 11-08 18:26 911次阅读
    <b class='flag-5'>建立</b>运放传递函数<b class='flag-5'>模型</b>

    如何利用高斯过程回归模型建立燃料电池电堆功率预测模型

    对车辆辅助装置的控件进行优化设计时,需要建立一个燃料电池电堆功率预测模型,而该模型建立需要考虑各种电堆控制参数,这一点至关重要。
    的头像 发表于 11-02 15:34 496次阅读
    如何利用高斯过程回归<b class='flag-5'>模型</b><b class='flag-5'>建立</b>燃料电池电堆功率<b class='flag-5'>预测</b><b class='flag-5'>模型</b>?

    二极管模型参数计算建模

    根据二极管1N914数据手册计算BV、IBV、n、IS、TT和CJO参数值,然后利用Dbreak建立其PSpice模型
    的头像 发表于 10-28 14:52 1570次阅读
    二极管<b class='flag-5'>模型</b>参数<b class='flag-5'>计算</b>建模

    基于机器学习的车位状态预测方法

    本发明公开种基于机器学习的车位状态预测方法,基于历史数据,建立回归决策树模型进而构建改进决策树模型,对每个区域的停车率进行
    发表于 09-21 07:24

    变频器的给定方式

    一、变频器的给定方式 1、 要调节变频器的输出频率,首先必须向变频器提供改变频率的信号,这个信号称为给定信号。所谓给定方式,就是调节变频器输出频率的具体方法,也就是提供给定信号的方式。
    的头像 发表于 09-15 11:09 2020次阅读

    详解CNN

    数字识别,将数字平移到图像另一个位置,被认为是不同的图片)2. 参数量太大,难以训练,容易陷入局部极值, 这样便有了后来的CNN,CNN是减少模型尺寸的利器。 2 CNN的常见层 CNN常见的层包括:全
    发表于 08-18 06:56

    无线通信信号传输模型介绍

    理论计算预测了无线信号的变化。   2. 传播模型的分类   在移动通信网络设计中,主要的任务是在满足移动用户所需的话务容量条件下,使
    发表于 05-06 11:40