0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

传统方法和深度学习的情感分析

lviY_AI_shequ 来源:未知 作者:工程师曾玲 2018-09-23 09:44 次阅读

1.问题

Kaggle竞赛Bag of Words Meets Bags of Popcorn是电影评论(review)的情感分析,可以视作为短文本的二分类问题(正向、负向)。标注数据集长这样:

传统方法和深度学习的情感分析

评价指标是AUC。因此,在测试数据集上应该给出概率而不是类别;即为predict_proba而不是predict:

# random frorest result = forest.predict_proba(test_data_features)[:, 1] # not `predict` result = forest.predict(test_data_features)

采用BoW特征、RF (random forest)分类器,预测类别的AUC为0.84436,预测概率的AUC则为0.92154。

2.分析

传统方法

传统方法一般会使用到两种特征:BoW (bag of words),n-gram。BoW忽略了词序,只是单纯对词计数;而n-gram则是考虑到了词序,比如bigram词对"dog run"、"run dog"是两个不同的特征。BoW可以用CountVectorizer向量化:

from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer(analyzer="word", tokenizer=None, preprocessor=None, stop_words=None, max_features=5000) train_data_features = vectorizer.fit_transform(clean_train_reviews)

在一个句子中,不同的词重要性是不同的;需要用TFIDF来给词加权重。n-gram特征则可以用TfidfVectorizer向量化:

from sklearn.feature_extraction.text import TfidfVectorizer vectorizer = TfidfVectorizer(max_features=40000, ngram_range=(1, 3), sublinear_tf=True) train_x = vectorizer.fit_transform(clean_train_reviews)

使用unigram、bigram、trigram特征 + RF分类器,AUC为0.93058;如果改成LR分类器,则AUC为0.96330。

深度学习

竞赛tutorial给出用word2vec词向量特征来做分类,并两个生成特征思路:

对每一条评论的所有词向量求平均,将其平均值作为改评论的特征;

对训练的词向量做聚类,然后对评论中的词类别进行计数,把这种bag-of-centroids作为特征。

把生成这种特征喂给分类器,进行分类。但是,这种方法的AUC不是太理想(在0.91左右)。无论是做平均还是聚类,一方面丢失了词向量的特征,另一方面忽略了词序还有词的重要性。因此,分类效果不如tfidf化的n-gram。

大神Mikolov在推出word2vec之后,又鼓捣出了doc2vec(gensim有实现)。简单地说,就是可以把一段文本变成一个向量。与word2vec不同的是,参数除了doc对应的词列表外,还有类别(TaggedDocument)。结果证明doc2vec的效果还不如word2vec生成特征,AUC只有0.87915。

doc2vec = Doc2Vec(sentences, workers=8, size=300, min_count=40, window=10, sample=1e-4)

pangolulu尝试把BoW与doc2vec做ensemble,采用stacking的思路——L1层BoW特征做LR分类、doc2vec特征做RBF-SVM分类,L2层将L1层的预测概率组合成一个新特征,喂给LR分类器;多次迭代后求平均。ensemble结构图如下:

传统方法和深度学习的情感分析

以上所有方法的AUC对比如下:

传统方法和深度学习的情感分析

3.参考资料

[1] Zygmunt Z.,Classifying text with bag-of-words: a tutorial.

[2] Michael Czerny,Modern Methods for Sentiment Analysis.

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 深度学习
    +关注

    关注

    73

    文章

    5237

    浏览量

    119904

原文标题:【从传统方法到深度学习】情感分析

文章出处:【微信号:AI_shequ,微信公众号:人工智能爱好者社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    微表情识别-深度学习探索情感

    来源:易百纳技术社区 随着人工智能技术的不断进步,深度学习成为计算机视觉领域的重要技术。微表情识别作为人类情感分析的一种重要手段,受到了越来越多的关注。本文将介绍基于
    的头像 发表于 08-14 17:27 1386次阅读
    微表情识别-<b class='flag-5'>深度</b><b class='flag-5'>学习</b>探索<b class='flag-5'>情感</b>

    #硬声创作季 #深度学习 深度学习基础-7.1.1 情感分析传统求解方法

    深度学习
    水管工
    发布于 :2022年10月27日 18:30:08

    [7.1]--7.1情感分析传统求解方法

    深度学习
    jf_60701476
    发布于 :2022年12月01日 02:28:28

    图像分类的方法深度学习传统机器学习

    实际情况非常复杂,传统的分类方法不堪重负。现在,我们不再试图用代码来描述每一个图像类别,决定转而使用机器学习方法处理图像分类问题。 目前,许多研究者使用CNN等
    发表于 09-28 19:43 0次下载

    基于深度学习的卷积神经网络模型分析文本的情感倾向

    神经网络模型均未考虑句子的结构信息,并且在训练时很容易发生过拟合。针对这两方面的不足,使用基于深度学习的卷积神经网络模型分析文本的情感倾向,采用分段池化的策略将句子结构考虑进来,分段提
    发表于 11-23 15:10 10次下载

    如何提取文本实体?深度学习远远领先传统算法

    文本实体提取是自然语言处理(NLP)的主要任务之一。随着近期深度学习领域快速发展,我们可以将这些算法应用到 NLP 任务中,并得到准确率远超传统方法的结果。我尝试过分别使用
    发表于 07-13 08:33 6446次阅读
    如何提取文本实体?<b class='flag-5'>深度</b><b class='flag-5'>学习</b>远远领先<b class='flag-5'>传统</b>算法

    基于CD-RBM深度学习的产品评论情感分析

    针对目前大部分情感分析技术需要人工标注建立情感词典提取情感特征的问题,提出一种基于对比散度一受限玻尔兹曼机( CD-RBM)深度
    发表于 12-20 11:24 2次下载
    基于CD-RBM<b class='flag-5'>深度</b><b class='flag-5'>学习</b>的产品评论<b class='flag-5'>情感</b><b class='flag-5'>分析</b>

    主题种子词的情感分析方法

    ,该方法在自动构建领域主题种子词及主题文本基础上,利用主题种子词监督的情感分析模型( SAA_SSW)实现主题及其关联情感的联合发现。实验结果表明,相比
    发表于 01-04 14:33 1次下载
    主题种子词的<b class='flag-5'>情感</b><b class='flag-5'>分析</b><b class='flag-5'>方法</b>

    基于上下文语境的微博情感分析

    传统情感分析方法仅考虑单一文本,对长度短小且口语化严重的微博文本情感极性识别率较低。针对上述问题,提出一种结合上下文消息的
    发表于 02-24 11:34 0次下载
    基于上下文语境的微博<b class='flag-5'>情感</b><b class='flag-5'>分析</b>

    如何使用情感分析深度学习实现宏观经济预测方法

    深度学习的预测方法(SA-LSTM)。首先考虑微博的强时效性,确定了微博爬取和情感分析方法
    发表于 11-16 10:41 15次下载
    如何使用<b class='flag-5'>情感</b><b class='flag-5'>分析</b>和<b class='flag-5'>深度</b><b class='flag-5'>学习</b>实现宏观经济预测<b class='flag-5'>方法</b>

    视觉大数据领域的最好分析方法之一:深度学习

    深度学习仍是视觉大数据领域的最好分析方法之一
    的头像 发表于 08-26 15:48 4696次阅读

    深度学习中图像分割的方法和应用

    介绍使图像分割的方法,包括传统方法深度学习方法,以及应用场景。 基于人工智能和深度
    的头像 发表于 11-27 10:29 2893次阅读

    传统CV和深度学习方法的比较

    深度学习推动了数字图像处理领域的极限。但是,这并不是说传统计算机视觉技术已经过时了。本文将分析每种方法的优缺点。本文的目的是促进有关是否应保
    的头像 发表于 11-29 17:09 818次阅读

    基于深度学习的点云分割的方法介绍

      摘 要:点云分割是点云数据理解中的一个关键技术,但传统算法无法进行实时语义分割。近年来深度学习被应用在点云分割上并取得了重要进展。综述了近四年来基于深度
    发表于 07-20 15:23 0次下载

    基于深度学习情感语音识别模型优化策略

    情感语音识别技术是一种将人类语音转化为情感信息的技术,其应用范围涵盖了人机交互、智能客服、心理健康监测等多个领域。随着人工智能技术的不断发展,深度学习
    的头像 发表于 11-09 16:34 256次阅读