资料介绍
一种适应短文本的相关测度及其应用:针对博客社区和BBS 论坛充斥Web 垃圾信息的问题,提出相关度向量空间模型cVSM,并以此作为评论的特征,采用支持向量
机分类算法自动识别垃圾评论。cVSM 包括一种适合短文本的相关测度,用于衡量评论和文章的语义相关程度。在中文博客测试集和中文
BBS 测试集上的实验结果表明,相比纯粹使用评论文本特征的方法,应用该模型时F1 至少提高6%。
关键词:博客;垃圾评论;支持向量机;文本挖掘;相关测度
Relevancy Coefficient and Its Application Adapted to Short Texts
HE Hai-jiang
(Computer Center, Changsha University, Changsha 410003)
【Abstract】A relevancy coefficient vectort space model named cVSM is proposed to aim at Web spams which flood in blogosphere and forums.
The cVSM whose components are employed as features of comments and the support vector machine classification algorithms are used to
automatically identify comment spams. The relevancy coefficient included in the cVSM is presented, which is used to evaluate relevancy grade of
posts and comments. Chinese blog dataset and Chinese BBS dataset are tested. Experimental results show that compared with traditional method the
F1 has been improved at least 6% by this way.
【Key words】blog; comment spam; support vector machine; text mining; relevancy coefficient
机分类算法自动识别垃圾评论。cVSM 包括一种适合短文本的相关测度,用于衡量评论和文章的语义相关程度。在中文博客测试集和中文
BBS 测试集上的实验结果表明,相比纯粹使用评论文本特征的方法,应用该模型时F1 至少提高6%。
关键词:博客;垃圾评论;支持向量机;文本挖掘;相关测度
Relevancy Coefficient and Its Application Adapted to Short Texts
HE Hai-jiang
(Computer Center, Changsha University, Changsha 410003)
【Abstract】A relevancy coefficient vectort space model named cVSM is proposed to aim at Web spams which flood in blogosphere and forums.
The cVSM whose components are employed as features of comments and the support vector machine classification algorithms are used to
automatically identify comment spams. The relevancy coefficient included in the cVSM is presented, which is used to evaluate relevancy grade of
posts and comments. Chinese blog dataset and Chinese BBS dataset are tested. Experimental results show that compared with traditional method the
F1 has been improved at least 6% by this way.
【Key words】blog; comment spam; support vector machine; text mining; relevancy coefficient
下载该资料的人也在下载
下载该资料的人还在阅读
更多 >
- 面向搜索的微博短文本语义建模方法综述 3次下载
- 面向短文本的中文真词错误检测与修复 6次下载
- 面向短文本的中文真词错误检测与修复 2次下载
- 基于语义感知的中文短文本摘要生成技术 2次下载
- 基于BERT+Bo-LSTM+Attention的病历短文分类模型 13次下载
- 一种基于BERT模型的社交电商文本分类算法 8次下载
- 基于BP神经网络分类器的垃圾文本过滤模型 43次下载
- 5G NSA优化方法及其相关研究 9次下载
- 一种基于神经网络的短文本分类模型 7次下载
- 结合BERT模型的中文文本分类算法 6次下载
- 基于加权核非负矩阵分解的短文本聚类算法的资料说明 11次下载
- 中文短文本聚合模型研究 0次下载
- 基于短文本的突发事件过程展示 0次下载
- 融合词语类别特征和语义的短文本分类方法 0次下载
- 一种多输入多输出系统中有限反馈预编码的自适应跟踪测度 13次下载
- Linux系统中的10个常用的文本查看命令 9029次阅读
- 基于文本到图像模型的可控文本到视频生成 536次阅读
- 什么是文本值? 724次阅读
- 基于文本驱动的三维模型风格化方法 699次阅读
- 一个全新的文本到视频跨模态检索子任务 740次阅读
- CLarET:实现上下文到事件相关感知的预训练模型 845次阅读
- OpenAI发布根据文字生成图像的人工智能系统 1179次阅读
- 传统方法和深度学习的情感分析 3646次阅读
- 如何使用TensorFlow Hub文本模块构建一个模型,以根据相关描述预测电影类型 2969次阅读
- 如何使用EAST文本检测器在自然场景下检测文本 1w次阅读
- 一种用于从文本简历中挖掘相关信息的框架 2594次阅读
- 【新专利介绍】一种水表校表系统及其校表方法 2600次阅读
- 短波频率自适应通信技术解析 1.3w次阅读
- 智能天线技术研究及其相关介绍 585次阅读
- 自适应滤波器的作用、原理以及相关应用 1.9w次阅读
下载排行
本周
- 1电子电路原理第七版PDF电子教材免费下载
- 0.00 MB | 1490次下载 | 免费
- 2单片机典型实例介绍
- 18.19 MB | 93次下载 | 1 积分
- 3S7-200PLC编程实例详细资料
- 1.17 MB | 27次下载 | 1 积分
- 4笔记本电脑主板的元件识别和讲解说明
- 4.28 MB | 18次下载 | 4 积分
- 5开关电源原理及各功能电路详解
- 0.38 MB | 10次下载 | 免费
- 6基于AT89C2051/4051单片机编程器的实验
- 0.11 MB | 4次下载 | 免费
- 7基于单片机和 SG3525的程控开关电源设计
- 0.23 MB | 3次下载 | 免费
- 8基于单片机的红外风扇遥控
- 0.23 MB | 3次下载 | 免费
本月
- 1OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 2PADS 9.0 2009最新版 -下载
- 0.00 MB | 66304次下载 | 免费
- 3protel99下载protel99软件下载(中文版)
- 0.00 MB | 51209次下载 | 免费
- 4LabView 8.0 专业版下载 (3CD完整版)
- 0.00 MB | 51043次下载 | 免费
- 5555集成电路应用800例(新编版)
- 0.00 MB | 33562次下载 | 免费
- 6接口电路图大全
- 未知 | 30320次下载 | 免费
- 7Multisim 10下载Multisim 10 中文版
- 0.00 MB | 28588次下载 | 免费
- 8开关电源设计实例指南
- 未知 | 21539次下载 | 免费
总榜
- 1matlab软件下载入口
- 未知 | 935053次下载 | 免费
- 2protel99se软件下载(可英文版转中文版)
- 78.1 MB | 537791次下载 | 免费
- 3MATLAB 7.1 下载 (含软件介绍)
- 未知 | 420026次下载 | 免费
- 4OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 5Altium DXP2002下载入口
- 未知 | 233046次下载 | 免费
- 6电路仿真软件multisim 10.0免费下载
- 340992 | 191183次下载 | 免费
- 7十天学会AVR单片机与C语言视频教程 下载
- 158M | 183277次下载 | 免费
- 8proe5.0野火版下载(中文版免费下载)
- 未知 | 138039次下载 | 免费
评论
查看更多