资料介绍
一种改进的基于粗糙集理论的特征选取方法_王作飞
文本分类是文本挖掘的重要组成部分。通过该技术可以自 动地为文档集合中的每篇文档确定类别, 并对它们进行有效组 织和分类,以便检索和分析,从而能够使用户方便、快捷地浏览 文档,具有很高的实际应用价值。文本分类一般分为训练和分类 阶段,在分类阶段,文本集经过文本预处理后得到特征集。但是 特征集仍然是个高维的特征空间, 对于所有的分类算法来说维 数都太大。因此,选择一个合适的特征方法,以降低特征空间的 维数,提高分类的效率和精度,往往成为文本分类的首选任务和 关键。 目前,常用的特征选择算法一般是先构建一个评估函数,对 特征集中的每个特征独立地进行评估每个特征获得一个评估 值,然后根据评估值对特征进行排序,最后选取最佳的特征作为 类别中心特征向量。而选取多少个最佳特征主要针对某一个具 体的问题通过实验来决定。现在这样的评估函数有:文档频数, 信息增益,期望交叉熵,互信息,CHI 统计法等。 作为一种处理含糊和不精确问题的新型数学工具, 粗糙集 在处理不完备、不确定、不一致数据方面显现出了其特有的优 势。针对以往基于粗糙集理论中正区域约简特征选取在处理不 一致决策表时存在的不足,本文通过过引入粒度函数的概念,并 以此为基础采用粗糙集启发式属性约简方法实现了特征在分 类中的重要性度量标定和约简, 使原来的特征维数得到一定的 降低,建立了特征选择与文本分类之间的联系。该方法有效地提 高了分类的效率和准确度,大大降低了文本分类子集的维数,生 成规则易于理解, 适应性强。最后用实验验证了该方法的可行
文本分类是文本挖掘的重要组成部分。通过该技术可以自 动地为文档集合中的每篇文档确定类别, 并对它们进行有效组 织和分类,以便检索和分析,从而能够使用户方便、快捷地浏览 文档,具有很高的实际应用价值。文本分类一般分为训练和分类 阶段,在分类阶段,文本集经过文本预处理后得到特征集。但是 特征集仍然是个高维的特征空间, 对于所有的分类算法来说维 数都太大。因此,选择一个合适的特征方法,以降低特征空间的 维数,提高分类的效率和精度,往往成为文本分类的首选任务和 关键。 目前,常用的特征选择算法一般是先构建一个评估函数,对 特征集中的每个特征独立地进行评估每个特征获得一个评估 值,然后根据评估值对特征进行排序,最后选取最佳的特征作为 类别中心特征向量。而选取多少个最佳特征主要针对某一个具 体的问题通过实验来决定。现在这样的评估函数有:文档频数, 信息增益,期望交叉熵,互信息,CHI 统计法等。 作为一种处理含糊和不精确问题的新型数学工具, 粗糙集 在处理不完备、不确定、不一致数据方面显现出了其特有的优 势。针对以往基于粗糙集理论中正区域约简特征选取在处理不 一致决策表时存在的不足,本文通过过引入粒度函数的概念,并 以此为基础采用粗糙集启发式属性约简方法实现了特征在分 类中的重要性度量标定和约简, 使原来的特征维数得到一定的 降低,建立了特征选择与文本分类之间的联系。该方法有效地提 高了分类的效率和准确度,大大降低了文本分类子集的维数,生 成规则易于理解, 适应性强。最后用实验验证了该方法的可行
粗糙集理论
加入交流群
扫码添加小助手
加入工程师交流群
下载该资料的人也在下载
下载该资料的人还在阅读
更多 >
- 权重模糊粗糙集的改进规则挖掘算法 4次下载
- 程度多粒度软粗糙集模型综述 1次下载
- 一种基于粗糙集聚类的报文格式推断方法 3次下载
- 一种统计粗糙集模型 0次下载
- 一种改进的变精度粗糙集漏洞威胁评估模型 0次下载
- 粗糙集理论的数据挖掘方法在水泥生产分解炉中的应用_王夙娟 0次下载
- 粗糙集方法在红外图像增强中的应用
- 基于粗糙集理论的网络入侵检测系统
- 基于粗糙集理论的空气质量智能数据分析
- 基于粗糙集规则提取算法的研究及应用
- 基于遗传算法的误差因子粗糙集模型
- 基于粗糙集的启发式约简算法
- 基于概率粗糙集模型的信息检索
- 基于粗糙集理论的除氧系统智能控制器设计
- 基于粗糙集理论的入侵检测方法研究
- 一种基于点、线和消失点特征的单目SLAM系统设计 932次阅读
- 一种简单高效配置FPGA的方法 2.4k次阅读
- 一种完全分布式的点线协同视觉惯性导航系统 1.5k次阅读
- FLAT的一种改进方案 2.5k次阅读
- 基于改进FCOS的钢带表面缺陷检测算法 2.5k次阅读
- 一种基于DSP+FPGA结构的通用飞控计算机设计方法介绍 3k次阅读
- 人工智能是一种改进数据控制和处理的方法 3.6k次阅读
- 研究人员提出了一种多尺度高效率的新模型FAMED-Net 4.4k次阅读
- OpenAI提出了一种回报设置方法RND 3.8k次阅读
- 一种自动生成反向传播方程的方法 4.3k次阅读
- 【新专利介绍】一种改进电表 1.6k次阅读
- 基于激光诱导超塑性的卷对卷工艺制程是一种新的制造方法 5.6k次阅读
- 一种新的基于电穿孔的皮肤高效核酸递送方法 6.2k次阅读
- 基于特征模理论和CMA技术的天线设计 1.1w次阅读
- 一种matlab调用signaltap采集数据的方法 4.2k次阅读
下载排行
本周
- 1MDD品牌三极管MMBT3906数据手册
- 2.33 MB | 次下载 | 免费
- 2MDD品牌三极管S9012数据手册
- 2.62 MB | 次下载 | 免费
- 3联想flex2-14D/15D说明书
- 4.92 MB | 次下载 | 免费
- 4收音环绕扩音机 AVR-1507手册
- 2.50 MB | 次下载 | 免费
- 524Pin Type-C连接器设计报告
- 1.06 MB | 次下载 | 免费
- 6新一代网络可视化(NPB 2.0)
- 3.40 MB | 次下载 | 免费
- 7MS1000TA 超声波测量模拟前端芯片技术手册
- 0.60 MB | 次下载 | 免费
- 8MS1022高精度时间测量(TDC)电路数据手册
- 1.81 MB | 次下载 | 免费
本月
- 1爱华AIWA HS-J202维修手册
- 3.34 MB | 37次下载 | 免费
- 2PC5502负载均流控制电路数据手册
- 1.63 MB | 23次下载 | 免费
- 3NB-IoT芯片厂商的资料说明
- 0.31 MB | 22次下载 | 1 积分
- 4H110主板CPU PWM芯片ISL95858HRZ-T核心供电电路图资料
- 0.63 MB | 6次下载 | 1 积分
- 5UWB653Pro USB口测距通信定位模块规格书
- 838.47 KB | 5次下载 | 免费
- 6技嘉H110主板IT8628E_BX IO电路图资料
- 2.61 MB | 4次下载 | 1 积分
- 7苏泊尔DCL6907(即CHK-S007)单芯片电磁炉原理图资料
- 0.04 MB | 4次下载 | 1 积分
- 8100W准谐振反激式恒流电源电路图资料
- 0.09 MB | 2次下载 | 1 积分
总榜
- 1matlab软件下载入口
- 未知 | 935137次下载 | 10 积分
- 2开源硬件-PMP21529.1-4 开关降压/升压双向直流/直流转换器 PCB layout 设计
- 1.48MB | 420064次下载 | 10 积分
- 3Altium DXP2002下载入口
- 未知 | 233089次下载 | 10 积分
- 4电路仿真软件multisim 10.0免费下载
- 340992 | 191439次下载 | 10 积分
- 5十天学会AVR单片机与C语言视频教程 下载
- 158M | 183353次下载 | 10 积分
- 6labview8.5下载
- 未知 | 81602次下载 | 10 积分
- 7Keil工具MDK-Arm免费下载
- 0.02 MB | 73822次下载 | 10 积分
- 8LabVIEW 8.6下载
- 未知 | 65991次下载 | 10 积分
电子发烧友App





创作
发文章
发帖
提问
发资料
发视频
上传资料赚积分
评论