构建中文网页分类器对网页进行文本分类

电子设计 2018-09-13 08:06 次阅读

网络原指用一个巨大的虚拟画面,把所有东西连接起来,也可以作为动词使用。在计算机领域中,网络就是用物理链路将各个孤立的工作站或主机相连在一起,组成数据链路,从而达到资源共享和通信的目的。凡将地理位置不同,并具有独立功能的多个计算机系统通过通信设备和线路而连接起来,且以功能完善的网络软件(网络协议、信息交换方式及网络操作系统等)实现网络资源共享的系统,可称为计算机网络。网络的迅速发展,使人们不仅面临信息爆炸,同时也面临着如何从浩如烟海的信息中获取自己所需信息的难题。如何有效地组织和处理海量的信息,并过滤和管理网络资源,已成为必须面对的问题。

为了网页信息的有效组织和检索,人们开发了各种网络信息搜索器,在一定程度上确实提高了网络信息的利用率。与文本分类技术相比较,网页分类更加复杂,这是由网页的结构特征决定的,但是网页的信息主要是通过文本的方式向人们传递的,所以在对网页分类之前,首先要对其中的文本进行提取,对所提取的文本分类,最终使网页分类问题转化为文本分类问题。

目前,文本分类技术的研究比较活跃,已经出现了多种文本分类算法,并且被广泛应用于多个领域:信息检索、搜索引擎、文本数据库等。文本分类算法基本是基于概率统计模型,本文就是基于互信息(MI)提出一种改进的特征提取方法,并根据TFIDF提出一种新的特征权值计算方法构建中文网页分类器。

1 网页预处理

网页分类之前首先要进行预处理,实际上就是HTML解析,把解析出来的内容用于文本分类,选取网页中的下面这些文本用于分类:

(1)锚文本。锚文本是网页中用于指示所连接网页内容的提示,由于后面要对提取的文本进行分类,所以只提取文字形式的锚文本。

(2)title文本。这样的文本可能是网页中最重要的标签,必须取得。

(3)meta标签。其重要的功能就是设置关键字,网页的制作者往往都设置了关键字,来提高网页的搜索点击率。可以利用meta标签中的有关文本内容进行网页分类。

(4)主文本。上面这些信息获取之后,网页中剩余的文本信息还在各种HTML标签中,在HTML源文件中,主文本有可能不是连续出现的。主文本一般是网页中文字最集中的较长的字符串,查看源文件,那些比较长的字符串是整个出现在1个标签中的。

文本首先要确定的问题就是表示文本的基本单位,用于表示文本的基本单位通常称为文本的特征或特征项。中文文本不同于英文文本,英文文本以空格为分隔符,非常明确。而中文文本需要对其进行分词处理才能得出每个特征。本文采用中科院计算技术研究所汉语词法分析系统ICTCLAS3.0进行分词。如果把这些对文本分类没有意义的虚词作为特征,将会带来很大噪音,降低文本分类的效率和准确率。因此,在提取文本特征时,应首先考虑剔除这些对文本分类没有用处的虚词,而在实词中,又以名词和动词对于文本的类别特性的表现力最强。

2 特征提取

特征提取就是提取出最能代表某篇文章或某类的特征项,以达到降维的效果从而减少文本分类的计算量。典型特征提取方法:信息增益(Information Gain),互信息(MI)、文档频度(DF)。传统的MI特征提取方法:

文本分类

计算出所有特征词的统计值后,从大到小进行排序,然后根据需要从上到下选取一定数量的特征词构建文本分类的特征词库。

3 特征加权及向量化

TFIDF算法及其改进型[5]有多种公式,本文使用一种新的改进的TF-IDF公式来计算特征词的权重。TF-IDF公式有很多变种,比较常见的TF-IDF公式:

文本分类



  :

收藏 人收藏
分享:

评论

相关推荐

解决二分类问题的算法——AdaBoost算法

从上述问题的角度出发,集成学习分为两类流派:Bagging与Boosting。Bagging(Boo....

的头像 人工智能爱好者社区 发表于 09-23 10:02 50次 阅读
解决二分类问题的算法——AdaBoost算法

AUC是否可以直接用作损失函数去优化呢?

TP(true positive):表示样本的真实类别为正,最后预测得到的结果也为正;FP(fals....

的头像 人工智能爱好者社区 发表于 09-11 10:03 229次 阅读
AUC是否可以直接用作损失函数去优化呢?

如何在TextFieldWidget上使用OnFocus事件?

您好,我使用的是和声2.06,当文本字段被聚焦时,我想让它成为一个小键盘小部件。有人能帮我吗?谢谢你 以上来自于百度翻译...

发表于 09-07 15:08 20次 阅读
如何在TextFieldWidget上使用OnFocus事件?

FDDC大赛见证了AI将如何改变资产管理的未来

最终,来自武汉大学计算机学院软件工程实验室的Alassea lome团队,将预测误差降低至7%,获得....

的头像 新智元 发表于 09-07 09:37 467次 阅读
FDDC大赛见证了AI将如何改变资产管理的未来

响应式布局教程之响应式开发视频教程免费下载

本文档的主要内容是响应式布局教程之响应式开发视频教程免费下载课程视频包括了:第1章 前期准备,第2章....

发表于 08-28 14:41 28次 阅读
响应式布局教程之响应式开发视频教程免费下载

斯坦福CSS 229系统的整理,学习ML的“掌上备忘录

损失函数—一个损失函数可表示为L:(z,y)∈R×Y⟼L(z,y)∈R,它将与实际数据值y对应的预测....

的头像 新智元 发表于 08-27 09:13 397次 阅读
斯坦福CSS 229系统的整理,学习ML的“掌上备忘录

如何画roc曲线?为什么使用Roc和Auc评价分类器?

假设已经得出一系列样本被划分为正类的概率,然后按照大小排序,下图是一个示例,图中共有20个测试样本,....

的头像 Imagination Tech 发表于 08-22 14:47 368次 阅读
如何画roc曲线?为什么使用Roc和Auc评价分类器?

解析html工具应用程序免费下载

本文档的主要内容详细介绍的是解析html工具应用程序免费下载。

发表于 08-14 17:43 44次 阅读
解析html工具应用程序免费下载

SAN基于卷积自动编码器进行受限优化:最大化某一分类器表现的同时最小化另一分类器表现

正如我们的BTAS 2018论文提到的,我们最近致力于通过增强数据集等措施改善原SAN模型的概括性表....

的头像 论智 发表于 08-11 09:18 603次 阅读
SAN基于卷积自动编码器进行受限优化:最大化某一分类器表现的同时最小化另一分类器表现

引入Mask R-CNN思想通过语义分割进行任意形状文本检测与识别

网络架构由四部分组成,骨干网feature pyramid network (FPN) ,文本候选....

的头像 电子发烧友网工程师 发表于 08-07 14:24 697次 阅读
引入Mask R-CNN思想通过语义分割进行任意形状文本检测与识别

利用LSTM网络结构将车辆过去的位置包含到预测算法中

基于机器学习的算法为这个问题创建了一个数学模型:给定与车辆相关的特征作为输入,车辆的变道意图作为输出....

的头像 智车科技 发表于 08-01 10:51 837次 阅读
利用LSTM网络结构将车辆过去的位置包含到预测算法中

机器学习开发者如何寻找满足自己需求的第三方库?

作为第一个例子,让我们看一下可以用来训练图像分类器的技术,仅从少量训练数据开始。现代图像识别模型具有....

的头像 TensorFlow 发表于 07-31 15:34 472次 阅读
机器学习开发者如何寻找满足自己需求的第三方库?

一些解决文本分类问题的机器学习最佳实践

文本分类是一种应用广泛的算法,它是各种用于大规模处理文本数据的软件系统的核心,常被用于帮助电子邮箱过....

的头像 论智 发表于 07-31 09:28 1040次 阅读
一些解决文本分类问题的机器学习最佳实践

如何从HTML或XML文件中提取数据的Python爬虫库Beautiful Soup概述

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库,简单来说,它....

的头像 马哥Linux运维 发表于 07-29 09:56 786次 阅读
如何从HTML或XML文件中提取数据的Python爬虫库Beautiful Soup概述

机器学习实用指南——集成学习和随机森林

本章讨论的最后一个集成方法叫做 Stacking(stacked generalization 的缩....

的头像 人工智能爱好者社区 发表于 07-27 17:40 518次 阅读
机器学习实用指南——集成学习和随机森林

由一只小猫带咱们走进深度学习的世界吧!

训练一个分类器: 这步可以说是很核心的一步,分类器的效果好坏决定了我们最终应用的效果,深度学习之所以....

的头像 人工智能头条 发表于 07-27 17:35 547次 阅读
由一只小猫带咱们走进深度学习的世界吧!

机器学习问题和知识点

上式中,分子部分表示真实值与预测值的平方差之和,类似于均方差 MSE;分母部分表示真实值与均值的平方....

的头像 电子发烧友网工程师 发表于 07-22 09:37 491次 阅读
机器学习问题和知识点

随机贴片与随机子空间

最后,如果你观察一个单一决策树,重要的特征会出现在更靠近根部的位置,而不重要的特征会经常出现在靠近叶....

的头像 人工智能爱好者社区 发表于 07-20 16:14 396次 阅读
随机贴片与随机子空间

集成学习和随机森林,提供代码实现

令人惊奇的是这种投票分类器得出的结果经常会比集成中最好的一个分类器结果更好。事实上,即使每一个分类器....

的头像 人工智能爱好者社区 发表于 07-17 17:07 524次 阅读
集成学习和随机森林,提供代码实现

线性SVM分类器通过简单地计算决策函数

虚线表示的是那些决策函数等于 1 或 -1 的点:它们平行,且到决策边界的距离相等,形成一个间隔。训....

的头像 人工智能爱好者社区 发表于 07-12 15:19 435次 阅读
线性SVM分类器通过简单地计算决策函数

线性SVM分类器通过简单地计算决策函数

虚线表示的是那些决策函数等于 1 或 -1 的点:它们平行,且到决策边界的距离相等,形成一个间隔。训....

的头像 人工智能爱好者社区 发表于 07-12 15:19 512次 阅读
线性SVM分类器通过简单地计算决策函数

图像分类中的一个常见问题

解决实际应用中此类问题的主要思想就是限制模型的使用场景,这样对目标物体的预测假设就会匹配训练数据。一....

的头像 论智 发表于 07-11 09:16 364次 阅读
图像分类中的一个常见问题

基于镜像构建关于θ的函数,过拟合和L2正则化

在线性分类问题中,我们一般认为对抗性扰动就是高维空间中的点积。对此,一种非常普遍的说法是:我们可以在....

的头像 论智 发表于 07-09 08:41 2373次 阅读
基于镜像构建关于θ的函数,过拟合和L2正则化

一种全新的基于旋转的框架,能对自然场景中任意方向的文字进行检测辨认

最近一些研究提出了针对随机方向文本的检测方法,总的来说,这些方法大致包括两个步骤:分割网络(全卷积网....

的头像 论智 发表于 07-08 09:30 757次 阅读
一种全新的基于旋转的框架,能对自然场景中任意方向的文字进行检测辨认

卷积神经网络的介绍和应用用欧姆蛋来详细介绍

关于卷积神经网络从交通灯识别到更实际的应用,我经常听到这样一个问题:“会否出现一种深度学习“魔法”,....

的头像 人工智能头条 发表于 07-01 10:13 2152次 阅读
卷积神经网络的介绍和应用用欧姆蛋来详细介绍

机器学习实用指南——准确率与召回率

受试者工作特征(ROC)曲线是另一个二分类器常用的工具。它非常类似与准确率/召回率曲线,但不是画出准....

的头像 人工智能爱好者社区 发表于 06-19 15:20 1732次 阅读
机器学习实用指南——准确率与召回率

通过html控件读取网页数据的控件在哪里?

如下图所示有3个html的控件,请问在哪里能找到?在activeX里找到了Microsoft HTML Object Library Version 4.0,以及类...

发表于 06-13 16:54 600次 阅读
通过html控件读取网页数据的控件在哪里?

Dreamweaver 死了 页面可视化搭建工具仍旧历久弥新

为什么从前端开发角度会说页面是 HTMLTree + Data? 举一个常见场景来说明: 在开发新页....

发表于 06-04 05:52 3619次 阅读
Dreamweaver 死了 页面可视化搭建工具仍旧历久弥新

求助各位大佬,用labview读取.dat文件,将其转化为文本格式,并只读取其中一个通道。

labview读取.dat文件,要将其转化成文本格式出波形图,由于我的是脑电数据,具有256个通道,老师让我读取其中一个通道(PS:老...

发表于 05-03 19:26 247次 阅读
求助各位大佬,用labview读取.dat文件,将其转化为文本格式,并只读取其中一个通道。

想成为现代后端开发工程师吗?24步就可以搞定!

今天的网站开发已经大不同以往,有很多的东西会对进入此领域的人造成困惑,这就是我们写这系列文章的原因—....

的头像 马哥Linux运维 发表于 05-02 17:02 1082次 阅读
想成为现代后端开发工程师吗?24步就可以搞定!

Java开发人员必知的20种类库和API,你知道几个

本文总结了日志、JSON解析、单测、XML解析、字节码处理、数据库连接池、集合类、邮件、加密、嵌入式....

发表于 04-20 15:17 923次 阅读
Java开发人员必知的20种类库和API,你知道几个

学习HTML和CSS的5大理由

人们学习HTML和CSS最常见的原因是开始从事web开发。但并不是只有web开发人员才要学习HTML....

发表于 04-12 17:24 681次 阅读
学习HTML和CSS的5大理由

Airbnb内部的AI工具,从图纸到代码一步到位

我从一篇pix2code论文和另一个应用这种方法的相关项目中获得灵感,决定把我的任务按照图像标注方式....

的头像 中国人工智能学会 发表于 04-11 14:29 1248次 阅读
Airbnb内部的AI工具,从图纸到代码一步到位

怎样优化CatBoost参数

CatBoost是由Yandex发布的梯度提升库。在Yandex提供的基准测试中,CatBoost的....

的头像 论智 发表于 04-11 11:28 3171次 阅读
怎样优化CatBoost参数

labview文本控件动态引用背景色更改

各位好              想做一个温度显示的东西,有400个温度需要显示。用数值显示控件来...

发表于 03-16 14:18 652次 阅读
labview文本控件动态引用背景色更改

基于超图的多模态关联特征处理方法

传统的模式识别方法认为特征是相互独立的,容易忽略多模态特征之间多元的关联性,从而造成识别的误差。为此....

发表于 03-07 11:01 206次 阅读
基于超图的多模态关联特征处理方法

在Labview中如何不使用字符串的属性节点--文本--滚动条显示这种方法来滚动显示字符串呢?还有其它方法可以做到吗?

在Labview中如何不使用字符串的属性节点--文本--滚动条显示这种方法来滚动显示字符串呢?还有其它方法可以做到吗?请大家畅所欲...

发表于 02-04 18:59 729次 阅读
在Labview中如何不使用字符串的属性节点--文本--滚动条显示这种方法来滚动显示字符串呢?还有其它方法可以做到吗?

阈值分类器组合的多标签分类算法

针对目标可以同时属于多个类别的多标签分类问题,提出了一种基于浮动阈值分类器组合的多标签分类算法。首先....

发表于 01-22 17:01 110次 阅读
阈值分类器组合的多标签分类算法

多标记学习的分类器圈方法

如何利用标记间关系来提高学习性能,是多标记学习领域的一个重要问题.分类器链方法及其变型是解决这类问题....

发表于 01-22 16:14 89次 阅读
多标记学习的分类器圈方法

基于BP神经网络的LDoS攻击分类器

低速率拒绝服务( LDoS, low-rate denial of service)攻击是一种降质服....

发表于 01-21 10:44 159次 阅读
基于BP神经网络的LDoS攻击分类器

HTML编程技巧及方法+CGI原理和实现介绍

发表于 01-18 14:26 150次 阅读
HTML编程技巧及方法+CGI原理和实现介绍

[新品发布]全球首个百万IOPS云盘来了 阿里云推出超高性能云盘ESSD

摘要: 搭配ECS云服务器使用, ESSD可提供单盘高达100万IOPS的随机读写能力和低至0.1毫秒的单路时延,相比SSD云盘...

发表于 01-17 11:57 902次 阅读
[新品发布]全球首个百万IOPS云盘来了 阿里云推出超高性能云盘ESSD

谷歌探讨了如果分类器不再仅限于微小的改变,最终输出会是什么结果

在这篇论文中,谷歌的研究人员探讨了如果分类器不再仅限于微小的改变,最终输出会是什么结果。

的头像 论智 发表于 01-11 16:28 758次 阅读
谷歌探讨了如果分类器不再仅限于微小的改变,最终输出会是什么结果

JavaScript让HTML静态页面传值的方法

JavaScript让HTML静态页面传值的方法有四种:1、JavaScript通过URL传值。2、....

发表于 01-09 15:24 510次 阅读
JavaScript让HTML静态页面传值的方法

如何使用API提交转码任务?

摘要: 当常规的转码工作流无法满足用户的场景时,需用户自己判断业务逻辑,并使用API提交转码任务。例如:并不是所有的视频都...

发表于 01-05 15:18 670次 阅读
如何使用API提交转码任务?

基于学习分类器的自主地面车在狭隘环境中路径避碰规划

狭隘环境的路径避碰规划是地面自主车(Autonomous Land Vehicle,ALV)自主导航....

发表于 01-05 10:44 240次 阅读
基于学习分类器的自主地面车在狭隘环境中路径避碰规划

矩阵式瀑布分类器高效学习算法

针对矩阵式瀑布分类器学习算法在负样本自举过程中无法快速自举出训练所需的高质量样本,自举过程严重影响整....

发表于 01-04 16:59 113次 阅读
矩阵式瀑布分类器高效学习算法

用于暂稳预测的支持向量机组合分类器及其可信度评估

目前,利用数据挖掘方法进行电力系统暂态稳定分析的研究,所用数据集普遍存在失稳样本少的样本不均衡问题,....

发表于 01-03 15:25 118次 阅读
用于暂稳预测的支持向量机组合分类器及其可信度评估

在用写入文本文件时,有时会出现错误1,有时又不出现,很奇怪,不知道是哪里的问题?

如图所示,在用写入文本文件时,有时会出现错误1,有时又不出现,很奇怪,不知道是哪里的问题。 源程序是CLD-Boiler的文本...

发表于 12-28 16:15 632次 阅读
在用写入文本文件时,有时会出现错误1,有时又不出现,很奇怪,不知道是哪里的问题?

ECS 按量付费VPC实例停机不收费FAQ

摘要: 停机不收费支持范围 目前只支持VPC类型的按量付费的ECS实例,您需要在控制台签署接受停机不收费协议可以开启。开启...

发表于 12-26 15:33 444次 阅读
ECS 按量付费VPC实例停机不收费FAQ

面向复杂时间序列的k近邻分类器

基于时序对齐的K近邻分类器是时间序列分类的基准算法.在实际应用中,同类复杂时间序列经常展现出不同的全....

发表于 12-25 16:37 99次 阅读
面向复杂时间序列的k近邻分类器

vscode开发html的方法_vscode如何用浏览器预览运行html文件

超文本标记语言,标准通用标记语言下的一个应用。“超文本”就是指页面内可以包含图片、链接,甚至音乐、程....

发表于 12-23 12:24 14100次 阅读
vscode开发html的方法_vscode如何用浏览器预览运行html文件

css3实现文字跑马灯(css3跑马灯demo)

css3实现文字跑马灯以及纯css3跑马灯demo,这次demo主要是通过css3中的animati....

发表于 12-18 14:35 3535次 阅读
css3实现文字跑马灯(css3跑马灯demo)

基于免疫克隆特征选择和US集成的二元分类器算法

为解决垃圾网页检测过程中的维数灾难和不平衡分类问题,提出一种基于免疫克隆特征选择和欠采样(US)集成....

发表于 12-15 11:30 91次 阅读
基于免疫克隆特征选择和US集成的二元分类器算法

多分类器融合行为识别模型

为了提高基于智能移动设备的人体日常行为识别准确率,提出一种高可信度加权的多分类器融合行为识别模型( ....

发表于 12-08 17:14 110次 阅读
多分类器融合行为识别模型

基于AdaBoost分类器的交通事故实时预测的方法

传统的道路交通事故预测是对交通事故次数及其造成的损失的历史趋势进行预测,针对其不能反映交通事故与实时....

发表于 12-07 16:11 136次 阅读
基于AdaBoost分类器的交通事故实时预测的方法

三种用于垃圾网页检测的随机欠采样集成分类器

针对垃圾网页检测过程中轻微的不平衡分类问题,提出三种随机欠采样集成分类器算法,分别为一次不放回随机欠....

发表于 12-06 13:46 143次 阅读
三种用于垃圾网页检测的随机欠采样集成分类器

基于级联式分类器的网页分类方法

针对海量网页在线自动高效获取网页分类系统设计中如何更有效地平衡准确度与资源开销之间的矛盾问题,提出一....

发表于 12-05 08:44 68次 阅读
基于级联式分类器的网页分类方法

基于强分类器快速集成方法

针对集成分类器由于基分类器过弱,需要牺牲大量训练时间才能取得高精度的问题,提出一种基于实例的强分类器....

发表于 12-04 16:27 81次 阅读
基于强分类器快速集成方法

怎么把文本转换成数组然后用于计算呢?

怎么把文本转换成数组然后用于计算呢,刚开始啥都不会谢谢了题目如下 l  数据文件(文本文件)的打开与保存(垂向、横...

发表于 11-23 14:33 824次 阅读
怎么把文本转换成数组然后用于计算呢?