构建中文网页分类器对网页进行文本分类

电子设计 2018-09-13 08:06 次阅读

网络原指用一个巨大的虚拟画面,把所有东西连接起来,也可以作为动词使用。在计算机领域中,网络就是用物理链路将各个孤立的工作站或主机相连在一起,组成数据链路,从而达到资源共享和通信的目的。凡将地理位置不同,并具有独立功能的多个计算机系统通过通信设备和线路而连接起来,且以功能完善的网络软件(网络协议、信息交换方式及网络操作系统等)实现网络资源共享的系统,可称为计算机网络。网络的迅速发展,使人们不仅面临信息爆炸,同时也面临着如何从浩如烟海的信息中获取自己所需信息的难题。如何有效地组织和处理海量的信息,并过滤和管理网络资源,已成为必须面对的问题。

为了网页信息的有效组织和检索,人们开发了各种网络信息搜索器,在一定程度上确实提高了网络信息的利用率。与文本分类技术相比较,网页分类更加复杂,这是由网页的结构特征决定的,但是网页的信息主要是通过文本的方式向人们传递的,所以在对网页分类之前,首先要对其中的文本进行提取,对所提取的文本分类,最终使网页分类问题转化为文本分类问题。

目前,文本分类技术的研究比较活跃,已经出现了多种文本分类算法,并且被广泛应用于多个领域:信息检索、搜索引擎、文本数据库等。文本分类算法基本是基于概率统计模型,本文就是基于互信息(MI)提出一种改进的特征提取方法,并根据TFIDF提出一种新的特征权值计算方法构建中文网页分类器。

1 网页预处理

网页分类之前首先要进行预处理,实际上就是HTML解析,把解析出来的内容用于文本分类,选取网页中的下面这些文本用于分类:

(1)锚文本。锚文本是网页中用于指示所连接网页内容的提示,由于后面要对提取的文本进行分类,所以只提取文字形式的锚文本。

(2)title文本。这样的文本可能是网页中最重要的标签,必须取得。

(3)meta标签。其重要的功能就是设置关键字,网页的制作者往往都设置了关键字,来提高网页的搜索点击率。可以利用meta标签中的有关文本内容进行网页分类。

(4)主文本。上面这些信息获取之后,网页中剩余的文本信息还在各种HTML标签中,在HTML源文件中,主文本有可能不是连续出现的。主文本一般是网页中文字最集中的较长的字符串,查看源文件,那些比较长的字符串是整个出现在1个标签中的。

文本首先要确定的问题就是表示文本的基本单位,用于表示文本的基本单位通常称为文本的特征或特征项。中文文本不同于英文文本,英文文本以空格为分隔符,非常明确。而中文文本需要对其进行分词处理才能得出每个特征。本文采用中科院计算技术研究所汉语词法分析系统ICTCLAS3.0进行分词。如果把这些对文本分类没有意义的虚词作为特征,将会带来很大噪音,降低文本分类的效率和准确率。因此,在提取文本特征时,应首先考虑剔除这些对文本分类没有用处的虚词,而在实词中,又以名词和动词对于文本的类别特性的表现力最强。

2 特征提取

特征提取就是提取出最能代表某篇文章或某类的特征项,以达到降维的效果从而减少文本分类的计算量。典型特征提取方法:信息增益(Information Gain),互信息(MI)、文档频度(DF)。传统的MI特征提取方法:

文本分类

计算出所有特征词的统计值后,从大到小进行排序,然后根据需要从上到下选取一定数量的特征词构建文本分类的特征词库。

3 特征加权及向量化

TFIDF算法及其改进型[5]有多种公式,本文使用一种新的改进的TF-IDF公式来计算特征词的权重。TF-IDF公式有很多变种,比较常见的TF-IDF公式:

文本分类



  :

收藏 人收藏
分享:

评论

相关推荐

开发者圆桌会议:HTML5误解

开发者圆桌会议:HTML5误解

的头像 英特尔 Altera视频 发表于 11-15 06:46 33次 观看
开发者圆桌会议:HTML5误解

使用英特尔XDK工具构建HTML5应用程序

英特尔®XDK是一个跨平台的HTML5工具,使开发人员能够在Android,iOS和其他平台上设计,....

的头像 英特尔 Altera视频 发表于 11-12 06:59 49次 观看
使用英特尔XDK工具构建HTML5应用程序

开发者圆桌会议:HTML5面临的最大挑战是什么

我们与一些了不起的开发人员合作,为您带来他们对HTML5和网络未来的看法。

的头像 英特尔 Altera视频 发表于 11-12 06:51 37次 观看
开发者圆桌会议:HTML5面临的最大挑战是什么

英特尔和HTML5中心:原生还在打HTML5吗

英特尔和HTML5中心:思想的食物 - 第2集 - 原生还在打HTML5吗?

的头像 英特尔 Altera视频 发表于 11-07 06:35 72次 观看
英特尔和HTML5中心:原生还在打HTML5吗

WEB应用安全领域的现状与应用研究

随着互联网的发展,金融网上交易、政府电子政务、企业门户网站、社区论坛、电子商务等各类基于HTML文件....

的头像 电子设计 发表于 11-06 08:08 257次 阅读
WEB应用安全领域的现状与应用研究

开发人员圆桌会议:HTML5何时是开发应用程序的正确选择

我们与一些了不起的开发人员合作,为您带来他们对HTML5和网络未来的看法。 在我们最新的HTML5....

的头像 英特尔 Altera视频 发表于 11-06 07:21 73次 观看
开发人员圆桌会议:HTML5何时是开发应用程序的正确选择

如何让分类器预测目标是否为“背景”的概率

我有一种能显著改善这种情况的方法:不让背景类别学习特征,只让它学习一种可训练变量,即它的logit。....

的头像 论智 发表于 10-24 09:01 632次 阅读
如何让分类器预测目标是否为“背景”的概率

英特尔软件创新者Peach Pellen

Peach Pellen CTO of Black Gate Games and an Intel®....

的头像 英特尔 Altera视频 发表于 10-23 06:10 63次 观看
英特尔软件创新者Peach Pellen

面对未知分类的图像,如何改进分类器、如何克服这个问题呢?

在实际的应用程序中,从整体上帮助解决该问题的主要策略是:将模型的适用范围限制在「应用程序将面对的物体....

的头像 中国人工智能学会 发表于 10-19 16:24 424次 阅读
面对未知分类的图像,如何改进分类器、如何克服这个问题呢?

如何利用两种机器学习的方法——逻辑回归和朴素贝叶斯分类器

特征工程是不一个简单的技能,它更像是复杂的艺术形式。 它包含了考虑数据集和域的过程,选择对于模型最有....

的头像 电子发烧友网工程师 发表于 10-04 09:34 1122次 阅读
如何利用两种机器学习的方法——逻辑回归和朴素贝叶斯分类器

java教程之Swing用户界面组件的详细资料介绍免费下载

在Java语言中,有两个Swing组件用于得到文本输入:文本域(JTextField)和文本区(JT....

发表于 09-28 17:15 61次 阅读
java教程之Swing用户界面组件的详细资料介绍免费下载

解决二分类问题的算法——AdaBoost算法

从上述问题的角度出发,集成学习分为两类流派:Bagging与Boosting。Bagging(Boo....

的头像 人工智能爱好者社区 发表于 09-23 10:02 412次 阅读
解决二分类问题的算法——AdaBoost算法

AUC是否可以直接用作损失函数去优化呢?

TP(true positive):表示样本的真实类别为正,最后预测得到的结果也为正;FP(fals....

的头像 人工智能爱好者社区 发表于 09-11 10:03 636次 阅读
AUC是否可以直接用作损失函数去优化呢?

如何在TextFieldWidget上使用OnFocus事件?

您好,我使用的是和声2.06,当文本字段被聚焦时,我想让它成为一个小键盘小部件。有人能帮我吗?谢谢你 以上来自于百度翻译...

发表于 09-07 15:08 83次 阅读
如何在TextFieldWidget上使用OnFocus事件?

FDDC大赛见证了AI将如何改变资产管理的未来

最终,来自武汉大学计算机学院软件工程实验室的Alassea lome团队,将预测误差降低至7%,获得....

的头像 新智元 发表于 09-07 09:37 744次 阅读
FDDC大赛见证了AI将如何改变资产管理的未来

响应式布局教程之响应式开发视频教程免费下载

本文档的主要内容是响应式布局教程之响应式开发视频教程免费下载课程视频包括了:第1章 前期准备,第2章....

发表于 08-28 14:41 75次 阅读
响应式布局教程之响应式开发视频教程免费下载

斯坦福CSS 229系统的整理,学习ML的“掌上备忘录

损失函数—一个损失函数可表示为L:(z,y)∈R×Y⟼L(z,y)∈R,它将与实际数据值y对应的预测....

的头像 新智元 发表于 08-27 09:13 573次 阅读
斯坦福CSS 229系统的整理,学习ML的“掌上备忘录

如何画roc曲线?为什么使用Roc和Auc评价分类器?

假设已经得出一系列样本被划分为正类的概率,然后按照大小排序,下图是一个示例,图中共有20个测试样本,....

的头像 Imagination Tech 发表于 08-22 14:47 710次 阅读
如何画roc曲线?为什么使用Roc和Auc评价分类器?

解析html工具应用程序免费下载

本文档的主要内容详细介绍的是解析html工具应用程序免费下载。

发表于 08-14 17:43 73次 阅读
解析html工具应用程序免费下载

SAN基于卷积自动编码器进行受限优化:最大化某一分类器表现的同时最小化另一分类器表现

正如我们的BTAS 2018论文提到的,我们最近致力于通过增强数据集等措施改善原SAN模型的概括性表....

的头像 论智 发表于 08-11 09:18 762次 阅读
SAN基于卷积自动编码器进行受限优化:最大化某一分类器表现的同时最小化另一分类器表现

引入Mask R-CNN思想通过语义分割进行任意形状文本检测与识别

网络架构由四部分组成,骨干网feature pyramid network (FPN) ,文本候选....

的头像 电子发烧友网工程师 发表于 08-07 14:24 1154次 阅读
引入Mask R-CNN思想通过语义分割进行任意形状文本检测与识别

利用LSTM网络结构将车辆过去的位置包含到预测算法中

基于机器学习的算法为这个问题创建了一个数学模型:给定与车辆相关的特征作为输入,车辆的变道意图作为输出....

的头像 智车科技 发表于 08-01 10:51 1402次 阅读
利用LSTM网络结构将车辆过去的位置包含到预测算法中

机器学习开发者如何寻找满足自己需求的第三方库?

作为第一个例子,让我们看一下可以用来训练图像分类器的技术,仅从少量训练数据开始。现代图像识别模型具有....

的头像 TensorFlow 发表于 07-31 15:34 617次 阅读
机器学习开发者如何寻找满足自己需求的第三方库?

一些解决文本分类问题的机器学习最佳实践

文本分类是一种应用广泛的算法,它是各种用于大规模处理文本数据的软件系统的核心,常被用于帮助电子邮箱过....

的头像 论智 发表于 07-31 09:28 1380次 阅读
一些解决文本分类问题的机器学习最佳实践

如何从HTML或XML文件中提取数据的Python爬虫库Beautiful Soup概述

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库,简单来说,它....

的头像 马哥Linux运维 发表于 07-29 09:56 1210次 阅读
如何从HTML或XML文件中提取数据的Python爬虫库Beautiful Soup概述

机器学习实用指南——集成学习和随机森林

本章讨论的最后一个集成方法叫做 Stacking(stacked generalization 的缩....

的头像 人工智能爱好者社区 发表于 07-27 17:40 677次 阅读
机器学习实用指南——集成学习和随机森林

由一只小猫带咱们走进深度学习的世界吧!

训练一个分类器: 这步可以说是很核心的一步,分类器的效果好坏决定了我们最终应用的效果,深度学习之所以....

的头像 人工智能头条 发表于 07-27 17:35 666次 阅读
由一只小猫带咱们走进深度学习的世界吧!

机器学习问题和知识点

上式中,分子部分表示真实值与预测值的平方差之和,类似于均方差 MSE;分母部分表示真实值与均值的平方....

的头像 电子发烧友网工程师 发表于 07-22 09:37 599次 阅读
机器学习问题和知识点

随机贴片与随机子空间

最后,如果你观察一个单一决策树,重要的特征会出现在更靠近根部的位置,而不重要的特征会经常出现在靠近叶....

的头像 人工智能爱好者社区 发表于 07-20 16:14 490次 阅读
随机贴片与随机子空间

集成学习和随机森林,提供代码实现

令人惊奇的是这种投票分类器得出的结果经常会比集成中最好的一个分类器结果更好。事实上,即使每一个分类器....

的头像 人工智能爱好者社区 发表于 07-17 17:07 804次 阅读
集成学习和随机森林,提供代码实现

线性SVM分类器通过简单地计算决策函数

虚线表示的是那些决策函数等于 1 或 -1 的点:它们平行,且到决策边界的距离相等,形成一个间隔。训....

的头像 人工智能爱好者社区 发表于 07-12 15:19 558次 阅读
线性SVM分类器通过简单地计算决策函数

线性SVM分类器通过简单地计算决策函数

虚线表示的是那些决策函数等于 1 或 -1 的点:它们平行,且到决策边界的距离相等,形成一个间隔。训....

的头像 人工智能爱好者社区 发表于 07-12 15:19 761次 阅读
线性SVM分类器通过简单地计算决策函数

图像分类中的一个常见问题

解决实际应用中此类问题的主要思想就是限制模型的使用场景,这样对目标物体的预测假设就会匹配训练数据。一....

的头像 论智 发表于 07-11 09:16 585次 阅读
图像分类中的一个常见问题

基于镜像构建关于θ的函数,过拟合和L2正则化

在线性分类问题中,我们一般认为对抗性扰动就是高维空间中的点积。对此,一种非常普遍的说法是:我们可以在....

的头像 论智 发表于 07-09 08:41 2593次 阅读
基于镜像构建关于θ的函数,过拟合和L2正则化

一种全新的基于旋转的框架,能对自然场景中任意方向的文字进行检测辨认

最近一些研究提出了针对随机方向文本的检测方法,总的来说,这些方法大致包括两个步骤:分割网络(全卷积网....

的头像 论智 发表于 07-08 09:30 977次 阅读
一种全新的基于旋转的框架,能对自然场景中任意方向的文字进行检测辨认

卷积神经网络的介绍和应用用欧姆蛋来详细介绍

关于卷积神经网络从交通灯识别到更实际的应用,我经常听到这样一个问题:“会否出现一种深度学习“魔法”,....

的头像 人工智能头条 发表于 07-01 10:13 2361次 阅读
卷积神经网络的介绍和应用用欧姆蛋来详细介绍

机器学习实用指南——准确率与召回率

受试者工作特征(ROC)曲线是另一个二分类器常用的工具。它非常类似与准确率/召回率曲线,但不是画出准....

的头像 人工智能爱好者社区 发表于 06-19 15:20 2599次 阅读
机器学习实用指南——准确率与召回率

通过html控件读取网页数据的控件在哪里?

如下图所示有3个html的控件,请问在哪里能找到?在activeX里找到了Microsoft HTML Object Library Version 4.0,以及类...

发表于 06-13 16:54 806次 阅读
通过html控件读取网页数据的控件在哪里?

Dreamweaver 死了 页面可视化搭建工具仍旧历久弥新

为什么从前端开发角度会说页面是 HTMLTree + Data? 举一个常见场景来说明: 在开发新页....

发表于 06-04 05:52 5522次 阅读
Dreamweaver 死了 页面可视化搭建工具仍旧历久弥新

求助各位大佬,用labview读取.dat文件,将其转化为文本格式,并只读取其中一个通道。

labview读取.dat文件,要将其转化成文本格式出波形图,由于我的是脑电数据,具有256个通道,老师让我读取其中一个通道(PS:老...

发表于 05-03 19:26 344次 阅读
求助各位大佬,用labview读取.dat文件,将其转化为文本格式,并只读取其中一个通道。

想成为现代后端开发工程师吗?24步就可以搞定!

今天的网站开发已经大不同以往,有很多的东西会对进入此领域的人造成困惑,这就是我们写这系列文章的原因—....

的头像 马哥Linux运维 发表于 05-02 17:02 1237次 阅读
想成为现代后端开发工程师吗?24步就可以搞定!

Java开发人员必知的20种类库和API,你知道几个

本文总结了日志、JSON解析、单测、XML解析、字节码处理、数据库连接池、集合类、邮件、加密、嵌入式....

发表于 04-20 15:17 1228次 阅读
Java开发人员必知的20种类库和API,你知道几个

学习HTML和CSS的5大理由

人们学习HTML和CSS最常见的原因是开始从事web开发。但并不是只有web开发人员才要学习HTML....

发表于 04-12 17:24 871次 阅读
学习HTML和CSS的5大理由

Airbnb内部的AI工具,从图纸到代码一步到位

我从一篇pix2code论文和另一个应用这种方法的相关项目中获得灵感,决定把我的任务按照图像标注方式....

的头像 中国人工智能学会 发表于 04-11 14:29 1505次 阅读
Airbnb内部的AI工具,从图纸到代码一步到位

怎样优化CatBoost参数

CatBoost是由Yandex发布的梯度提升库。在Yandex提供的基准测试中,CatBoost的....

的头像 论智 发表于 04-11 11:28 4127次 阅读
怎样优化CatBoost参数

labview文本控件动态引用背景色更改

各位好              想做一个温度显示的东西,有400个温度需要显示。用数值显示控件来...

发表于 03-16 14:18 913次 阅读
labview文本控件动态引用背景色更改

基于超图的多模态关联特征处理方法

传统的模式识别方法认为特征是相互独立的,容易忽略多模态特征之间多元的关联性,从而造成识别的误差。为此....

发表于 03-07 11:01 231次 阅读
基于超图的多模态关联特征处理方法

在Labview中如何不使用字符串的属性节点--文本--滚动条显示这种方法来滚动显示字符串呢?还有其它方法可以做到吗?

在Labview中如何不使用字符串的属性节点--文本--滚动条显示这种方法来滚动显示字符串呢?还有其它方法可以做到吗?请大家畅所欲...

发表于 02-04 18:59 829次 阅读
在Labview中如何不使用字符串的属性节点--文本--滚动条显示这种方法来滚动显示字符串呢?还有其它方法可以做到吗?

阈值分类器组合的多标签分类算法

针对目标可以同时属于多个类别的多标签分类问题,提出了一种基于浮动阈值分类器组合的多标签分类算法。首先....

发表于 01-22 17:01 139次 阅读
阈值分类器组合的多标签分类算法

多标记学习的分类器圈方法

如何利用标记间关系来提高学习性能,是多标记学习领域的一个重要问题.分类器链方法及其变型是解决这类问题....

发表于 01-22 16:14 105次 阅读
多标记学习的分类器圈方法

基于BP神经网络的LDoS攻击分类器

低速率拒绝服务( LDoS, low-rate denial of service)攻击是一种降质服....

发表于 01-21 10:44 197次 阅读
基于BP神经网络的LDoS攻击分类器

HTML编程技巧及方法+CGI原理和实现介绍

发表于 01-18 14:26 193次 阅读
HTML编程技巧及方法+CGI原理和实现介绍

[新品发布]全球首个百万IOPS云盘来了 阿里云推出超高性能云盘ESSD

摘要: 搭配ECS云服务器使用, ESSD可提供单盘高达100万IOPS的随机读写能力和低至0.1毫秒的单路时延,相比SSD云盘...

发表于 01-17 11:57 1004次 阅读
[新品发布]全球首个百万IOPS云盘来了 阿里云推出超高性能云盘ESSD

谷歌探讨了如果分类器不再仅限于微小的改变,最终输出会是什么结果

在这篇论文中,谷歌的研究人员探讨了如果分类器不再仅限于微小的改变,最终输出会是什么结果。

的头像 论智 发表于 01-11 16:28 854次 阅读
谷歌探讨了如果分类器不再仅限于微小的改变,最终输出会是什么结果

JavaScript让HTML静态页面传值的方法

JavaScript让HTML静态页面传值的方法有四种:1、JavaScript通过URL传值。2、....

发表于 01-09 15:24 651次 阅读
JavaScript让HTML静态页面传值的方法

如何使用API提交转码任务?

摘要: 当常规的转码工作流无法满足用户的场景时,需用户自己判断业务逻辑,并使用API提交转码任务。例如:并不是所有的视频都...

发表于 01-05 15:18 755次 阅读
如何使用API提交转码任务?

基于学习分类器的自主地面车在狭隘环境中路径避碰规划

狭隘环境的路径避碰规划是地面自主车(Autonomous Land Vehicle,ALV)自主导航....

发表于 01-05 10:44 258次 阅读
基于学习分类器的自主地面车在狭隘环境中路径避碰规划

在用写入文本文件时,有时会出现错误1,有时又不出现,很奇怪,不知道是哪里的问题?

如图所示,在用写入文本文件时,有时会出现错误1,有时又不出现,很奇怪,不知道是哪里的问题。 源程序是CLD-Boiler的文本...

发表于 12-28 16:15 743次 阅读
在用写入文本文件时,有时会出现错误1,有时又不出现,很奇怪,不知道是哪里的问题?

ECS 按量付费VPC实例停机不收费FAQ

摘要: 停机不收费支持范围 目前只支持VPC类型的按量付费的ECS实例,您需要在控制台签署接受停机不收费协议可以开启。开启...

发表于 12-26 15:33 525次 阅读
ECS 按量付费VPC实例停机不收费FAQ

怎么把文本转换成数组然后用于计算呢?

怎么把文本转换成数组然后用于计算呢,刚开始啥都不会谢谢了题目如下 l  数据文件(文本文件)的打开与保存(垂向、横...

发表于 11-23 14:33 923次 阅读
怎么把文本转换成数组然后用于计算呢?