张飞软硬开源基于STM32 BLDC直流无刷电机驱动器开发视频套件,👉戳此立抢👈

构建中文网页分类器对网页进行文本分类

电子设计 2018-09-13 08:06 次阅读

网络原指用一个巨大的虚拟画面,把所有东西连接起来,也可以作为动词使用。在计算机领域中,网络就是用物理链路将各个孤立的工作站或主机相连在一起,组成数据链路,从而达到资源共享和通信的目的。凡将地理位置不同,并具有独立功能的多个计算机系统通过通信设备和线路而连接起来,且以功能完善的网络软件(网络协议、信息交换方式及网络操作系统等)实现网络资源共享的系统,可称为计算机网络。网络的迅速发展,使人们不仅面临信息爆炸,同时也面临着如何从浩如烟海的信息中获取自己所需信息的难题。如何有效地组织和处理海量的信息,并过滤和管理网络资源,已成为必须面对的问题。

为了网页信息的有效组织和检索,人们开发了各种网络信息搜索器,在一定程度上确实提高了网络信息的利用率。与文本分类技术相比较,网页分类更加复杂,这是由网页的结构特征决定的,但是网页的信息主要是通过文本的方式向人们传递的,所以在对网页分类之前,首先要对其中的文本进行提取,对所提取的文本分类,最终使网页分类问题转化为文本分类问题。

目前,文本分类技术的研究比较活跃,已经出现了多种文本分类算法,并且被广泛应用于多个领域:信息检索、搜索引擎、文本数据库等。文本分类算法基本是基于概率统计模型,本文就是基于互信息(MI)提出一种改进的特征提取方法,并根据TFIDF提出一种新的特征权值计算方法构建中文网页分类器。

1 网页预处理

网页分类之前首先要进行预处理,实际上就是HTML解析,把解析出来的内容用于文本分类,选取网页中的下面这些文本用于分类:

(1)锚文本。锚文本是网页中用于指示所连接网页内容的提示,由于后面要对提取的文本进行分类,所以只提取文字形式的锚文本。

(2)title文本。这样的文本可能是网页中最重要的标签,必须取得。

(3)meta标签。其重要的功能就是设置关键字,网页的制作者往往都设置了关键字,来提高网页的搜索点击率。可以利用meta标签中的有关文本内容进行网页分类。

(4)主文本。上面这些信息获取之后,网页中剩余的文本信息还在各种HTML标签中,在HTML源文件中,主文本有可能不是连续出现的。主文本一般是网页中文字最集中的较长的字符串,查看源文件,那些比较长的字符串是整个出现在1个标签中的。

文本首先要确定的问题就是表示文本的基本单位,用于表示文本的基本单位通常称为文本的特征或特征项。中文文本不同于英文文本,英文文本以空格为分隔符,非常明确。而中文文本需要对其进行分词处理才能得出每个特征。本文采用中科院计算技术研究所汉语词法分析系统ICTCLAS3.0进行分词。如果把这些对文本分类没有意义的虚词作为特征,将会带来很大噪音,降低文本分类的效率和准确率。因此,在提取文本特征时,应首先考虑剔除这些对文本分类没有用处的虚词,而在实词中,又以名词和动词对于文本的类别特性的表现力最强。

2 特征提取

特征提取就是提取出最能代表某篇文章或某类的特征项,以达到降维的效果从而减少文本分类的计算量。典型特征提取方法:信息增益(Information Gain),互信息(MI)、文档频度(DF)。传统的MI特征提取方法:

文本分类

计算出所有特征词的统计值后,从大到小进行排序,然后根据需要从上到下选取一定数量的特征词构建文本分类的特征词库。

3 特征加权及向量化

TFIDF算法及其改进型[5]有多种公式,本文使用一种新的改进的TF-IDF公式来计算特征词的权重。TF-IDF公式有很多变种,比较常见的TF-IDF公式:

文本分类



  :

收藏 人收藏
分享:

评论

相关推荐

小白前端开发入门之路①:HTML和CSS 纯干货入门经典视频教程(含项目总结)

3天入门前端开发基础  进阶课程持续录制中,请关注后续课程更新
发表于 04-29 00:00 0次 阅读
小白前端开发入门之路①:HTML和CSS 纯干货入门经典视频教程(含项目总结)

深度推荐系统与CTR预估2019年值得精读的论文

FaceBook推荐最新论文,通过建模与系统协同设计提出一种butterfly-shuffle的机制....
的头像 AI科技大本营 发表于 07-13 07:42 211次 阅读
深度推荐系统与CTR预估2019年值得精读的论文

一种机器学习方法可以从一个人的步态中识别人的感知情绪

“情感在我们的生活中扮演着重要的角色,定义着我们的经历,塑造着我们看待世界和与他人互动的方式,”作者....
的头像 新智元 发表于 07-07 07:46 230次 阅读
一种机器学习方法可以从一个人的步态中识别人的感知情绪

HTML的基础知识讲解

HTML 是 Web 统一语言,这些容纳在尖括号里的简单标签,构成了如今的 Web。1991 年,T....
发表于 07-03 16:40 35次 阅读
HTML的基础知识讲解

IE6IE7和Firefox对Div处理有哪些差异

请注意,这里的Style中用到了min-height,这个和height是不同的,min-heigh....
发表于 07-03 16:40 29次 阅读
IE6IE7和Firefox对Div处理有哪些差异

CSS选择器与相关特性的详细资料说明

CSS的定义 层叠样式表(CSS)中的层叠意味着样式会从文档结构中的一个层次传递到另一个层次,其作....
发表于 06-26 16:56 40次 阅读
CSS选择器与相关特性的详细资料说明

精通Django Django1.8LTS全解PDF电子书免费下载

为什么要关注 Django?虽然 Django 不是完成工作唯一的 Web 框架,但是我可以确信一点....
发表于 06-17 08:00 55次 阅读
精通Django Django1.8LTS全解PDF电子书免费下载

Meta标签中的Robots属性应该怎样使用

一、id选择符 根据DOM文档对象模型原理所出现的选择符,对于一个XHTML文件,其中的每一个标签....
发表于 06-13 16:58 34次 阅读
Meta标签中的Robots属性应该怎样使用

如何在XHTML网页中加入CSS详细的五种方式说明

本文档的主要内容详细介绍的是如何在XHTML网页中加入CSS详细的五种方式说明资料免费下载。
发表于 06-13 16:58 73次 阅读
如何在XHTML网页中加入CSS详细的五种方式说明

如何在内存中保存HTML页面?

我正在尝试使用spartan 3E入门套件实现Web服务器。 如何在内存中保存HTML页面? 以上来自于谷歌翻译 以下为原文 ...
发表于 06-11 08:29 27次 阅读
如何在内存中保存HTML页面?

W3C正式放弃发布HTML和DOM标准 并支持浏览器厂商联盟WHATWG

历史性时刻!——近日,W3C正式宣告战败:HTML和DOM标准制定权将全权移交给浏览器厂商联盟WHA....
的头像 人工智能学家 发表于 06-04 10:03 362次 阅读
W3C正式放弃发布HTML和DOM标准 并支持浏览器厂商联盟WHATWG

Source Insight 4.0版本应用程序免费下载

SourceInsight是一个面向项目开发的程序编辑器和代码浏览器,可支持C/C++或Java等多....
发表于 05-21 08:00 71次 阅读
Source Insight 4.0版本应用程序免费下载

开发成功的机器学习应用程序需要一定的“偏方”

澄清说明:分类器与学习器的含义是什么?假设你有训练数据,并使用你构建另一个程序(模型)的程序处理这些....
的头像 电子发烧友网工程师 发表于 05-16 18:18 503次 阅读
开发成功的机器学习应用程序需要一定的“偏方”

是时候搭建属于自己的神经网络了!

对于图像分类问题,Dense层可能是不够的。但我们也可以另辟蹊径!有完整的卷积神经网络可供下载。我们....
的头像 电子发烧友网工程师 发表于 05-16 18:14 518次 阅读
是时候搭建属于自己的神经网络了!

开发成功的机器学习应用程序需要一定的“民间技巧”

似乎我们陷入了困境。幸运的是,我们想要在现实世界中学习的特性并不是从所有数学上可能的函数集中统一绘制....
的头像 人工智能学家 发表于 05-16 14:33 430次 阅读
开发成功的机器学习应用程序需要一定的“民间技巧”

请问Markdown文档插入HTML块有什么好处?

Markdown文档中插入HTML块有什么好处,直接用Markdown的语法不好吗?...
发表于 05-09 07:16 92次 阅读
请问Markdown文档插入HTML块有什么好处?

用于语音情绪识别的基于对抗学习的说话人无关的表示

作者基于本模型和两种训练技巧分别在IEMOCAP数据集和SpeechOcean中文大数据集上做了测试....
的头像 深度学习每日摘要 发表于 05-07 17:59 449次 阅读
用于语音情绪识别的基于对抗学习的说话人无关的表示

前端html的文字水平位置和行高

前端html——文字水平位置  行高   文字样式...
发表于 04-26 07:09 80次 阅读
前端html的文字水平位置和行高

几个常用算法的适应场景及其优缺点!

通常情况下,如果是小训练集,高偏差/低方差的分类器(例如,朴素贝叶斯NB)要比低偏差/高方差大分类的....
的头像 电子发烧友网工程师 发表于 04-24 14:08 1224次 阅读
几个常用算法的适应场景及其优缺点!

深度学习真正可以实现什么,与经典计算机视觉的区别是什么?

看起来他正在用一些随机看的过滤器对每个图像进行卷积,然后使用一些非常奇怪的逻辑,许多“if then....
的头像 新智元 发表于 04-19 10:46 619次 阅读
深度学习真正可以实现什么,与经典计算机视觉的区别是什么?

有没有一个HTML代码可以更改为软AP?

你好,有没有一个HTML代码可以更改为软AP?在演示板项目中,我只看到“软启动即将”按钮。 以上来自于百度翻译 &...
发表于 04-19 08:41 56次 阅读
有没有一个HTML代码可以更改为软AP?

PHP教程之CSS的详细资料简介

本文档的介绍的是PHP教程之CSS的详细资料简介主要内容包括了:1.DHTML简介,2.何为CSS(....
发表于 04-18 17:04 90次 阅读
PHP教程之CSS的详细资料简介

PHP教程之HTML语言基础的详细资料说明

本文档的主要内容详细介绍的是PHP教程之TML语言基础的详细资料说明包括了:1.了解HTML的一些背....
发表于 04-18 17:04 79次 阅读
PHP教程之HTML语言基础的详细资料说明

AD6.9的DRC模板文件丢失了,请哪位朋友发一下你的report_drc.xsl和report_html_drc.xsl

AD6.9的DRC模板文件丢失了,不想再重新安装了,请哪位朋友发一下你的report_drc.xsl和report_html_drc.xsl两个文件,路径是...
发表于 04-18 11:43 295次 阅读
AD6.9的DRC模板文件丢失了,请哪位朋友发一下你的report_drc.xsl和report_html_drc.xsl

怎么使用示例HTML按钮?

我想让我的网页使用HTML按钮打开服务器板上的灯等。我可以使用演示网页来很好地操纵XML、Java和HTML,我看到服务器板...
发表于 04-17 10:00 93次 阅读
怎么使用示例HTML按钮?

剑桥大学的研究人员设计了一个AI“偷听”算法

实验使用的设备Nexus 5和Nexus 9,尺寸分别为137.84mm×69.17mm×8.59m....
的头像 新智元 发表于 04-08 08:46 2559次 阅读
剑桥大学的研究人员设计了一个AI“偷听”算法

新的基于代价敏感集成学习的非平衡数据集分类方法NIBoost

现实生活中存在大量的非 平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对....
发表于 03-28 13:41 85次 阅读
新的基于代价敏感集成学习的非平衡数据集分类方法NIBoost

Python爬虫库中Beautiful Soup库的使用资料说明

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库,简单来说,它....
的头像 马哥Linux运维 发表于 03-24 09:22 1225次 阅读
Python爬虫库中Beautiful Soup库的使用资料说明

必读!生成对抗网络GAN论文TOP 10

这篇 GAN 论文来自 NVIDIA Research,提出以一种渐进增大(progressive ....
的头像 新智元 发表于 03-20 09:02 700次 阅读
必读!生成对抗网络GAN论文TOP 10

基于弱监督学习创建大规模数据集

举个例子,如果我们想识别出与名人相关的内容,一方面可以使用现有的命名实体识别(NER)模型来标注出不....
的头像 将门创投 发表于 03-19 10:18 886次 阅读
基于弱监督学习创建大规模数据集

用多种文本挖掘方法,来分析《全唐诗》

首先,让我们来看看去掉这些虚词之后的全局高频字有哪些,笔者这里展示的是TOP148。“人”字排行第一....
的头像 电子发烧友网工程师 发表于 03-11 16:53 672次 阅读
用多种文本挖掘方法,来分析《全唐诗》

PHP开发网站的全过程技术知识分享资料说明

首先笔者需要申明一点的是,我们不是只用PHP来开发一个完整的网站程序,而是说在服务器端所用的语言是P....
发表于 03-06 17:04 116次 阅读
PHP开发网站的全过程技术知识分享资料说明

PHP教程之PHP动态网页怎么转换成HTML

虽然动态网页相比于静态页面拥有许多优势,但它在搜索引擎的检索上却碰了个大钉子。无论任何一家网站,尤其....
发表于 03-06 11:41 123次 阅读
PHP教程之PHP动态网页怎么转换成HTML

如何进行HTML在线文本编辑器在Java web开发中的使用分析

随着Java web程序应用开发的发展,出现了多种HTML在线文本编辑器,在网站的设计与制作过程中应....
发表于 03-05 16:30 132次 阅读
如何进行HTML在线文本编辑器在Java web开发中的使用分析

PHP和UTF-8乱码问题的解决方法资料分析

PHP乱码问题,UTF-8乱码问题比较常见,通过下面的方法基本上就可以解决php乱码问题了,确实总结....
发表于 02-28 17:59 107次 阅读
PHP和UTF-8乱码问题的解决方法资料分析

如何制作能够分类120种小狗的图像分类器

和之前文章中的两个物种(猫和狗)的分类略有不同,这次使用的数据集全部是狗,需要把这些狗分到不同的类别....
的头像 电子发烧友网工程师 发表于 02-26 09:42 848次 阅读
如何制作能够分类120种小狗的图像分类器

PHP云4.1标签调用大全包含代码的资料免费下载

为了更加方便PHP 云用户使用更加便捷,我们精心给大家整理出:PHP 云标签调用开发文档。用户只要懂....
发表于 02-25 11:52 90次 阅读
PHP云4.1标签调用大全包含代码的资料免费下载

HTML JavaScript的详细资料简介

要想进行Java Web的开发,则必需掌握HTML语言。HTML是目前网络上应用最为广泛的语言,也是....
发表于 02-21 11:11 101次 阅读
HTML JavaScript的详细资料简介

Java Web的开发前奏详细资料免费下载

本文档的详细介绍的是Java Web的开发前奏详细资料免费下载主要内容包括了:1、Java Web开....
发表于 02-21 10:37 117次 阅读
Java Web的开发前奏详细资料免费下载

Java Web的经典面试题和答案资料合集免费下载

1、jsp 和servlet 的 区别、共同点、各自应用的范围?? JSP 是Servlet 技 ....
发表于 02-20 16:48 94次 阅读
Java Web的经典面试题和答案资料合集免费下载

如何使用Java RMI实现动态Web服务的详细资料说明

分析了当前Web服务编程常用的HTML结台CGI编程的构架,并提出了一套基FJava新技术的Web服....
发表于 02-20 15:21 75次 阅读
如何使用Java RMI实现动态Web服务的详细资料说明

从文本(数据)挖掘的角度去“探索”全唐诗

然而,对于古汉语(文言文),尤其是诗词的分词处理可没有这么简单,因为单字词占古汉语词汇统计信息的80....
的头像 悟空智能科技 发表于 02-20 14:23 547次 阅读
从文本(数据)挖掘的角度去“探索”全唐诗

PHP中REQUEST和POST及GET有什么区别

PHP中有$_REQUEST与$_POST、$_GET用于接受表单数据。 一、$_REQUEST与....
发表于 02-19 14:26 80次 阅读
PHP中REQUEST和POST及GET有什么区别

Python文本预处理的基本步骤,讨论文本预处理过程所需要的工具

词性标注旨在基于词语的定义和上下文意义,为给定文本中的每个单词(如名词、动词、形容词和其他单词) 分....
的头像 电子发烧友网工程师 发表于 01-28 09:26 1495次 阅读
Python文本预处理的基本步骤,讨论文本预处理过程所需要的工具

javascript教程之javascript DOM编程艺术中文翻译版免费下载

随着Ajax的兴起,javascript 再一次成为炙手可热的技术。然而,在历史上,它并不是一直这么....
发表于 01-15 08:00 133次 阅读
ja<x>vasc<x>ript教程之ja<x>vasc<x>ript DOM编程艺术中文翻译版免费下载

院士邬贺铨:深度神经网络实际上是个分类器

在语音识别方面,人工智能已经超过了人,一般人类语音识别的错误率是5.1%,现在百度对汉语的语音识别,....
的头像 电子发烧友网工程师 发表于 01-06 11:12 3076次 阅读
院士邬贺铨:深度神经网络实际上是个分类器

如何正确建立自己的机器学习项目集

Alex 选择通过构建实用项目来学习。他决定建立一个分类器,以检测战斗机飞行员是否在飞机上失去意识。....
的头像 电子发烧友网工程师 发表于 12-31 11:58 597次 阅读
如何正确建立自己的机器学习项目集

物联云实验平台指导使用手册资料免费下载

了解物联云平台(简称Hoit Cloud),学习了解此平台模板批量生成设备、控制设备、查看设备数据、....
发表于 12-28 08:00 165次 阅读
物联云实验平台指导使用手册资料免费下载

Java知识点的复习题和答案资料总结免费下载

本文档的主要内容详细介绍的是Java知识点的复习题和答案资料总结免费下载。
发表于 12-20 10:37 191次 阅读
Java知识点的复习题和答案资料总结免费下载

如何使用代表的留一法进行集成学习的分类

为应对抽样不均匀带来的影响,以基于代表的分类算法为基础,提出一种用于符号型数据分类的留一法集成学习分....
发表于 12-14 10:54 166次 阅读
如何使用代表的留一法进行集成学习的分类

一文览尽Facebook人工智能研究院历年重要成果

在 2014 年,FAIR 的研究人员发现了神经网络的一个本质缺陷——长期记忆。虽然大家都知道神经网....
的头像 人工智能学家 发表于 12-10 14:40 870次 阅读
一文览尽Facebook人工智能研究院历年重要成果

如何在您自己的图像上运行示例脚本,并对您有助于控制训练过程的一些选项作进一步解释

任何训练在开始之前,需要一组图像来向网络传授您想要识别的新类别。本文后半部分会介绍该如何准备自己的图....
的头像 TensorFlow 发表于 11-22 14:52 944次 阅读
如何在您自己的图像上运行示例脚本,并对您有助于控制训练过程的一些选项作进一步解释

tomcat8教程和资料合集免费下载

Tomcat 服务器是一个免费的开放源代码的Web 应用服务器,属于轻量级应用服务器,在中小型系统和....
发表于 11-21 08:00 113次 阅读
tomcat8教程和资料合集免费下载

开发者圆桌会议:HTML5误解

开发者圆桌会议:HTML5误解
的头像 英特尔 Altera视频 发表于 11-15 06:46 606次 观看
开发者圆桌会议:HTML5误解

使用英特尔XDK工具构建HTML5应用程序

英特尔®XDK是一个跨平台的HTML5工具,使开发人员能够在Android,iOS和其他平台上设计,....
的头像 英特尔 Altera视频 发表于 11-12 06:59 415次 观看
使用英特尔XDK工具构建HTML5应用程序

英特尔和HTML5中心:原生还在打HTML5吗

英特尔和HTML5中心:思想的食物 - 第2集 - 原生还在打HTML5吗?
的头像 英特尔 Altera视频 发表于 11-07 06:35 725次 观看
英特尔和HTML5中心:原生还在打HTML5吗

开发人员圆桌会议:HTML5何时是开发应用程序的正确选择

我们与一些了不起的开发人员合作,为您带来他们对HTML5和网络未来的看法。 在我们最新的HTML5....
的头像 英特尔 Altera视频 发表于 11-06 07:21 432次 观看
开发人员圆桌会议:HTML5何时是开发应用程序的正确选择

是否可以在发现板的LCD显示屏上显示HTML页面?

首先,我的目的是制作一个带有几个虚拟按钮的简单网页来控制PWM信号。我的主板是STM32F429I-DISCOVERY,带有S...
发表于 09-30 10:38 971次 阅读
是否可以在发现板的LCD显示屏上显示HTML页面?

如何在TextFieldWidget上使用OnFocus事件?

您好,我使用的是和声2.06,当文本字段被聚焦时,我想让它成为一个小键盘小部件。有人能帮我吗?谢谢你 以上来自于百度翻译...
发表于 09-07 15:08 290次 阅读
如何在TextFieldWidget上使用OnFocus事件?

labview抓取网页的数据和卖家库存采集工具mshtml应用

之前发过一个文件,但是上传错误了,所以这一次补上,也算为论坛做贡献。 今天虽然没有从事原来的技术开发工作,也没有使用la...
发表于 08-14 10:47 1232次 阅读
labview抓取网页的数据和卖家库存采集工具mshtml应用

labview读取本地HTML文件代码,右键使用TXT格式打开,会显示源代码,请问labview怎么实现读取html文件中的这串数据?

HTML格式的文件存于本地,右键使用TXT格式打开,会显示源代码。 类似margin: 6px;padding: 0px;font-family: Verdana, ...
发表于 05-28 11:57 1269次 阅读
labview读取本地HTML文件代码,右键使用TXT格式打开,会显示源代码,请问labview怎么实现读取html文件中的这串数据?