0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

网络爬虫分几类

工程师 来源:网络整理 作者:h1654155205.5246 2019-03-21 17:18 次阅读

网络爬虫

网络爬虫又名“网络蜘蛛”,是通过网页的链接地址来寻找网页,从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到按照某种策略把互联网上所有的网页都抓取完为止的技术。

网络爬虫分几类

1、通用Web爬虫

通用网络爬虫所爬取的目标数据是巨大的,并且爬行的范围也是非常大的,正是由于其爬取的数据是海量数据,故而对于这类爬虫来说,其爬取的性能要求是非常高的。这种网络爬虫主要应用于大型搜索引擎中,有非常高的应用价值。或者应用于大型数据提供商。

2、聚焦网络爬虫

聚焦网络爬虫是按照预先定义好的主题有选择地进行网页爬取的一种爬虫,聚焦网络爬虫不像通用网络爬虫一样将目标资源定位在全互联网中,而是将爬取的目标网页定位在与主题相关的页面中,此时,可以大大节省爬虫爬取时所需的带宽资源和服务器资源。聚焦网络爬虫主要应用在对特定信息的爬取中,主要为某一类特定的人群提供服务。

3、增量Web爬虫

增量式网络爬虫,在爬取网页的时候,只爬取内容发生变化的网页或者新产生的网页,对于未发生内容变化的网页,则不会爬取。增量式网络爬虫在一定程度上能够保证所爬取的页面,尽可能是新页面。

4、深层网络爬虫

在互联网中,网页按存在方式分类,可以分为表层页面和深层页面。所谓的表层页面,指的是不需要提交表单,使用静态的链接就能够到达的静态页面;而深层页面则隐藏在表单后面,不能通过静态链接直接获取,是需要提交一定的关键词之后才能够获取得到的页面。在互联网中,深层页面的数量往往比表层页面的数量要多很多,故而,我们需要想办法爬取深层页面。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 网络爬虫
    +关注

    关注

    1

    文章

    50

    浏览量

    8583
  • 爬虫
    +关注

    关注

    0

    文章

    77

    浏览量

    6514
收藏 人收藏

    评论

    相关推荐

    光伏储能系统有哪几类

    光伏储能系统根据其应用场景和功能需求可以分为几类,每一类都有其特定的用途和特点。
    的头像 发表于 04-22 17:02 96次阅读

    8芯双绞线是几类线

    8芯双绞线,也被称为8芯网线,是一种常见的网络传输介质,主要用于连接计算机、路由器、交换机等网络设备以实现数据传输和网络通信。根据线芯的绞合方式、绝缘材料和带宽等参数的不同,8芯双绞线可以分为
    的头像 发表于 04-01 10:21 309次阅读

    全球新闻网封锁OpenAI和谷歌AI爬虫

    分析结果显示,至2023年底,超半数(57%)的传统印刷媒体如《纽约时报》等已关闭OpenAI爬虫,反之电视广播以及数字原生媒体相应地分别为48%和31%。而对于谷歌人工智能爬虫,32%的印刷媒体采取相同措施,电视广播和数字原生媒体的比率分别为19%和17%。
    的头像 发表于 02-27 15:31 241次阅读

    如何解决Python爬虫中文乱码问题?Python爬虫中文乱码的解决方法

    如何解决Python爬虫中文乱码问题?Python爬虫中文乱码的解决方法 在Python爬虫过程中,遇到中文乱码问题是常见的情况。乱码问题主要是由于编码不一致所导致的,下面我将详细介绍如何解
    的头像 发表于 01-12 15:11 496次阅读

    怎么看自己的网线是几类的路由器

    稳定性和速度的重要因素之一。本文将详细介绍如何确定自己的网络线路是几类并如何选择适合的路由器。 一、了解不同网络线路类型的背景知识 网络线路类别:
    的头像 发表于 12-22 14:02 687次阅读

    怎么判断家里的网线是几类线?

    怎么判断家里的网线是几类线? 判断家里的网线是几类线,可以通过以下几个步骤和线缆特征进行检查和确定。 第一部分:了解网络线缆及分类 网络线缆是用于在计算机
    的头像 发表于 12-07 15:29 1196次阅读

    爬虫的基本工作原理 用Scrapy实现一个简单的爬虫

    数以万亿的网页通过链接构成了互联网,爬虫的工作就是从这数以万亿的网页中爬取需要的网页,从网页中采集内容并形成结构化的数据。
    的头像 发表于 12-03 11:45 482次阅读
    <b class='flag-5'>爬虫</b>的基本工作原理 用Scrapy实现一个简单的<b class='flag-5'>爬虫</b>

    Python网络爬虫Selenium的简单使用

    想要学习爬虫,如果比较详细的了解web开发的前端知识会更加容易上手,时间不够充裕,仅仅了解html的相关知识也是够用的。
    的头像 发表于 11-14 14:44 221次阅读
    Python<b class='flag-5'>网络</b><b class='flag-5'>爬虫</b>Selenium的简单使用

    如何看待Python爬虫的合法性?

    Python爬虫是一种自动化程序,可以从互联网上获取信息并提取数据。通过模拟网页浏览器的行为,爬虫可以访问网页、抓取数据、解析内容,并将其保存到本地或用于进一步分析
    的头像 发表于 11-14 10:35 246次阅读

    怎么判断网线是几类网线

    可以通过以下方法来判断是几类网线: 标识:在网线的绝缘胶皮上印有网线的品牌、种类等信息,可以通过外皮上印有的标识区分。CAT5是五类网线,CAT 5E是超五类网线,CAT6是六类网线,CTA后面
    的头像 发表于 11-06 10:09 4613次阅读

    crawlerdetect:Python 三行代码检测爬虫

    是否担心高频率爬虫导致网站瘫痪? 别担心,现在有一个Python写的神器——crawlerdetect,帮助你检测爬虫,保障网站的正常运转。 1.准备 开始之前,你要确保Python和pip已经成功
    的头像 发表于 11-02 11:31 283次阅读

    feapder:一款功能强大的爬虫框架

    今天推荐一款更加简单、轻量级,且功能强大的爬虫框架:feapder 项目地址: https://github.com/Boris-code/feapder 2. 介绍及安装 和 Scrapy 类似
    的头像 发表于 11-01 09:48 623次阅读

    网络爬虫 Python和数据分析

    网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的
    发表于 09-25 08:25

    热敏电阻可分为哪几类

    热敏电阻可分为哪几类 热敏电阻是一种用于测量温度的电阻器件。它的电阻值随着温度的变化而变化,因此可以通过测量它的电阻值来确定温度。热敏电阻的应用非常广泛,例如温度控制、温度补偿、温度检测和过热保护
    的头像 发表于 09-08 10:44 2020次阅读

    怎么看网线是几类线?教你几招

    为了满足大家对网络的需求,目前网线的种类很多,常见的有五类网线、六类和超六类网线,对于怎么看网线是几类线,科兰小编觉得有以下几种方法。 怎么看网线是几类线? 1.如果是整箱网线,网线的包装箱上都有
    的头像 发表于 06-25 11:14 3.8w次阅读
    怎么看网线是<b class='flag-5'>几类</b>线?教你几招