0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

网络爬虫的爬行策略

工程师 来源:网络整理 作者:h1654155205.5246 2019-03-21 17:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

网络爬虫的爬行策略

1、PartialPageRank策略

PartialPageRank算法借鉴了PageRank算法的思想:对于已经下载的网页,连同待抓取URL队列中的URL,形成网页集合,计算每个页面的PageRank值,计算完之后,将待抓取URL队列中的URL按照PageRank值的大小排列,并按照该顺序抓取页面。

如果每次抓取一个页面,就重新计算PageRank值,一种折中方案是:每抓取K个页面后,重新计算一次PageRank值。但是这种情况还会有一个问题:对于已经下载下来的页面中分析出的链接,也就是我们之前提到的未知网页那一部分,暂时是没有PageRank值的。为了解决这个问题,会给这些页面一个临时的PageRank值:将这个网页所有入链传递进来的PageRank值进行汇总,这样就形成了该未知页面的PageRank值,从而参与排序。

2、宽度优先遍历策略

宽度优先遍历策略的基本思路是,将新下载网页中发现的链接直接插入待抓取URL队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。

3、大站优先策略

对于待抓取URL队列中的所有网页,根据所属的网站进行分类。对于待下载页面数多的网站,优先下载。这个策略也因此叫做大站优先策略。

4、反向链接数策略

反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此,很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度,从而决定不同网页的抓取先后顺序。

在真实的网络环境中,由于广告链接、作弊链接的存在,反向链接数不能完全等他我那个也的重要程度。因此,搜索引擎往往考虑一些可靠的反向链接数。

5、OPIC策略策略

该算法实际上也是对页面进行一个重要性打分。在算法开始前,给所有页面一个相同的初始现金(cash)。当下载了某个页面P之后,将P的现金分摊给所有从P中分析出的链接,并且将P的现金清空。对于待抓取URL队列中的所有页面按照现金数进行排序。

6、深度优先遍历策略

深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 网络爬虫
    +关注

    关注

    1

    文章

    52

    浏览量

    9107
  • 爬虫
    +关注

    关注

    0

    文章

    87

    浏览量

    7944
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    # 深度解析:爬虫技术获取淘宝商品详情并封装为API的全流程应用

    需求。本文将深入探讨如何借助爬虫技术实现淘宝商品详情的获取,并将其高效封装为API。 一、爬虫技术核心原理与工具 1.1 爬虫运行机制 网络爬虫
    的头像 发表于 11-17 09:29 165次阅读

    从 0 到 1:用 PHP 爬虫优雅地拿下京东商品详情

    PHP 语言 实现一个 可运行的京东商品爬虫 ,不仅能抓取商品标题、价格、图片、评价数,还能应对常见的反爬策略。全文附完整代码, 复制粘贴即可运行 。 一、为什么选择 PHP 做爬虫? 虽然 Python 是
    的头像 发表于 09-23 16:42 561次阅读
    从 0 到 1:用 PHP <b class='flag-5'>爬虫</b>优雅地拿下京东商品详情

    Nginx限流与防爬虫配置方案

    在互联网业务快速发展的今天,网站面临着各种流量冲击和恶意爬虫的威胁。作为运维工程师,我们需要在保证正常用户访问的同时,有效防范恶意流量和爬虫攻击。本文将深入探讨基于Nginx的限流与防爬虫解决方案,从原理到实践,为大家提供一套完
    的头像 发表于 09-09 15:52 648次阅读

    怎样确定分布式光伏集群通信网络的负载均衡策略

    LZ-DZ100电能质量在线监测装 确定分布式光伏集群通信网络的负载均衡策略,需结合集群的网络拓扑、数据特征、设备特性及运行需求,通过 “现状分析→目标设定→策略设计→验证优化” 的流
    的头像 发表于 08-22 10:10 396次阅读
    怎样确定分布式光伏集群通信<b class='flag-5'>网络</b>的负载均衡<b class='flag-5'>策略</b>?

    双三相感应电机SVPWM的新型过调制策略

    。通过仿真和实验验证了所提过调制策略的正确、可行性。 纯分享帖,需要者可点击附件免费获取完整资料~~~*附件:双三相感应电机SVPWM的新型过调制策略.pdf【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字
    发表于 06-19 11:10

    轮毂电机HEV能量管理策略优化研究

    纯分享帖,需要者可点击附件免费获取完整资料~~~*附件:轮毂电机HEV能量管理策略优化研究.pdf【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容!
    发表于 06-10 13:16

    混合励磁同步电机低速大力矩控制策略的研究

    纯分享帖,需要者可点击附件免费获取完整资料~~~*附件:混合励磁同步电机低速大力矩控制策略的研究.pdf【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容!
    发表于 05-29 14:07

    树莓派“复活”我的世界爬行者,现实版“噩梦”机器人诞生!

    关系增添了新意。利用我们喜爱的单板计算机(SBC),Lopez打造了一款依赖于树莓派的爬行者机器人,并且甚至集成了人工智能。别担心,这个爬行者机器人并不会真的爆炸。
    的头像 发表于 05-07 17:31 505次阅读
    树莓派“复活”我的世界<b class='flag-5'>爬行</b>者,现实版“噩梦”机器人诞生!

    高压放大器基于压电驱动的爬行机器人的研究实验

    实验名称:爬行机器人实验与分析 测试目的:实验包括压电驱动器性能测试和爬行机器人单元节运动测试。其中压电驱动器性能测试主要通过激光位移传感器采集压电驱动器在工作电压下的输出特性相关数据,一方面与理论
    的头像 发表于 04-23 10:27 401次阅读
    高压放大器基于压电驱动的<b class='flag-5'>爬行</b>机器人的研究实验

    电机低速运行“爬行”现象的研究

    研究,探讨并努力消除“爬行”现象。纯分享帖,点击附件获取完整资料~~~*附件:电机低速运行“爬行”现象的研究.pdf(免责声明:本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内
    发表于 04-02 14:56

    电机大范围调速的综合电压调制策略

    针对电动汽车要求驱动电机具有大范围调速要求和目前任何单种基本调制方式都无法做到全调制比范围内性能最优的问题,提出了一种综合的调制策略:在低调制比阶段使用传统的SVPWM策略,在高调制比阶段
    发表于 04-01 14:51

    爬虫数据获取实战指南:从入门到高效采集

    爬虫数据获取实战指南:从入门到高效采集     在数字化浪潮中,数据已成为驱动商业增长的核心引擎。无论是市场趋势洞察、竞品动态追踪,还是用户行为分析,爬虫技术都能助你快速捕获目标信息。然而,如何既
    的头像 发表于 03-24 14:08 1254次阅读

    探索网络个性化服务新纪元:深入解析IMEIsv的差异化保障策略

    在当前网络中,如果对所有UE应用相同的RRM(Radio Resource Management)策略,无法满足不同类型UE的不同要求。为了给指定类型UE提供特定的RRM策略,3GPP引入
    的头像 发表于 02-14 16:54 939次阅读
    探索<b class='flag-5'>网络</b>个性化服务新纪元:深入解析IMEIsv的差异化保障<b class='flag-5'>策略</b>

    华纳云企业建立全面的网络安全策略的流程

    企业建立全面的网络安全策略需要从识别面临的网络安全风险开始,包括数据泄露、服务中断和法律诉讼等,并评估这些风险的潜在影响。接着,制定明确的网络安全政策和程序,确保所有员工都能访问和理解这些政策,并按
    的头像 发表于 12-31 15:12 754次阅读

    IP地址数据信息和爬虫拦截的关联

    IP地址数据信息和爬虫拦截的关联主要涉及到两方面的内容,也就是数据信息和爬虫。IP 地址数据信息的内容丰富,包括所属地域、所属网络运营商、访问时间序列、访问频率等。 从IP地址信息中可以窥见
    的头像 发表于 12-23 10:13 676次阅读