网络爬虫的基本工作流程
通用网络爬虫根据预先设定的一个或若干初始种子URL开始,以此获得初始网页上的URL列表,在爬行过程中不断从URL队列中获一个的URL,进而访问并下载该页面。页面下载后页面解析器去掉页面上的HTML标记后得到页面内容,将摘要、URL等信息保存到Web数据库中,同时抽取当前页面上新的URL,保存到URL队列,直到满足系统停止条件。其工作流程如图1所示。

主题爬虫工作流程
主题爬虫需要根据一定的网页分析算法,过滤掉与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它会根据一定的搜索策略从待抓取的队列中选择下一个要抓取的URL,并重复上述过程,直到满足系统停止条件为止。所有被抓取网页都会被系统存储,经过一定的分析、过滤,然后建立索引,以便用户查询和检索;这一过程所得到的分析结果可以对以后的抓取过程提供反馈和指导。其工作流程如图3所示。

深度网络爬虫工作流程
1994年Dr.jillEllsworth提出DeepWeb(深层页面)的概念,即DeepWeb是指普通搜索引擎难以发现的信息内容的Web页面¨。DeepWeb中的信息量比普通的网页信息量多,而且质量更高。但是普通的搜索引擎由于技术限制而搜集不到这些高质量、高权威的信息。这些信息通常隐藏在深度Web页面的大型动态数据库中,涉及数据集成、中文语义识别等诸多领域。如此庞大的信息资源如果没有合理的、高效的方法去获取,将是巨大的损失。因此,对于深度网爬行技术的研究具有极为重大的现实意义和理论价值。

-
网络爬虫
+关注
关注
1文章
52浏览量
9107 -
爬虫
+关注
关注
0文章
87浏览量
7944
发布评论请先 登录
# 深度解析:爬虫技术获取淘宝商品详情并封装为API的全流程应用
锂电池组装生产线——锂电池电芯分选与组装段工作流程
强强合作 西门子与日月光合作开发 VIPack 先进封装平台工作流程
ADI Power Studio工作流程与工具概述
恩智浦i.MX RT1180跨界MCU驱动EtherCAT的工作流程
Nginx限流与防爬虫配置方案
爬虫数据获取实战指南:从入门到高效采集
NX CAD软件:数字化工作流程解决方案(CAD工作流程)
比斯特BT-2113B-18/21电池组半自动生产线的工作流程
AI工作流自动化是做什么的
SOLIDWORKS 2025基于浏览器角色的新功能:如何简化设计流程?
IP地址数据信息和爬虫拦截的关联
使用pdfDocs提高工作效率,改进PDF工作流程

网络爬虫的基本工作流程
评论