网络爬虫的基本工作流程
通用网络爬虫根据预先设定的一个或若干初始种子URL开始,以此获得初始网页上的URL列表,在爬行过程中不断从URL队列中获一个的URL,进而访问并下载该页面。页面下载后页面解析器去掉页面上的HTML标记后得到页面内容,将摘要、URL等信息保存到Web数据库中,同时抽取当前页面上新的URL,保存到URL队列,直到满足系统停止条件。其工作流程如图1所示。

主题爬虫工作流程
主题爬虫需要根据一定的网页分析算法,过滤掉与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它会根据一定的搜索策略从待抓取的队列中选择下一个要抓取的URL,并重复上述过程,直到满足系统停止条件为止。所有被抓取网页都会被系统存储,经过一定的分析、过滤,然后建立索引,以便用户查询和检索;这一过程所得到的分析结果可以对以后的抓取过程提供反馈和指导。其工作流程如图3所示。

深度网络爬虫工作流程
1994年Dr.jillEllsworth提出DeepWeb(深层页面)的概念,即DeepWeb是指普通搜索引擎难以发现的信息内容的Web页面¨。DeepWeb中的信息量比普通的网页信息量多,而且质量更高。但是普通的搜索引擎由于技术限制而搜集不到这些高质量、高权威的信息。这些信息通常隐藏在深度Web页面的大型动态数据库中,涉及数据集成、中文语义识别等诸多领域。如此庞大的信息资源如果没有合理的、高效的方法去获取,将是巨大的损失。因此,对于深度网爬行技术的研究具有极为重大的现实意义和理论价值。

-
网络爬虫
+关注
关注
1文章
52浏览量
9197 -
爬虫
+关注
关注
0文章
87浏览量
8171
发布评论请先 登录
工作流节点说明---工作流节点
工作流插件节点节点说明
工作流节点说明结束节点
工作流节点说明开始节点
开发工作流创建工作流
AMS借助Altium Designer简化电子设计工作流程
是德科技与三星携手英伟达展示端到端AI-RAN验证工作流程
虚幻引擎5在建筑可视化中的应用:趋势、挑战与基于Perforce P4的工作流程
一张图看懂远动通信装置的工作流程
芯片ATE测试详解:揭秘芯片测试机台的工作流程
# 深度解析:爬虫技术获取淘宝商品详情并封装为API的全流程应用
强强合作 西门子与日月光合作开发 VIPack 先进封装平台工作流程
ADI Power Studio工作流程与工具概述
恩智浦i.MX RT1180跨界MCU驱动EtherCAT的工作流程
网络爬虫的基本工作流程
评论