0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一文读懂关于爬虫的概念

454398 来源:搜狐 作者:科技富能量 2020-10-12 16:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

最近,我们经常能够听到“XX公司做违法爬虫”被一锅端,程序员坐牢。还有XX公司的爬虫给12306网站带来重压等等新闻,在看热闹的同时,很多人都会提出疑问——爬虫到底是啥?今天就彻底给您讲明白。

按照定义“网络爬虫”就是按照一定的规则,自动地抓取互联网信息的程序或者脚本,能够把网站上的信息收集回来,并且能在网站之间游走。爬虫还会模拟人的行为,这看看、那瞅瞅。

比如百度、谷歌等搜索引擎就是典型的“爬虫”,当你搜索“科技富能量”这个关键词时,搜索引擎就会到各个网站上把和这个关键词有关的内容找来呈现在结果页面。

搜索之后,我们自然会选择想要的结果点击进去,这样“被爬”的网站增加了点击量,搜索引擎也获得流量,这属于双赢局面。

但并非所有网站都愿意“被爬”。比如12306,作为中国唯一的官方火车票预订渠道,本身每天就有海量点击,但火车票代订、代刷软件(比如携程、360等),为了挣抢票费,也会使用爬虫软件,恶意爬12306.

最疯狂的时候,就是年前那段时间,公开数据表示:最高峰时1天内页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。

令人讨厌的不仅仅有抢票爬虫,还有微博的“僵尸爬虫”——僵尸粉

打开某流量明星的留言页面你就会看到,海量的留言量中,除了几个真粉的发言,剩下的都是“步调一致”的僵尸粉。为啥流量明星最爱爬虫?因为他们可以告诉厂商——我有流量,我有海量粉丝,来找我做代言/拍戏吧!

某流量明星留言中,还带着“文案”二字

当然,还有中性爬虫——比价软件。

按照正常购物流程,你会打开京东、淘宝甚至贝壳找房,查看同一商品然后进行价格对比,费时费力。

在比价网站上,你搜索一样商品,这类聚合平台就会自动把各个电商的商品都放在你面前供你选择,基本各大购物网站都能囊括在内。这就是“爬虫”的功劳。它们去各家电商软件上,把商品的图片和价格统统扒下来,然后在自己这里展示。

这种爬虫方便了用户却“恶心”了电商,因为电商平台会把最显眼的位置留给交钱最多的卖家,你都爬走了,肯定按照最便宜的产品展示,如此一来,谁还看交过钱的商家呢?

但是电商平台没法像12306那样设置验证码,而且爬虫还会模拟用户的操作行为,你能想象每打开一次商品就输入一次验证码吗?谁还愿意买东西呢?

但是电商平台也不是吃素的,各种封禁爬虫IP地址、故意耗费爬虫程序资源等等方式也很常见,爬与被爬的攻防战,一刻不停。

最重要的是,虽然《网络安全法》没有对爬虫行为作出明确规定,但是其司法解释写道“未经授权爬取用户手机通讯录超过50条记录;未经授权抓取用户淘宝交易记录超过500条;未经授权读取用户运营商网站通话记录超过500条;未经授权读取用户公积金社保记录的超过50000条的。”可以入刑。

技术本无善恶之分,就看爬与被爬的,到底是谁。
编辑:hfy

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 网络爬虫
    +关注

    关注

    1

    文章

    52

    浏览量

    9107
  • 爬虫
    +关注

    关注

    0

    文章

    87

    浏览量

    7946
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    从 0 到 1:用 PHP 爬虫优雅地拿下京东商品详情

    PHP 语言 实现个 可运行的京东商品爬虫 ,不仅能抓取商品标题、价格、图片、评价数,还能应对常见的反爬策略。全文附完整代码, 复制粘贴即可运行 。 、为什么选择 PHP 做爬虫
    的头像 发表于 09-23 16:42 563次阅读
    从 0 到 1:用 PHP <b class='flag-5'>爬虫</b>优雅地拿下京东商品详情

    读懂大模型常见的10个核心概念

    如今高效智能的AI大模型,正如雨后春笋般破土而出,人们对于AI大模型的学习与探索之路,也愈发宽阔平坦。虽然AI工具已不再陌生,但其中关于AIPrompt、大模型的吞吐量、蒸馏与量化、私有化知识库等
    的头像 发表于 09-22 17:02 1136次阅读
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>读懂</b>大模型常见的10个核心<b class='flag-5'>概念</b>

    ALM(应用生命周期管理)解析:了解其概念、关键阶段及Perforce ALM工具推荐

    什么是ALM(应用生命周期管理)?它远不止是SDLC!了解其概念、关键阶段以及如何借助Perforce ALM这类工具,实现端到端的可追溯性、加速发布并保障合规性。
    的头像 发表于 09-19 11:03 1250次阅读
    ALM(应用生命周期管理)解析:<b class='flag-5'>一</b><b class='flag-5'>文</b>了解其<b class='flag-5'>概念</b>、关键阶段及Perforce ALM工具推荐

    读懂:CWDM和DWDM的核心差异

    光纤通信里的“两兄弟”CWDM和DWDM,名字只差个字母,差别可大了去!今天讲透核心差异,小易帮你快速分清~
    的头像 发表于 09-17 18:19 823次阅读
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>读懂</b>:CWDM和DWDM的核心差异

    Nginx限流与防爬虫配置方案

    在互联网业务快速发展的今天,网站面临着各种流量冲击和恶意爬虫的威胁。作为运维工程师,我们需要在保证正常用户访问的同时,有效防范恶意流量和爬虫攻击。本文将深入探讨基于Nginx的限流与防爬虫解决方案,从原理到实践,为大家提供
    的头像 发表于 09-09 15:52 648次阅读

    读懂 PWM控制背光亮度原理

    关于PWM控制背光亮度原理的详细介绍 读懂PWM调光:为何你的屏幕亮度可随心而变? 你是否曾好奇,手机或电脑屏幕的亮度是如何从最暗无级调整到最亮的?这背后的魔法,主要归功于
    发表于 09-03 08:48

    读懂高速信号眼图

    眼图是个统计叠加的概念,是系列数字信号在示波器上积累而显示的图形,通过它可以观察出码间串扰和噪声对系统的影响,从而估计系统优劣。个完整的眼图应该包含从“000”到“111”的所有
    的头像 发表于 07-30 17:33 4450次阅读
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>读懂</b>高速信号眼图

    读懂德明利2024年度报告

    读懂德明利2024年度报告
    的头像 发表于 04-25 22:42 420次阅读
    <b class='flag-5'>一</b>图<b class='flag-5'>读懂</b>德明利2024年度报告

    爬虫数据获取实战指南:从入门到高效采集

    爬虫数据获取实战指南:从入门到高效采集     在数字化浪潮中,数据已成为驱动商业增长的核心引擎。无论是市场趋势洞察、竞品动态追踪,还是用户行为分析,爬虫技术都能助你快速捕获目标信息。然而,如何既
    的头像 发表于 03-24 14:08 1256次阅读

    读懂分贝(dB)【强烈建议收藏】

    在之前的射频知识探索中,我们接触到了对数这个概念。今天,我们要深入探讨射频领域中与对数紧密相关的两个重要概念——分贝( dB) 和 dBm。了解它们,就像是掌握了开启射频世界大门的钥匙,让你在射频
    发表于 03-24 12:03

    读懂ESD原理

    文件过大,大家下载附件查看全文哦!
    发表于 03-03 16:36

    读懂:LED 驱动电路二极管挑选要点

    读懂:LED 驱动电路二极管挑选要点
    的头像 发表于 02-06 14:47 1087次阅读

    读懂什么是「雷电4」

    Thunderbolt读懂什么是「雷电4」目前大部分PC接口配备了USB接口、音频接口、HDMI接口等,这些接口的功能基本覆盖了用户的日常使用需求。为了提供更高速、更便捷的数据传输和设备连接体
    的头像 发表于 02-05 17:52 6166次阅读
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>读懂</b>什么是「雷电4」

    读懂德明利内存条产品线

    读懂德明利内存条产品线
    的头像 发表于 01-21 15:42 1278次阅读
    <b class='flag-5'>一</b>图<b class='flag-5'>读懂</b>德明利内存条产品线

    IP地址数据信息和爬虫拦截的关联

    多样的数据,那么我们应该怎么利用IP地址信息来对爬虫行为进行识别呢? 访问频率异常的大概率是爬虫行为 正常用户访问:浏览网站时,操作速度会受到人类行为习惯的限制,通常会在页面上停留定时间进行阅读、思考,所以访问频率相对较低且具
    的头像 发表于 12-23 10:13 677次阅读