0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

网络爬虫是否合法

工程师 来源:网络整理 作者:h1654155205.5246 2019-03-21 17:20 次阅读

网络爬虫是否合法

网络爬虫在大多数情况中都不违法,其实我们生活中几乎每天都在爬虫应用,如百度,你在百度中搜索到的内容几乎都是爬虫采集下来的(百度自营的产品除外,如百度知道、百科等),所以网络爬虫作为一门技术,技术本身是不违法的,且在大多数情况下你都可以放心大胆的使用爬虫技术。

爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。所谓具体问题具体分析,正如水果刀本身在法律上并不被禁止使用,但是用来捅人,就不被法律所容忍了。

或者我们可以这么理解:爬虫是用来批量获得网页上的公开信息的,也就是前端显示的数据信息。因此,既然本身就是公开信息,其实就像浏览器一样,浏览器解析并显示了页面内容,爬虫也是一样,只不过爬虫会批量下载而已,所以是合法的。不合法的情况就是配合爬虫,利用黑客技术攻击网站后台,窃取后台数据(比如用户数据等)。

举个例子:像谷歌这样的搜索引擎爬虫,每隔几天对全网的网页扫一遍,供大家查阅,各个被扫的网站大都很开心。这种就被定义为“善意爬虫”。但是像抢票软件这样的爬虫,对着12306每秒钟恨不得撸几万次,铁总并不觉得很开心,这种就被定义为“恶意爬虫”。

如何在使用爬虫时避免违法犯罪

1、严格遵守网站设置的robots协议;

2、在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行;

3、在设置抓取策略时,应注意编码抓取视频、音乐等可能构成作品的数据,或者针对某些特定网站批量抓取其中的用户生成内容;

4、在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 网络爬虫
    +关注

    关注

    1

    文章

    50

    浏览量

    8578
  • 爬虫
    +关注

    关注

    0

    文章

    77

    浏览量

    6487
收藏 人收藏

    评论

    相关推荐

    全球新闻网封锁OpenAI和谷歌AI爬虫

    分析结果显示,至2023年底,超半数(57%)的传统印刷媒体如《纽约时报》等已关闭OpenAI爬虫,反之电视广播以及数字原生媒体相应地分别为48%和31%。而对于谷歌人工智能爬虫,32%的印刷媒体采取相同措施,电视广播和数字原生媒体的比率分别为19%和17%。
    的头像 发表于 02-27 15:31 222次阅读

    如何解决Python爬虫中文乱码问题?Python爬虫中文乱码的解决方法

    如何解决Python爬虫中文乱码问题?Python爬虫中文乱码的解决方法 在Python爬虫过程中,遇到中文乱码问题是常见的情况。乱码问题主要是由于编码不一致所导致的,下面我将详细介绍如何解
    的头像 发表于 01-12 15:11 475次阅读

    爬虫的基本工作原理 用Scrapy实现一个简单的爬虫

    数以万亿的网页通过链接构成了互联网,爬虫的工作就是从这数以万亿的网页中爬取需要的网页,从网页中采集内容并形成结构化的数据。
    的头像 发表于 12-03 11:45 464次阅读
    <b class='flag-5'>爬虫</b>的基本工作原理 用Scrapy实现一个简单的<b class='flag-5'>爬虫</b>

    请问AD598/AD698 LVDT调理器是否都需要添加独立的相位检测网络

    AD598/AD698 LVDT调理器是否都需要添加另外的相位检测网络,以判断LVDT传感器运动的方向? 如果需要,有什么方案推荐吗?
    发表于 11-17 08:12

    Python网络爬虫Selenium的简单使用

    想要学习爬虫,如果比较详细的了解web开发的前端知识会更加容易上手,时间不够充裕,仅仅了解html的相关知识也是够用的。
    的头像 发表于 11-14 14:44 216次阅读
    Python<b class='flag-5'>网络</b><b class='flag-5'>爬虫</b>Selenium的简单使用

    如何看待Python爬虫合法性?

    Python爬虫是一种自动化程序,可以从互联网上获取信息并提取数据。通过模拟网页浏览器的行为,爬虫可以访问网页、抓取数据、解析内容,并将其保存到本地或用于进一步分析
    的头像 发表于 11-14 10:35 242次阅读

    crawlerdetect:Python 三行代码检测爬虫

    是否担心高频率爬虫导致网站瘫痪? 别担心,现在有一个Python写的神器——crawlerdetect,帮助你检测爬虫,保障网站的正常运转。 1.准备 开始之前,你要确保Python和pip已经成功
    的头像 发表于 11-02 11:31 281次阅读

    feapder:一款功能强大的爬虫框架

    今天推荐一款更加简单、轻量级,且功能强大的爬虫框架:feapder 项目地址: https://github.com/Boris-code/feapder 2. 介绍及安装 和 Scrapy 类似
    的头像 发表于 11-01 09:48 599次阅读

    万兆光模块是否能够应对未来网络的需求?

    万兆光模块在网络传输中发挥着重要的作用,但是随着未来网络需求的不断提升,它是否能够应对越来越高的需求呢?本文通过对万兆光模块与未来网络需求来分析。
    的头像 发表于 10-30 11:30 222次阅读
    万兆光模块<b class='flag-5'>是否</b>能够应对未来<b class='flag-5'>网络</b>的需求?

    ARM异常返回值的合法值有哪些?各返回值分别代表什么?

    ARM异常返回值的合法值有哪些?各返回值分别代表什么? ARM异常返回值的合法值包括:中断(IRQ)、中止(ABORT)、未定义指令(UND)、系统调用(SWI)、数据终端(DATA ABORT
    的头像 发表于 10-19 16:36 427次阅读

    怎么判断MCU是否连接到了网络服务器?

    有什么办法可以测试MCU是否正常连接到了网络服务器
    发表于 10-12 07:38

    网络爬虫 Python和数据分析

    网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的
    发表于 09-25 08:25

    爬虫合法性和robot协议#Python数据分析

    数据分析python
    未来加油dz
    发布于 :2023年09月02日 20:24:49

    两个网络IP地址是否在同一个段中的判断方法

    我们知道IP地址是由“网络号+子网号+主机号”组成,判断两个IP地址是否在同一个网段主要看“网络号”,如果网络号一样,那么他们就在同一个网段,否则就不在一个网段。
    的头像 发表于 06-02 14:31 1.1w次阅读
    两个<b class='flag-5'>网络</b>IP地址<b class='flag-5'>是否</b>在同一个段中的判断方法

    【经典面试题】请使用C语言编程实现对IPV4地址的合法性判断

    【经典面试题】请使用C语言编程实现对IPV4地址的合法性判断
    的头像 发表于 05-16 15:23 1122次阅读