0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Web爬虫现在是不是合法了

Wildesbeast 来源:今日头条 作者:Tom Waterman 2020-02-04 14:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

技术无罪?江湖传言,互联网上50%以上的流量都是由爬虫创造的,很多人都表示:无爬虫就无互联网的繁荣。也正因为此,网上各种爬虫教程风靡不绝,惹各路大神小白观之参与之。但是,无节制的背后往往隐藏着风险,类似“只因写了一段爬虫,公司200多人被抓!”、“程序员爬虫竟构成犯罪?”等报道也时有发生。关于爬虫合法性的讨论,CSDN也在此前的《爬虫到底违法吗?这位爬虫工程师给出了答案》、《不要在爬虫犯罪的边缘疯狂试探!》等文章中进行了探讨——但是,关于爬虫的争论一直甚嚣尘上。

近日,美国法院驳回 LinkedIn 针对分析公司 HiQ 抓取其数据的申诉一事件,似乎又为网络爬虫的自由添砖加了瓦。决议表明:任何可公开获得且未经版权保护的数据都可供抓取!可以说,这是数据隐私和数据监管时代的历史性时刻。那么,作为开发者的你,如何看到这一事件呢?关于爬虫的风险性又该怎么定论?

2019年末,美国上诉法院驳回了 LinkedIn 针对分析公司 HiQ 抓取其数据的申诉。

这项决议是数据隐私和数据监管时代的历史性时刻。这项决议表明,任何可公开获得且未经版权保护的数据都可供网络爬虫自由抓取。

但是抓取数据的商业用途仍然有限

然而,这项决议并没有授予 HiQ 或其他网络爬虫将抓取获得的数据用于商业目的的自由。

例如,网络爬虫可以在 YouTube 上搜索视频标题,但由于这些视频已获得版权,因此不可以将 YouTube 视频转发到自己的网站上。

一般来说,无论你以何种方式获取数据,数据(包括视频或音乐之类的媒体文件数据)的版权依然有效。

某些形式的网页爬虫仍然是非法的

这项决议也没有赋予网络爬虫自由地从需要身份验证的站点获取数据的权利。

例如,根据规定网络爬虫不可以登录到 Facebook 并下载用户的数据。

该规则不包括那些要求用户在认证之前必须同意使用条款的网站,因为通常这些服务条款都会禁止诸如自动收集数据之类的活动。

但是,由于公开站点无法要求用户在访问数据之前同意任何服务条款,因此用户可以自由使用网络爬虫程序从站点收集的数据。

各个网站仍然可以使用技术来限制网络爬虫

尽管如今各个公司不太可能通过法律途径应对网络爬虫程序,但他们仍然可以通过其他方式限制网络爬虫。

例如,各个网站可以使用“限速”等技术来防止爬虫程序一次下载太多网页。此外,各个网站还可以使用 CAPTCHA 等技术来测试是用户还是网络爬虫正在请求该页面。

这些技术通常用于防止恶意机器人导致网站超载,引起网站崩溃。但是,这些技术也可以广泛用于限制网络爬虫的自动抓取。

LinkedIn可能会进一步上诉

尽管美国上诉法院驳回了LinkedIn的请求,但他们可能还有最后一步棋:向美国最高法院提出上诉。

美国最高法院有权推翻上诉法院的判决,而且还可以撤销网络爬虫公开使用非版权数据的合法化。但是,并非所有上诉至最高法院的决定都能得到实际的审查。

但是,我们仍然可以认为最高法院很可能会审查本案的裁决。毕竟数据政策和相关的隐私问题是相对较新的法律,而且会对 LinkedIn 等公司产生重大的商业影响。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Web
    Web
    +关注

    关注

    2

    文章

    1302

    浏览量

    73643
  • 爬虫
    +关注

    关注

    0

    文章

    87

    浏览量

    7946
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    鸿蒙系统对手机市场会产生怎样的影响?现在汽车是不是也用上鸿蒙系统

    鸿蒙系统对手机市场会产生怎样的影响?现在汽车是不是也用上鸿蒙系统
    发表于 12-04 20:47

    请问IR 调制器是不是复用串口的啊?

    请问,IR 调制器是不是复用串口的啊?
    发表于 11-26 06:36

    配置串口DMA,现在是接收可以,发送不行,是什么地方没有设置对吗?

    配置串口DMA,现在是接收可以,发送不行,是什么地方没有设置对吗?当配置DMA_TX 不能发送数据,默认轮询发送就可以。配置如下图:
    发表于 09-28 07:41

    从 0 到 1:用 PHP 爬虫优雅地拿下京东商品详情

    PHP 语言 实现一个 可运行的京东商品爬虫 ,不仅能抓取商品标题、价格、图片、评价数,还能应对常见的反爬策略。全文附完整代码, 复制粘贴即可运行 。 一、为什么选择 PHP 做爬虫? 虽然 Python 是爬虫界的“老大哥”
    的头像 发表于 09-23 16:42 562次阅读
    从 0 到 1:用 PHP <b class='flag-5'>爬虫</b>优雅地拿下京东商品详情

    对于没有bsp包,也没有芯片创建的功能是不是就不能用rtthread?

    公司用的冷门芯片,不能生成BSP包,然后发现芯片创建也没有,是不是不能用rtthreead
    发表于 09-23 08:27

    at_device(8266)不支持web服务器吗?

    现在想用esp8266 at device 做一个网页服务器 但是文件系统什么都做好了 运行webnet_test 显示下边的错误 查论坛 说at不支持服务器 但是是20年的帖子 现在
    发表于 09-23 06:09

    Nginx限流与防爬虫配置方案

    在互联网业务快速发展的今天,网站面临着各种流量冲击和恶意爬虫的威胁。作为运维工程师,我们需要在保证正常用户访问的同时,有效防范恶意流量和爬虫攻击。本文将深入探讨基于Nginx的限流与防爬虫解决方案,从原理到实践,为大家提供一套完
    的头像 发表于 09-09 15:52 648次阅读

    请问STM32的内部Flash操作是不是优先级最高?

    STM32的内部Flash操作是不是优先级最高?目前在内部Flash的单独一页存储数据,发现在进行页擦除的时候正常工作的定时器中断无法进入了
    发表于 08-13 07:03

    请问stm32f373中SDADC和ADC的1.2V片内基准是不是同一个?

    VREFSD表述。 比如在RM中,写成:Internal bandgap: VREFSD = 1.2 V 现在是,我不清楚这个VREFSD和和DATASHEET里的Embedded reference voltage是不是同一个基准源?感觉文档表述比较混乱,无法确定。 请
    发表于 03-13 07:39

    651主板现在是不是过时

    651主板现在确实可以认为是过时 ‌。虽然对于某些特定需求或预算有限的用户来说,651主板可能仍然有一定的使用价值,但从整体技术发展和市场趋势来看,651主板已经不再是主流选择。 一方面,随着
    的头像 发表于 03-03 14:45 472次阅读

    请问DAC3484的配置过程是不是有什么需要特别注意的地方?

    。但是实际的硬件测试可以保证DACCLK和DATACLK都提供给DA。 即使在屏蔽这些警报的情况下,DA没有输出。 请问DAC3484的配置过程是不是有什么需要特别注意的地方。请大家帮帮忙啊,搞了两个多星期
    发表于 01-24 07:13

    TLC5615芯片输出的初始值是不是为0?

    TLC5615芯片输出的初始值是不是为0,还有为什么我的5615芯片我给数据进入要么就是输出的0V要么就是输出的4.8或者5V
    发表于 01-20 09:25

    ADS8556电路,测干电池电压得到的结果有上下0.01V的偏差,是不是太大

    我的ADS8556电路,测干电池电压得到的结果有上下0.01V的偏差,是不是太大
    发表于 01-15 08:07

    DAC80004的转换速率是不是用setting time这个参数来衡量

    DAC的转换速率是不是用setting time这个参数来衡量?如果建立时间是1us,是不是表示转换速率是1Msps,我看到DAC80004的setting time是5.8us,在产品选型的时候
    发表于 12-31 08:00

    IP地址数据信息和爬虫拦截的关联

    IP地址数据信息和爬虫拦截的关联主要涉及到两方面的内容,也就是数据信息和爬虫。IP 地址数据信息的内容丰富,包括所属地域、所属网络运营商、访问时间序列、访问频率等。 从IP地址信息中可以窥见
    的头像 发表于 12-23 10:13 677次阅读