0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

爬虫技术涉案大数据分析及法律解读

华为开发者社区 来源:华为开发者社区 作者:虞元坚 2021-01-12 16:39 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

爬虫技术涉案大数据分析及法律解读

爬虫技术作为一种前端获取网站信息数据的技术,在目前大数据应用的背景下,异常火热。但是由于使用者的不谨慎,也出现了很多涉案甚至涉罪情况。技术本身是无罪的,但是不代表使用技术的人也无罪。

许多律师在写一些关于目前爬虫技术的法律文章的时候,常常会将定点爬虫和搜索引擎爬虫给搞混淆,有的也给出了错误或者较为过时的定义与理解。作为不熟悉技术的法律人士,其实也在所难免。其实我们常常讲的爬虫技术,与搜索引擎的爬虫引擎是完全不同的,其根本目的,是通过对指定网站进行解析,自动并且批量获取前端展示的数据。简单来说,就是一种信息采集技术,“爬虫”的称呼,只是一种俗称,我更愿意科学地称其为“网站信息自动化采集技术”。本文以下所称的爬虫,皆为定向爬虫。

爬虫技术不是什么高深的技术,更不是什么“黑客技术”,甚至对于一些静态网站,一个大学编程初学者,都可以轻松掌握自动化采集信息的技术。目前主流的爬虫技术大致可以归类为两类:

1、 网站渲染后,通过正则表达式匹配前端代码,获取所需信息,以此往复。

2、 不通过网站渲染,或只经过少量渲染,直接通过网站的API接口进行动态调用。

技术含量高一点的爬虫技术,都是跳过网页静态内容的渲染,直接调用动态API接口,以达到最高效获取信息的目的。部分法律人士认为这是跳过了网站验证机制,我觉得得个案细分,毕竟绝大多数的网站(99%),API接口都是直接暴露的。

如果读者是法律从业人员,首先需要明确以下几点,可能才能更好的理解爬虫技术:

1、爬虫技术获取的信息全部都是网站公开信息(或面向爬取者公开)

2、爬虫技术不会获取任何被爬取网站的后台权限

如果违背了以上两个条件,那就不是爬虫技术了,就是入侵计算机系统技术了,俗称“黑客”技术。下面,通过爬虫技术获取对裁判文书进行检索,给大家简单展示一下,爬虫技术近年来刑事案件获罪的情况,部分图表通过Python语言实现。

(样本检索关键词:爬虫、数据抓取、数据爬取,时间点截止至2019-11-15,并对不相干的文书进行了删除,其中一篇文书将“侵犯公民个人信息罪”写成了“公民个人信息罪”,进行了修正。全部是一审、且二审未大幅度改判的文书数据。有效文书共计22篇。)

a8ac152a-53e9-11eb-8b86-12bb97331649.jpg

涉案罪名数量及比例(饼图)

a8e69862-53e9-11eb-8b86-12bb97331649.jpg

(涉案文书地域分布情况)

总结:

以上文书案例,最早的裁判时间为2014-07-07(郑×等侵犯著作权罪一审刑事判决书),最晚的裁判时间为2019-10-28(北京瑞智华胜科技股份有限公司、周嘉林、黄健等违法运用资金罪一审刑事判决书)。从数据中可以看到侵犯公民个人信息罪是重灾区,非法获取计算机信息系统数据罪则是样本中刑期最重的罪名。

样本中较为受人关注的案件有“上海晟品网络科技有限公司、侯明强等非法获取计算机信息系统数据罪一审刑事判决书”,俗称“今日头条爬虫案”。感兴趣的读者可以搜索笔者的另一篇文章《爬虫获取数据获刑案件解析及无罪论点探讨》

如果你是程序员读者或者大数据从业者,亦或者是爬虫工作室,如何区分罪与非罪的界限,提防职业风险呢?笔者在此不做过多阐述,仅提出以下几点意见供参考:

1、不爬取目标网站的个人信息内容以及公民隐私;

2、不交易爬取的目标公司的商业数据;

3、对有版权的内容的爬取应审慎,未获授权商业使用则违法。

值得注意的是,在获得授权的情况下,利用爬虫技术获取信息,不违反法律。但是,超出授权内容,再次使用,则有可能触犯法律。举例来说,你获得用户的授权,利用爬虫技术调用该用户的个人信息,不触犯法律。但是未经该用户许可,再次使用该用户个人信息,甚至利用该信息牟利,则严重违反法律。

最后,笔者想要强调的是,不是公开的信息爬取就是不违法的。比如网站的用户信息,一样受到法律保护。但是在处罚爬虫从业者的同时,网站对个人信息的公开化处理,更应该受到行政处罚,不应将爬虫程序员送进牢房而得到豁免。比起不懂法的小作坊程序员,大公司对用户信息数据的滥用和疏于管理,更加令人不齿。对于公检法工作者以及律师工作者,在面对此类刑事案件中,不要听到爬虫技术,就将其妖魔化,关注的重点,还是应该放在获取方式的合法性上,对绝大多数情况下来说,对于公开信息的获取,是很难定义为“非法手段”上去的,因此一定要慎重。对于商业领域的内容竞争,在民事领域有法律适用的,不要轻易“以刑代民”。不仅会给行业的普通从业者带来恐慌,也会做出负面的引导。

原文标题:我写的代码合规吗?【HDZ研习社25期】

文章出处:【微信公众号:华为开发者社区】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 代码
    +关注

    关注

    30

    文章

    4975

    浏览量

    74349
  • 网络爬虫
    +关注

    关注

    1

    文章

    52

    浏览量

    9197
  • 大数据
    +关注

    关注

    64

    文章

    9092

    浏览量

    144042

原文标题:我写的代码合规吗?【HDZ研习社25期】

文章出处:【微信号:Huawei_Developer,微信公众号:华为开发者社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    API数据分析:淘宝流量来源分析,渠道优化!

    ​ 在电商领域,流量来源分析是优化营销策略的核心。淘宝作为中国领先的电商平台,其流量数据可通过API(应用程序接口)高效获取和分析。本技术帖将逐步指导您如何利用淘宝API进行流量来源
    的头像 发表于 01-23 13:42 359次阅读
    API<b class='flag-5'>数据分析</b>:淘宝流量来源<b class='flag-5'>分析</b>,渠道优化!

    经营数据分析可以通过哪些方式

    在数聚股份看来,提起经营数据分析,大家往往会联想到一些密密麻麻的数字表格,或是高级的数据建模手法,再或是华丽的数据报表。其实,“ 分析 ”本身是每个人都具备的能力,对于业务决策者而言,
    的头像 发表于 12-05 16:31 721次阅读

    # 深度解析:爬虫技术获取淘宝商品详情并封装为API的全流程应用

     在电商行业蓬勃发展的当下,淘宝作为国内头部电商平台,积累了海量商品数据。对于企业、开发者以及市场研究者来说,获取这些商品详情数据并封装成API,能够极大地满足市场分析、竞品监控、个性化推荐等多样化
    的头像 发表于 11-17 09:29 454次阅读

    广立微DE-G零断档重构智能数据分析

    近日,数据分析领域被一则消息推上风口浪尖:一家老牌软件巨头将撤出中国。在此背景下,其旗下以灵活著称的数据分析软件,在中国市场的未来将面临极大的不确定性。
    的头像 发表于 11-07 10:39 790次阅读

    【产品介绍】Altair RapidMiner数据分析与人工智能平台

    AltairRapidMiner赋能组织解锁数据洞察,运用数据分析和先进的人工智能自动化,提供可扩展的面向未来的解决方案。Altair数据分析和人工智能平台包括数据准备、
    的头像 发表于 09-18 17:56 1018次阅读
    【产品介绍】Altair RapidMiner<b class='flag-5'>数据分析</b>与人工智能平台

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统

    数据,结合大数据分析、流程自动化及云边协同技术,实现电磁环境全生命周期管理。以下从五大维度精简解析: 应用案例 北京华盛恒辉、北京五木恒润研发的 EMC/EMI 智能管理系统已落地应用,成效显著,为系统推广提供有力支撑。 一、
    的头像 发表于 09-17 14:58 750次阅读

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理平台

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统
    的头像 发表于 09-17 14:58 709次阅读
    电磁兼容与电磁干扰在电磁兼容性<b class='flag-5'>大数据分析</b>中的智能管理平台

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统
    的头像 发表于 09-17 14:42 1027次阅读
    电磁兼容与电磁干扰在电磁兼容性<b class='flag-5'>大数据分析</b>中的智能管理系统

    如何有效利用高光谱成像技术提升数据分析效率

    随着人工智能和大数据技术的快速发展,高光谱成像技术作为一种融合光谱信息与空间影像的新兴技术,正日益成为提升数据分析效率的重要工具。在农业监测
    的头像 发表于 09-11 16:13 968次阅读
    如何有效利用高光谱成像<b class='flag-5'>技术</b>提升<b class='flag-5'>数据分析</b>效率

    普迪飞 Exensio®数据分析平台 | Test Operations解锁半导体测试新纪元

    TestOperations是Exensio数据分析平台的四个主要模块之一。T-Ops模块旨在帮助集成器件制造商(IDM)、无晶圆厂半导体公司(Fabless)和外包半导体(产品)封测厂(OSAT
    的头像 发表于 08-19 13:53 1611次阅读
    普迪飞 Exensio®<b class='flag-5'>数据分析</b>平台 | Test Operations解锁半导体测试新纪元

    如何通过数据分析识别设备故障模式?

    通过数据分析识别设备故障模式,本质是从声振温等多维数据中提取故障特征,建立 “数据特征 - 故障类型” 的映射关系,核心可通过特征提取、模式匹配、趋势分析三步实现,精准定位故障根源与发
    的头像 发表于 08-19 11:14 1095次阅读
    如何通过<b class='flag-5'>数据分析</b>识别设备故障模式?

    构建自定义电商数据分析API

      在电商业务中,数据是驱动决策的核心。随着数据量的增长,企业需要实时、灵活的分析工具来监控销售、用户行为和库存等指标。一个自定义电商数据分析API(应用程序接口)可以自动化
    的头像 发表于 07-17 14:44 715次阅读
    构建自定义电商<b class='flag-5'>数据分析</b>API

    AI数据分析仪设计原理图:RapidIO信号接入 平板AI数据分析

    AI数据分析仪, 平板数据分析仪, 数据分析仪, AI边缘计算, 高带宽数据输入
    的头像 发表于 07-17 09:20 852次阅读
    AI<b class='flag-5'>数据分析</b>仪设计原理图:RapidIO信号接入 平板AI<b class='flag-5'>数据分析</b>仪

    如何使用协议分析仪进行数据分析与可视化

    使用协议分析仪进行数据分析与可视化,需结合数据捕获、协议解码、统计分析及可视化工具,将原始数据转化为可
    发表于 07-16 14:16

    环网柜局放大数据分析方案:电力运维的“智慧大脑”

    放电现象。这种放电虽初期难以察觉,却会持续侵蚀绝缘性能,最终导致短路、停电等重大事故。传统的定期巡检模式难以捕捉早期微弱放电,而环网柜局放大数据分析方案的出现,为
    的头像 发表于 05-07 10:07 745次阅读
    环网柜局放<b class='flag-5'>大数据分析</b>方案:电力运维的“智慧大脑”