0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

爬虫技术为什么变成了害虫?爬虫技术到底犯了什么错?

Wildesbeast 来源:未知 作者:新金融报道 2019-09-21 11:16 次阅读

近日,多家通过爬虫技术开展大数据信贷风控的公司被查。短短几天时间,“爬虫”技术被推上了风口浪尖,大数据风控行业也迎来了前所未有的“震荡”。业内人士透露,这些被调查的大数据公司基本都是涉嫌利用网络爬虫技术侵犯个人隐私,并将这些数据信息转卖给其他机构获利。

“爬虫”变成了“害虫”?

何为爬虫?百度百科给出的定义是,网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

据了解,爬虫的发展历史可以追溯到20年前,搜索引擎、聚合导航、数据分析、人工智能等业务都需要基于爬虫技术。随着互联网的发展,网络资源有大量信息的载体,如何更好更有效地提取并利用它,爬虫技术起到关键作用。爬虫技术在信息定位也比较准确,可以根据客户的搜索需求爬取最合适的数据推送出去。而且现在大数据处理方面,爬虫技术可以对爬取的数据进行分析从而得出比较准确的数据。

爬虫技术的优势不言而喻。技术是中立的、无罪的,但技术被颇有用心的人乱用就会出现问题。近期暴露出来的事件就是最大的警示。

事实上,自2016年开始,大数据风控、智能风控、智能催收逐渐成熟,并且开始应用于互联网金融领域。从金融发展的角度来讲,这是一件好事儿,大大降低了行业成本。而且随着大数据的出现和兴起,第三方大数据风控平台也迎来一波发展高潮。

然而,提供信用评估类服务的第三方风控商在解决小额信贷多头借贷、欺诈等风险问题的同时,也在无形中掌握了用户贷前、贷后等各类信息数据。

“风险来源于过分地获取用户数据,并且利用这些数据干一些‘见不得人’的事儿。”知名金融科技分析人士毕研广告诉记者。

毕研广分析道,其实,很多数据公司从一开始最为基础的业务是“爬虫业务”,后来演变到给金融机构或者互金平台做风控系统,或者帮助平台开发设计“线上放贷系统”。做系统不赚钱,还是卖数据赚钱。但是这一举措也让“爬虫”变成了“害虫”,非法获取、销售个人隐私数据,必定涉及到了违法犯罪。

据了解,爬虫技术的数据采集主要包括:公开的第三方数据;抓取用户主动授权的个人基本信息、联系人信息、银行卡信息等数据;授权抓取数据,如设备号、IP地址、运营商/电商等用户授权后合规采集数据;经授权的平台数据,如用户在平台的历史借款、还款情况等用户已在注册协议或隐私协议中授权业务方进行分析的数据。

那爬虫技术在数据采集过程中是否经过用户授权、是否存在过度爬取信息、爬取到的信息用途不明等也成为当下人们关注的焦点。

对此,中国社会科学院金融研究所法与金融研究室副主任尹振涛表示,一方面公共数据的爬取是不允许商业利用的,并不是说互联网的数据可以随便爬取。另一方面有些客户提供淘宝号,甚至密码授权爬取,在爬取时就侵入了对方的计算机,这其实也是一种犯罪行为,叫作侵入计算机犯罪。

以“爬虫”为主的大数据公司称不上金融科技公司

不可否认,当前大数据风控行业对个人隐私缺乏保护,存在广泛的数据滥用问题。对此,业内普遍呼吁监管的加强。

近两年,很多互联网金融平台转型,也有一些做数据的平台,他们都强调自己做的是金融科技。是真科技还是假科技?转型助贷、网络小额贷业务,是合规的还是不合规的?

在毕研广看来,现在的互联网金融、金融科技还处在一个相对的“混沌期”。相信随着政策的不断清晰化、监管对行业整治的不断深化,也将逐渐清晰起来。以“爬虫”为主的大数据公司称不上金融科技公司。

事实上,今年以来,监管逐渐趋严。5月28日,国家互联网信息办公室发布的《数据安全管理办法(征求意见稿)》明确规定,网络运营者通过网站、应用程序等产品收集使用个人信息,应当分别制定并公开收集使用规则;网络运营者以经营为目的收集重要数据或个人敏感信息的,应向所在地网信部门报备收集使用规则、使用目的和保存期限等。

日前,浙江发布《中国银保监会浙江监管局办公室关于进一步规范个人消费贷款有关问题的通知》(浙银保监办发〔2019〕213号),明确提出,不得将授信审查、风险控制等核心业务外包。

国家发展改革委9月16日发布《关于推送并应用市场主体公共信用综合评价结果的通知》,根据通知,国家发展改革委组织国家公共信用信息中心会同相关大数据机构对全国3300万家市场主体开展了第一期公共信用综合评价,现将评价结果推送,并就充分应用公共信用综合评价结果,推动落实以信用为基础的新型监管机制。

“一系列监管政策的下发对行业的长远发展起到了积极作用。”蒋韬说,“当前监管机构并不是采取了所谓一刀切的态度和做法,而且依法对于没有合规经营、侵犯个人隐私的企业进行调查,对于加速清退劣质企业、保护用户权益、促进优质企业发展有重要意义。”

蒋韬认为,长久来看,随着金融机构第一方数据积累以及第三方数据源壁垒降低,输出数据分析能力将成为风控公司更好的商业模式,提供标准评分卡产品+数据科学家咨询能力,将成为更有竞争力的商业模式。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1776

    文章

    43781

    浏览量

    230562
  • 数据分析
    +关注

    关注

    2

    文章

    1351

    浏览量

    33732
  • 大数据
    +关注

    关注

    64

    文章

    8642

    浏览量

    136585
收藏 人收藏

    评论

    相关推荐

    patyon爬虫技术PDF课件分享

    patyon爬虫技术PDF课件
    发表于 10-31 16:08

    patyon爬虫技术PDF课件分享

    patyon爬虫技术PDF课件分享
    发表于 02-14 16:33

    爬虫可以采集哪些数据

    我们想获取到验证码,就需要从这个验证码的图片中分析出来到底是什么字符。这就需要OCR技术。   对于爬虫可以采集哪些数据,通过上文的认识,大家都有数了,使用爬虫的过程中,为了更有效率的
    发表于 10-15 17:25

    什么语言适合写爬虫

    刚接触爬虫的新手经常会问,到底需要使用哪种语言做爬虫,其实,我相信任何语言,只要他具备访问网络的标准库,都可以很轻易的做到这一点。刚刚接触爬虫的时候,我总是纠结于用 Python 来做
    发表于 01-14 13:51

    什么语言适合写爬虫

    刚接触爬虫的新手经常会问,到底需要使用哪种语言做爬虫,其实,我相信任何语言,只要他具备访问网络的标准库,都可以很轻易的做到这一点。刚刚接触爬虫的时候,我总是纠结于用 Python 来做
    发表于 02-03 13:22

    网络爬虫nodejs爬虫代理配置

    随着互联网的发展进步,现在互联网上也有许多网络爬虫。网络爬虫通过自己爬虫程序向目标网站采集相关数据信息。当然互联网的网站会有反爬策略。比如某电商网站就会限制一个用户IP的访问频率,从而出现验证码
    发表于 09-01 17:23

    Golang爬虫语言接入代理?

    golang语言也是爬虫中的一种框架语言。当然很多网络爬虫新手都会面临选择什么语言适合于爬虫。一般很多爬虫用户都会选择python和java框架语言来写
    发表于 09-09 17:41

    什么是爬虫

    什么是爬虫爬虫的价值?最简单的python爬虫爬虫基本架构
    发表于 11-05 06:13

    如何运行imdb爬虫

    imdbcn爬虫实例 imdbcn网站结构分析 创建爬虫项目 运行imdb爬虫
    发表于 11-05 07:07

    python网络爬虫概述

    网络爬虫(Web Spider)又称网络蜘蛛、网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫按照系统结构和实现技术,大致可分为一下几种类型:通用网络爬虫
    发表于 03-21 16:51

    爬虫是如何实现数据的获取爬虫程序如何实现

    进入大数据时代,爬虫技术越来越重要,因为它是获取数据的一个重要手段,是大数据和云计算的基础。那么,爬虫到底是如何实现数据的获取的呢?今天和大家分享的就是一个系统学习
    发表于 01-02 16:30 10次下载
    <b class='flag-5'>爬虫</b>是如何实现数据的获取<b class='flag-5'>爬虫</b>程序如何实现

    网络爬虫是否合法

    网络爬虫在大多数情况中都不违法,其实我们生活中几乎每天都在爬虫应用,如百度,你在百度中搜索到的内容几乎都是爬虫采集下来的(百度自营的产品除外,如百度知道、百科等),所以网络爬虫作为一门
    的头像 发表于 03-21 17:20 1.2w次阅读

    Python爬虫 你真的会写爬虫吗?

    你以为你真的会写爬虫了吗?快来看看真正的爬虫架构!
    的头像 发表于 05-02 17:02 3532次阅读
    Python<b class='flag-5'>爬虫</b> 你真的会写<b class='flag-5'>爬虫</b>吗?

    Web爬虫现在是不是合法了

    技术无罪?江湖传言,互联网上50%以上的流量都是由爬虫创造的,很多人都表示:无爬虫就无互联网的繁荣。也正因为此,网上各种爬虫教程风靡不绝,惹各路大神小白观之参与之。但是,无节制的背后往
    的头像 发表于 02-04 14:45 2612次阅读

    一文读懂关于爬虫的概念

    最近,我们经常能够听到XX公司做违法爬虫被一锅端,程序员坐牢。还有XX公司的爬虫给12306网站带来重压等等新闻,在看热闹的同时,很多人都会提出疑问爬虫到底是啥?今天就彻底给您讲明白。
    的头像 发表于 10-12 16:05 1754次阅读
    一文读懂关于<b class='flag-5'>爬虫</b>的概念