侵权投诉

让AI和网络机器人进行网页抓取、收集数据等工作,有用吗?

2020-10-23 16:13 次阅读

“互联网上有很多数据”,这么说太保守了。事实上,2020年,“数字宇宙”预计将拥有40万亿字节或40泽字节(zettabytes)的信息,一个泽字节拥有的数据足以填满大约五分之一曼哈顿大小的数据中心。

可供分析的信息如此之多,将收集数据的任务留给AI就显得合情合理了。网络机器人能以令人难以置信的速度抓取网页,提取所需的相关信息。不过,尽管许多数据科学家和营销人员以一种完全合乎伦理的方式获取和使用这些信息。但很遗憾,随着网络人工智能日益普及,网络机器人还是逐渐被污名化了。

对人工智能的大部分负面印象是由好莱坞电影和科幻小说间接造成的,毕竟在这些作品中,即使最美好惬意的时候也要提防着AI。此外,某些web用户以不道德的方式使用网络机器人,导致即便是专业、诚心使用数据的人也备受打击。

对于许多专业人士来说,网页抓取仍然是必不可少的工具。那么,对于与网络机器人的污名,我们能做些什么呢?

首先,网页抓取是什么

你可以简单地把网页抓取行为理解为数据提取。尽管数据科学家和其他专业人士使用抓取来分析非常复杂的数字信息栈,但从网站复制粘贴文本的行为本身就可以被认作一种简单的抓取形式。

然而,就算可以在网站上尽情访问,由于可用信息太多,可能也要花费非常长的时间从来源处收集数据。大多数情况下,网页抓取都是留给人工智能来完成的,人工智能会将检索到的数据进行透彻分析以达到各种目的。虽然这对网络爬虫来说极为便利,但网站所有者和旁观者都非常担心人工智能在网络上的“滥用”

使用网络机器人进行网页抓取会更好吗

有这么多的信息要分析,求助于人工智能来收集数据理所当然。实际上,谷歌本身就是为感兴趣的各方提供网页抓取工具最可信的来源之一。例如,你可以使用其数据集搜索引擎快速访问认为可以免费使用的数据,甚至能定制搜索,以了解这些信息是否可用于商业用途。完成这些任务只需要几秒钟。

如果没有谷歌AI如此高效检查每个网站的相关数据,恐怕无法实现这样的速度。这是一个利用人工智能以纯道德的方式为研究或商业收集有用信息的完美例子,其速度之快也证明了“网络机器人”如何让执行网页抓取任务变得如此容易。

人工智能流量变得如此普遍,如今已经占到互联网流量的一半以上。即便如此,我们还是容易忽视其造成的影响。

有人认为,人工智能在互联网流量中占主导地位令人担忧。让这一问题变得更糟的原因是,有一小部分人工智能流量是由“糟糕的机器人”组成的。即使抓取的意图很好,方法也合乎道德,人工智能的污名还是不可避免。

使用网络机器人来处理大量数据是合理的步骤。除了人工智能,在网页数据抓取时考虑其他必要工具也很重要。

让AI和网络机器人进行网页抓取、收集数据等工作,有用吗?

代理如何提供帮助

使用代理进行网络抓取有很多优点,匿名性正是其中之一。比方说,如果你想对一个竞争品牌进行调研,并利用这些信息来确定改善自己公司发展的最佳方案,你可能不想让别人知道自己访问了他们的网站。在这种情况下,使用代理既能访问、检查数据,又不会泄露身份,两全其美。

做进一步探讨之前,先来快速回顾一下代理服务器:

代理服务器的设计目的是充当用户和web服务器之间的中间人。

功能多样:个人和公司都能使用代理服务器来满足特定需求。

代理的一个常见用途与网页抓取有关:使用代理服务器可以绕过网站管理员设置的限制,从而大量收集数据。

那么问题来了,为什么要设置限制呢?这些数据不是可以在网上免费获得吗?对人类用户来说,是的。这里有一个典型的例子。价格聚合商的整个商业模式是建立在准确信息之上的,它为“我在哪里能买到价格最低的X产品?”这个问题提供确切答案。

尽管这对客户来说是一个省钱的好机会,但供应商对其他公司窥探他们的数据并不太感兴趣,原因是聚合器的网络爬虫软件(通常称为“网络机器人”或“网页蜘蛛”)给网站带来了额外的负载。因此,如果网站管理员怀疑给定的网络活动不是由真正的用户进行的,就会限制用户访问网站。

代理的另一个实际用途是逃避审查禁令。住宅代理(Residentialproxies),顾名思义,会显示你是来自X国的真正用户,你可自定义来自哪个国家。对住宅代理的需求很简单:(可疑的)网络机器人活动通常来自某些国家,所以即使是来自这些国家的真正用户也经常遇到地域限制。

此外,当你试图从数据源收集数据、却因各种原因无法访问时,使用代理尤其有用。在网络抓取时有很多使用代理的方法,但为了在数字社区中建立信任,我们建议你坚持使用那些可以建立品牌信任和权威的方法。

利用人类可见性和可信赖的品牌来对抗人工智能的污名

目前,人工智能发展速度确实超过了上网人数增长速度。不过,互联网在未来几年将会如何发展还不得而知,因此没有理由立即断定这一趋势不可逆转,也不能断定它代表着一种固有的消极趋势。

要想扭转网络上有关人工智能流量的负面言论,最佳办法就是让互联网上的人工智能使用恢复人性化。还需注意,要以建立信任的方式使用人工智能,无需考虑太多。

坚持使用由高认知度、可信赖的品牌提供的可信赖的产品和服务。

坚持合乎道德的网页抓取操作。不要滥用信任,忽略网站上robots.txt文件,或在短时间内大量使用机器人程序。

以专业、负责的方式使用数据。核实你是否拥有将抓取获得的数据用于预期目的的权限。

多多普及人工智能。多去和其他人说说如何以及为什么使用网络抓取,让人们对网络抓取有更深的认识。人们对使用人工智能获取、研究大量数据的好处了解得越多,对网页抓取和网络机器人持负面看法的可能性就越小。

通过纯粹的人工操作来手动访问网站数据或许让人很放心,但由于信息太多,这几乎不可能。可用的数据量几乎无穷无尽,使用人工智能是我们浏览网站和尽可能高效分析数据的最佳手段。不过,它或许还需要再加点儿“人情味”。
责编AJX

收藏 人收藏
分享:

评论

相关推荐

谁能率先越过机器人行业的黎明前夜?

谁能率先越过黎明前夜? 1.一线入局的2020 每年9月在上海举办的中国国际工业博览会,可以说是观察....
的头像 甲子光年 发表于 12-04 17:21 315次 阅读
谁能率先越过机器人行业的黎明前夜?

越来越多的机器人上岗会影响就业吗

从短期看,人工智能对就业总量影响相对温和,结构影响重于数量影响,但就业结构性矛盾处于上升通道,潜在的....
的头像 如意 发表于 12-04 16:54 138次 阅读
越来越多的机器人上岗会影响就业吗

如何确保AI和机器学习项目的风险和安全性?

人工智能和机器学习在带来好处的同时也带来了新的漏洞。本文介绍了几家公司是如何将风险降到最低的。
的头像 如意 发表于 12-04 16:48 292次 阅读
如何确保AI和机器学习项目的风险和安全性?

PLC到底是什么

 很多初学者都在为一个英文缩写(PLC)而烦恼。PLC是什么、什么是PLC?PLC是什么意思?
发表于 12-04 16:46 80次 阅读
PLC到底是什么

中国人工智能+医疗机器人发展迅速,2019年市场规模达43.2亿元

近年来,在数字经济不断推进的大背景下,人工智能发展迅速,并与多种应用场景深度融合,逐渐成为推动经济创....
的头像 牵手一起梦 发表于 12-04 16:18 239次 阅读
中国人工智能+医疗机器人发展迅速,2019年市场规模达43.2亿元

如何在传感器领域实现突破?

目前,传感器产业已被国内外公认为具有发展前途的高技术产业,它以技术含量高、经济效益好、渗透力强、市场....
发表于 12-04 16:16 121次 阅读
如何在传感器领域实现突破?

中科创达联合创新中心暨高通AI创新实验室揭牌

由浙江杭州未来科技城管理委员会、高通(中国)控股有限公司(Qualcomm)、中科创达软件股份有限公....
的头像 lhl545545 发表于 12-04 15:55 185次 阅读
中科创达联合创新中心暨高通AI创新实验室揭牌

工业机器人有哪些突发事故?

  1) 低速动作突然变成高速动作。   2) 其他作业人员执行了操作。   3) 因周边设备等发生异常和程序错误,启动了不同...
发表于 12-04 15:54 0次 阅读
工业机器人有哪些突发事故?

阿里研发全新3D AI算法,2D图片搜出3D模型

AI技术的研究正在从2D走向更高难度的3D。12月3日,记者获悉,阿里技术团队研发了全新3D AI算....
的头像 工程师邓生 发表于 12-04 15:49 307次 阅读
阿里研发全新3D AI算法,2D图片搜出3D模型

直面AI痛点 博观智能重磅发布博观全景AI “1+2”战略

伴随着数字化、智能化时代全面到来,传统行业数智化升级需求进入爆发期,与此同时AI技术在落地赋能过程中....
的头像 Les 发表于 12-04 15:42 137次 阅读
直面AI痛点 博观智能重磅发布博观全景AI “1+2”战略

Opteyes尝试结合AR和AI打造虚拟试戴服务

众所周知,微软 HoloLens 这样的比较成熟的 AR 产品仍然在探索应用场景,以致于人们想起 A....
的头像 DeepTech深科技 发表于 12-04 15:26 232次 阅读
Opteyes尝试结合AR和AI打造虚拟试戴服务

如今AI除了“看”还能“闻”?

人眼可以区分数百万种颜色,人耳可以听出 50 万种音调,而与人类的嗅觉能力相比,这都有些逊色。早在 ....
的头像 DeepTech深科技 发表于 12-04 15:20 262次 阅读
如今AI除了“看”还能“闻”?

搬运机器人如何实现更快的搬运物料

随着科技的快速发展,搬运机器人越来越受到大家的欢迎,那么搬运机器人怎么搬运物料更快呢?
的头像 牵手一起梦 发表于 12-04 15:14 45次 阅读
搬运机器人如何实现更快的搬运物料

华为演示AI视频超分技术,可将540P变成1080P

当下,4K、8K等超高分辨率视频不断普及,人们欣赏视频的“眼光”提升,对画质有了更高的要求。
发表于 12-04 15:14 211次 阅读
华为演示AI视频超分技术,可将540P变成1080P

云知声在AI投资浪潮中被资本追捧的AI企业

在算力方面,其自成立第一年即搭建了面向深度学习的小规模GPU集群,随着计算需求增加和集群规模扩大,2....
的头像 半导体投资联盟 发表于 12-04 15:12 414次 阅读
云知声在AI投资浪潮中被资本追捧的AI企业

天津人脸识别正式立法,自2021年1月1日起施行

近日,《天津市社会信用条例》12月1日表决通过,自2021年1月1日起施行。 而在《条例》第十六条则....
的头像 Les 发表于 12-04 14:54 269次 阅读
天津人脸识别正式立法,自2021年1月1日起施行

华人AI科学家邢波出任全球首所人工智能大学校长

当地时间 11 月 29 日,穆罕默德・本・扎耶德人工智能大学(Mohamed bin Zayed ....
的头像 DeepTech深科技 发表于 12-04 14:50 261次 阅读
华人AI科学家邢波出任全球首所人工智能大学校长

国内工业机器人市场将迎来新的增长机遇

随着制造业的快速发展,特别是制造业转型升级以及智能化、数字化、网联化变革的推进,使得国内工业机器人产....
发表于 12-04 14:48 131次 阅读
国内工业机器人市场将迎来新的增长机遇

AI构建健康保障领域新基建

11 月 20 日,于苏州相城举办的 EmTech China 2020 全球新兴科技峰会上,水滴公....
的头像 DeepTech深科技 发表于 12-04 14:45 282次 阅读
AI构建健康保障领域新基建

Facebook押注VR领域的原因分析

近日有消息称,不少虚拟现实(VR)初创企业纷纷指责脸书(Facebook)采取非法策略排挤竞争对手,....
发表于 12-04 14:42 135次 阅读
Facebook押注VR领域的原因分析

腾讯AI推出“绝悟”完全体

说起 MOBA 类手游,想必大家都能想到王者荣耀。它近日又有了新动作。11 月 28 日腾讯宣布,旗....
的头像 DeepTech深科技 发表于 12-04 14:39 101次 阅读
腾讯AI推出“绝悟”完全体

商用机器人热潮涌动 商业化短板犹存破冰有难度

如今在酒店里,具有聊天功能的迎宾机器人、送餐机器人,越来越常见了。而这些机器人的应用,不只是在酒店行....
的头像 工程师邓生 发表于 12-04 14:38 177次 阅读
商用机器人热潮涌动 商业化短板犹存破冰有难度

中国电信天翼云助力省内智慧城市升级

中国电信天翼云中国行在冰城哈尔滨成功举办,活动以“5G+天翼云+AI与城市共成长”为主题,与产业各界....
的头像 lhl545545 发表于 12-04 14:26 283次 阅读
中国电信天翼云助力省内智慧城市升级

京东物流与锐捷网络在福州举行战略合作协议签约仪式

12月3日,京东物流与锐捷网络在福州万福中心举行战略合作协议签约仪式。双方本着互惠互利、资源共享、优....
的头像 科技观察者 发表于 12-04 11:49 324次 阅读
京东物流与锐捷网络在福州举行战略合作协议签约仪式

澳大利亚新AI技术:极大地提高了AI的决策效率和精准度

近年来,随着人工智能(AI)应用场景需求的不断拓宽,人们对于AI的处理速度、能耗,以及系统、硬件尺寸....
的头像 Les 发表于 12-04 11:40 307次 阅读
澳大利亚新AI技术:极大地提高了AI的决策效率和精准度

巨头扎堆智慧城市,科大讯飞AI加速赶超

近日2020年全球人工智能最具创新力城市榜单公布,合肥排在第四。总部位于合肥的科大讯飞是首大功臣。就....
的头像 璟琰乀 发表于 12-04 11:40 558次 阅读
巨头扎堆智慧城市,科大讯飞AI加速赶超

后疫情时代AI+医疗有望迎来大发展

人工智能的勃兴已经成为推动社会经济发展的新动力之一,它在提高社会生产效率、实现社会发展和经济转型等方....
的头像 璟琰乀 发表于 12-04 11:27 281次 阅读
后疫情时代AI+医疗有望迎来大发展

人工智能实验室建设情况汇总

目前,在AI人才培养、AI技术成果转化方面,我国已有不少高校成立了独立的人工智能研究院,包括浙江大学....
发表于 12-04 11:19 211次 阅读
人工智能实验室建设情况汇总

九号公司成立四大机器人新架构,支撑起机器人远大梦想 

10月底,VIE+CDR第一股九号公司(证券代码:689009.SH)正式登陆科创板,激起资本圈千层....
的头像 Les 发表于 12-04 11:15 153次 阅读
九号公司成立四大机器人新架构,支撑起机器人远大梦想 

佳帆科技斩获5G应用大奖

11月26日,2020年世界5G大会在广州召开。从智能硬件到机器人,从AI到工业互联网,在5G加持下....
的头像 璟琰乀 发表于 12-04 11:14 89次 阅读
佳帆科技斩获5G应用大奖

Google气球互联网:用 AI 控制气球导航,不怕 WiFi 被 “吹”出服务区

更长的飞行时间,更少的能量消耗,更复杂的飞行动作。这是 Google「气球互联网」项目 Projec....
的头像 工程师邓生 发表于 12-04 11:11 154次 阅读
Google气球互联网:用 AI 控制气球导航,不怕 WiFi 被 “吹”出服务区

中科创达联合高通推出AI创新实验室成功投入使用

2020年12月3日,由浙江杭州未来科技城管理委员会、高通(中国)控股有限公司(Qualcomm)、....
的头像 lhl545545 发表于 12-04 11:02 548次 阅读
中科创达联合高通推出AI创新实验室成功投入使用

谷歌解雇知名AI研究员:谷歌和格布鲁均尚未对相关置评请求作出回应

北京时间12月4日早间消息,谷歌的知名人工智能(AI)研究员蒂姆尼特格布鲁(Timnit Gebru....
的头像 工程师邓生 发表于 12-04 10:58 188次 阅读
谷歌解雇知名AI研究员:谷歌和格布鲁均尚未对相关置评请求作出回应

博观智能重磅发布全景AI品牌战略

伴随着数字化、智能化时代全面到来,传统行业数智化升级需求进入爆发期,与此同时AI技术在落地赋能过程中....
的头像 璟琰乀 发表于 12-04 10:50 148次 阅读
博观智能重磅发布全景AI品牌战略

机器人商业化短板犹存,破冰有难度

如今在酒店里,具有聊天功能的迎宾机器人、送餐机器人,越来越常见了。而这些机器人的应用,不只是在酒店行....
的头像 Les 发表于 12-04 10:46 116次 阅读
机器人商业化短板犹存,破冰有难度

并联机器人存在的痛点及应用

根据GGII数据统计,以中国内地市场为例,2014年并联机器人市场销量约620台,2015年销量约9....
发表于 12-04 10:45 90次 阅读
并联机器人存在的痛点及应用

浅析后摩尔时代的AI革命

机器学习已然无处不在。它藏身于很多智能设备中,一部智能手机、一个智能音响、线上购物娱乐的一个个APP....
的头像 我快闭嘴 发表于 12-04 10:44 225次 阅读
浅析后摩尔时代的AI革命

光驱纳米芯片问世:提高AI的决策效率和精准度

近年来,随着人工智能(AI)应用场景需求的不断拓宽,人们对于AI的处理速度、能耗,以及系统、硬件尺寸....
的头像 璟琰乀 发表于 12-04 10:34 104次 阅读
光驱纳米芯片问世:提高AI的决策效率和精准度

九号首次架构调整:成立四大机器人团队

12月3日,九号公司(上市更名前为:九号机器人)进行上市后首次架构调整,原机器人各个业务部门在架构调....
的头像 工程师邓生 发表于 12-04 10:14 170次 阅读
九号首次架构调整:成立四大机器人团队

九号机器发生新部门及人事任命变动

12月3日,九号公司(上市更名前为:九号机器人)进行上市后首次架构调整,原机器人各个业务部门在架构调....
的头像 lhl545545 发表于 12-04 10:05 227次 阅读
九号机器发生新部门及人事任命变动

浅谈骁龙888名字的由来

高通技术公司高级副总裁兼移动、计算及基础设施业务总经理阿力克斯·卡图赞(Alex Katouzian....
的头像 lhl545545 发表于 12-04 10:03 933次 阅读
浅谈骁龙888名字的由来

陈世卿:人类未来将拥有 “第三脑”,5G让一切加速

5G 带来了大量数据,问题是数据能干嘛?假如不能把它变成应用场景,一点用都没有。 5G 时代的到来使....
的头像 璟琰乀 发表于 12-04 10:00 129次 阅读
陈世卿:人类未来将拥有 “第三脑”,5G让一切加速

人工智能对我国就业有何影响?

  从短期看,人工智能对就业总量影响相对温和,结构影响重于数量影响,但就业结构性矛盾处于上升通道,潜....
的头像 我快闭嘴 发表于 12-04 09:37 149次 阅读
人工智能对我国就业有何影响?

人脸识别和AI的关系

随着AI 的浪潮发展,AI 的应用场景越来越广泛,其中计算机视觉更是运用到我们生活中的方方面面。 作....
的头像 电子发烧友网 发表于 12-04 09:21 159次 阅读
人脸识别和AI的关系

浅谈骁龙888和骁龙865差异

近日,高通在其2020年技术峰会活动上正式发布了其首款5nm旗舰移动平台骁龙888。
的头像 lhl545545 发表于 12-04 09:20 363次 阅读
浅谈骁龙888和骁龙865差异

《AI 概论》教师手册(第二篇)——AI的基礎知識

1. 簡介人工智慧(AI) 人工智慧的定義 • 人工智慧(Artificial intelligence,簡稱AI),是指讓電腦能夠表現出與人類相類...
发表于 12-03 16:48 101次 阅读
《AI 概论》教师手册(第二篇)——AI的基礎知識

依图科技经营业务从软件产品逐渐演进到软件和自研硬件产品组合

同时,依图科技经营业务结构调整也导致其前五大客户更迭频繁,且前五大客户的营收占比呈现逐年增长的态势。....
的头像 半导体投资联盟 发表于 12-03 16:45 510次 阅读
依图科技经营业务从软件产品逐渐演进到软件和自研硬件产品组合

高通加速推动5G扩展应用

论坛期间,新华网就5G助力疫情防控、5G扩展、全球化合作等话题,专访前来参会的高通公司中国区董事长孟....
发表于 12-03 16:40 124次 阅读
高通加速推动5G扩展应用

AI 赋能,带来质的飞跃,全自动环境监测或成现实

在电影《飞屋环游记》中,男主人公用一大堆气球将自己的小木屋带上天空,并通过增减气球、手动施力来改变气....
的头像 Les 发表于 12-03 16:35 309次 阅读
AI 赋能,带来质的飞跃,全自动环境监测或成现实

5G应用为网络安全带来全新挑战

伴随着行业应用的不断拓展和产业协同的加速推进,正式商用一年的5G快速改变着人们的生产生活,为数众多的....
的头像 lhl545545 发表于 12-03 16:27 586次 阅读
5G应用为网络安全带来全新挑战

AI概论: <TensorFlow + Excel>可操作教案(Part-B:AI头脑+机器人行为)

任务九: 让AI自动提取特征 任务十: 如何教导AI分辨与? 任务十一: 收集您喜欢的图片,来引导AI自我学习 任务十二...
发表于 12-01 16:07 0次 阅读
AI概论: <TensorFlow + Excel>可操作教案(Part-B:AI头脑+机器人行为)

协作型机器人的应用类型

  工业4.0的制造前景包括从自动化制造向智能制造概念的转变。工业4.0发展中的一大期望是在小批量生产中满足客户对产品变化的需...
发表于 12-01 14:24 0次 阅读
协作型机器人的应用类型

医疗机器人在医疗器械行业有哪些应用?

  医疗机器人在疫情防控方面做出了巨大努力,得到了医护人员和患者的广泛认可。在火神山医院的整套系统软件中,格蕾丝发布了诊...
发表于 11-30 15:16 0次 阅读
医疗机器人在医疗器械行业有哪些应用?

智能救援机器人的功能和作用

  智能机器人配有许多能够识别环境参数的ADM238LJR传感器,可以采集蒸汽成分、现场图像界面、障碍物等信息。该无线数据传...
发表于 11-30 15:10 0次 阅读
智能救援机器人的功能和作用

世平集团推出基于Rockchip RK3399的服务型机器人方案

服务型机器人市场的主要“玩家”包括医疗器械公司 Intuitive Surgical、iRobot、谷歌(微博)、德国的库卡(美的控股)和中国的...
发表于 11-30 06:32 0次 阅读
世平集团推出基于Rockchip RK3399的服务型机器人方案

MOS模块在电摩电机控制器,无人物流机器人和AGV应用DEMO方案分享

MOS模块在电摩电机控制器,无人物流机器人和AGV应用DEMO方案...
发表于 11-26 15:53 246次 阅读
MOS模块在电摩电机控制器,无人物流机器人和AGV应用DEMO方案分享

机器人制造中常用的传感器技术有哪些?

传感器(Sensor)是一种常见的却又很重要的器件,它是感受规定的被的各种量并按一定规律将其转换为有用信号的器件或装置。对于传感...
发表于 11-25 07:28 202次 阅读
机器人制造中常用的传感器技术有哪些?

Hi3861制作的蜘蛛机器人模型

用的是Hi3861+pca9685+电源模块
发表于 11-24 16:09 704次 阅读
Hi3861制作的蜘蛛机器人模型