机器学习必需数据标注,人工标注帮助AI快速落地

2019-09-20 10:29 次阅读

“目前我国已有庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。”

目前人工智能落地场景不断丰富,智能化应用正改变着我们的生活。而在AI产业高速发展的背后,数据标注师这个新职业的从业人数也正在壮大。数据标注行业流行着一句话,“有多少智能,就有多少人工”。目前AI算法能学习的数据,必须通过人力逐一标注,这些人力为AI产业提供养料,构建了AI金字塔的基础。

近日,支付宝公益基金会、阿里巴巴人工智能实验室联合中国妇女发展基金会在贵州铜仁万山区启动了“AI豆计划”,这是该计划在全国启动的第一个试点地区。作为一种 “AI+扶贫”的公益新模式,计划旨在通过AI产业释放出的大量就业机会,在贫困地区培训相关职业人才、孵化社会企业,让贫困群众实现在家门口就业脱贫。

这些从业者不需要背井离乡,她们可以受训上岗,为AI机器学习进行数据的分类和标注工作,让机器可以快速学习和认知文字、图片、视频等内容,成为一名“AI培育师”。

机器学习必需数据标注

AI数据标注员被称作“人工智能背后的人工”。“数据是人工智能的血液。当下是大数据基础上的人工智能,是数据智能的深度学习时代,可以说谁掌握了数据,谁就有可能做好。”中科院自动化所研究员、视语科技创始人王金桥告诉科技日报记者。他解释,当前的人工智能也被称作数据智能,在这个发展阶段,神经网络层数越多,神经网络越深,需要用于训练的数据量越大,“比如目前人脸识别做得好的是中青年人脸识别系统,因为年轻人坐车住酒店,采集的数据量大,小孩和老年人数据相对较少。”

但同时,只有数据是没用的。对于深度学习来讲,数据只有加上标签才有意义,才能用于机器的学习和进化。“标注是一个必须的工作。”王金桥说。

王金桥介绍,从数据的收集、清洗、标注到校验都离不开人工。数据标注最基本的就是画框,比如检测目标是车,标注员就需要把一张图上的所有车都标出来,画框要完全卡住车的外接矩形,框得不准确机器就可能“学坏”。再比如人的姿态识别,就包括18个关键点,经过训练的标注员才能掌握这些关键点的标注,标注完成的数据也才能符合机器学习的标准。

不同的数据类型对标注员的要求也不一样。除了一般较为简单、可以通过培训掌握的标注,还有一些需要专业背景的标注,比如在医疗数据标注中,标注员需要做医疗图像的分割,把肿瘤区域标出来,类似工作就需要看得懂片子的医生完成。再比如地方方言或外国文字,需要的也是掌握那门语言的标注员。

人工标注帮助AI快速落地

随着人工智能的发展,数据的训练量非常大,数据标注公司应运而生,这些公司以网络方式运作,一个平台有产品经理和项目经理,接到一个任务就找人来做,大家通过网络群组报名后,由产品经理来培训,之后各自领取自己的任务,登录账号进行标注,检验经理校验合格后就付钱,不合格则需要重新修正。

“目前已经形成庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。”王金桥说,“这个阶段数据对性能的贡献是最大的,数据越多越丰富、代表性越强、模型效果越好,算法的健壮性和鲁棒性就越强。目前情况是大部分AI公司都还没有实现盈利,但标注公司除外。”

据王金桥介绍,国外也是一样,无人零售、无人驾驶等都需要大量的人力,基于用工成本的问题,除了隐私数据之外,他们会把标注工作放在第三世界国家完成,马来西亚、泰国、印度等国家都有数据标注分公司。

常见的报道中,数据标注总被描述为“血汗工厂”,这项工作和从业者被描述得廉价低质,人被重复性机械式的劳动异化。在王金桥的解释下,这一刻板印象也被逐渐打破。

他直言,目前这种大量的人工标注是有价值的,因为理论上解决问题很难,但有了大量数据,设计深度学习网络,可以在特定场景特定应用中用数据训练神经网络,从而在很多场景中可以让AI快速落地占领市场、驱动行业应用、促进行业升级和迭代。

“比如在手机玻璃缺陷、高铁轨道的缺陷、电网高压线绝缘子损坏等检测工作中,无人机拍摄画面后,由人来检测,随着数据量增加,机器得到的训练越来越充分,机器慢慢可以自动检测,类似工作可以很大程度上由机器代劳。”王金桥说,目前人工智能的智能性虽然比较弱,但在各行各业都会带来改变,这是AI推动产业革命的机会。

数据标注需求持续增加

“现在科研界研究的都是无监督、小样本的深度学习,通过三维合成数据,用虚实结合的数据生成方式来训练机器,尽量减少数据的采集和标注,让机器自主学习、自主进化。”王金桥说,但由于缺乏理论上的突破性技术,所以虽然技术增长速度很快,但整体水平还比较低,目前的深度学习还是依赖基于统计意义的大数据模型,这要求数据足够多、足够均衡、基本满足真实世界的分布。

因此,标注这项工作会一直存在。

但王金桥也表示,随着无监督、小样本深度学习的进步,重复性标注的工作量会越来越少。“机器的识别和人一样,人经过几千年的进化,用语言用文字记录和存储几千年的文明,所以看到桌子就知道是桌子,看到灵芝知道是灵芝。机器也需要不断理解更多的内容,有数据标签,它才能学习,才会有智能。数据的加工是一个长期存在的过程,由画框到基础词汇,慢慢形成自己的知识图谱,才能自我推理和思考。”

目前的数据标注公司基本采取“计件付费”的模式,标注员的待遇与任务量和难度直接相关,熟练工一天能标几千张图片,月收入最高过万。这项工作也有一定专业性,受过培训才知道怎么标、标得清楚,人也要认真细心。“每天产生的数据量太大了,数据量持续增加,对标注的需求也持续增加。”王金桥说。

据阿里巴巴集团副总裁、阿里巴巴人工智能实验室总经理陈丽娟介绍,贵州万山仅仅是一个起点,未来项目的整体规划将聚焦贫困地区,寻找更多更适合发展“AI标注”产业的地区来落地。同时,也希望更多的人工智能企业加入,把AI标注的订单定向输送给贫困地区,为贫困群众提供更多就业机会。陈丽娟说。

延伸阅读

AI数据服务发展新方向:细分化、多模态、专业化

数据表明,当前AI发展出现了细分化、多模态以及专业化三大特征。相应的,新变化对于AI数据服务行业也形成了一定的影响与方向指引。

当前AI已经进入技术落地阶段,应用场景涉及安防、金融、家居、交通等各大行业。而未来,在数据标注行业,从业者也将随着AI行业而一同进入细分市场追逐阶段。

同时多模态也成为了AI技术发展的一个特征。所谓多模态,即是对多维时间、空间、环境数据的感知与融合。如当前的自动驾驶需要雷达+摄像头才能跑的更稳,安防行业需要摄像头+雷达红外RFID才能感知得更精准、更真实。而在数据服务产业,企业也需要适应AI技术发展的多模态特征,掌握对多维传感器融合的数据采集与标注。

此外,尽管当前AI技术已经进入落地阶段,但是头部AI企业的落地场景相较传统行业的AI落地场景,在技术上会更有前沿性。而这些企业的一些先进技术研究也很有可能成为未来数据服务行业的一大发展方向,所以数据服务企业也需要在这些前沿场景中不断探索,才能在行业竞争中获得长期发展。

收藏 人收藏
分享:

评论

相关推荐

四轴机器人编程与应用

主题简介:本次直播主要讲解四轴机器人控制器基本原理及组成。四轴机器人的核心技术内嵌人工智能算法的工业级运动控制技术和伺服
发表于 10-30 00:00 11587次 阅读
四轴机器人编程与应用

今年的乌镇大会,大佬们都在关心这些话题

来源:全天候科技 10月21日,主题为智能互联 开放合作 携手共建网络空间命运共同体的第六届世界互联....
的头像 刘伟DE 发表于 10-22 11:34 0次 阅读
今年的乌镇大会,大佬们都在关心这些话题

具有情感识别的人工智能将以最新趋势迅速发展

随着人工智能被用来做出关于我们生活的更多决定,工程师们寻求了使其更具情感智能的方法。这意味着要自动执....
发表于 10-22 10:44 16次 阅读
具有情感识别的人工智能将以最新趋势迅速发展

人工智能的服务市场即将迎来突破性的发展

人工智能即服务使人们和组织可以针对不同目的探索有关AI的不同途径,而无需进行大量的先发猜测,并且机会....
发表于 10-22 10:35 53次 阅读
人工智能的服务市场即将迎来突破性的发展

人工智能时代下实体零售如何实现数字化创新

5G+AI赋能实体零售将成为可以落地的切实措施,随着AI+的不断实践应用,国内的人工智能企业逐渐摸索....
发表于 10-22 10:25 13次 阅读
人工智能时代下实体零售如何实现数字化创新

飞利浦技术专家分享:10多年学习、职场进阶之路

我总结了10多年的学习和实践经验,把他打造成了完整的学习路线提供给大家,希望能够最终让大家快速入门,....
的头像 Duke 发表于 10-22 09:48 0次 阅读
飞利浦技术专家分享:10多年学习、职场进阶之路

ZCU102,ZCU104和ZCU106有什么区别?

嗨, 看起来ZCU104是ZCU102和ZCU106的升级版本,具有支持机器学习的额外功能,但更便宜? 最好的祝愿, 花环...
发表于 10-22 09:19 22次 阅读
ZCU102,ZCU104和ZCU106有什么区别?

将嵌入式引进机器学习这样eIQ就足够了吗

各个领域都需要创新,都需要发展,同时随着产品越来越复杂,具有了更强大的处理能力和更高的速度,使得机器....
发表于 10-22 08:56 13次 阅读
将嵌入式引进机器学习这样eIQ就足够了吗

新一代信息技术与制造业融合将成为推动我国经济高质量发展的重要动力

苗圩指出,当前,新一轮科技革命和产业变革孕育兴起,以5G、人工智能、虚拟现实等为代表的新一代信息技术....
发表于 10-22 08:49 17次 阅读
新一代信息技术与制造业融合将成为推动我国经济高质量发展的重要动力

无人机融合人工智能可以得到什么好处

在人工智能得到高速发展的新时代,以人工智能为核心的新经济,推动着传统行业改革,发展,走上一条更智能的....
发表于 10-21 17:22 51次 阅读
无人机融合人工智能可以得到什么好处

AI和传感器怎样为农业改头换面

AI是人工智能的缩写,它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新....
发表于 10-21 17:17 57次 阅读
AI和传感器怎样为农业改头换面

物联网技术如何进入实体零售行业

智能传感器对于收集整个商店信息并帮助商店管理层及时做出反应也至关重要。
发表于 10-21 17:02 114次 阅读
物联网技术如何进入实体零售行业

当通信网络引入人工智能技术会怎么样

移动通信产业30年以来,从来没有哪一代移动通信技术像5G这样,在短短一年时间内就实现了标准、频谱、终....
发表于 10-21 16:26 38次 阅读
当通信网络引入人工智能技术会怎么样

人工智能下一个春天的领域在哪里

情感计算研究就是试图创建一种能感知、识别和理解人的情感,并能针对人的情感做出智能、灵敏、友好反应的计....
发表于 10-21 15:36 39次 阅读
人工智能下一个春天的领域在哪里

工程院院士倪光南:新一代技术能提高人民经济和生活到一个新的阶段

10月20日消息,第六届世界互联网大会在乌镇开幕。在中外部长高峰论坛上,中国工程院院士倪光南发表演讲....
的头像 牵手一起梦 发表于 10-21 14:32 222次 阅读
工程院院士倪光南:新一代技术能提高人民经济和生活到一个新的阶段

中国移动杨杰:构建智慧社会要推动新一代信息通讯技术融入民生

10月20日消息,第六届世界互联网大会在乌镇开幕。在中外部长高峰论坛上,中国移动董事长杨杰发表演讲称....
的头像 牵手一起梦 发表于 10-21 14:28 146次 阅读
中国移动杨杰:构建智慧社会要推动新一代信息通讯技术融入民生

AI换身体的背后是什么

“深度伪造”(Deepfake)是英文“deep learning”(深度学习)和“fake”(伪造....
发表于 10-21 14:27 25次 阅读
AI换身体的背后是什么

人工智能带来了是简单工作还是失业

新的AI技术必然有新增资本进入,就带来了全新的工作职位,这是AI的第二个影响——技术变革补充劳动力。
发表于 10-21 14:23 39次 阅读
人工智能带来了是简单工作还是失业

高通通过“发明-分享-协作”的商业模式加速实现“万物智能互连”

2019年10月18日,“AI物联·智慧世界”——2019智能物联网大会在潍坊盛大开幕。此次大会由潍....
的头像 牵手一起梦 发表于 10-21 14:21 311次 阅读
高通通过“发明-分享-协作”的商业模式加速实现“万物智能互连”

荣耀集团总裁赵明:5G相关产业将会是百万亿人民币级别的大市场

10月21日消息,第六届互联网大会在乌镇举行,在网络文化与青年分论坛上,荣耀集团总裁赵明发表演讲称,....
的头像 牵手一起梦 发表于 10-21 14:07 237次 阅读
荣耀集团总裁赵明:5G相关产业将会是百万亿人民币级别的大市场

2020年的医疗面临什么问题

健康数据在网络犯罪世界中是一种有价值的商品,这自然而然的使它成为了盗窃的目标。
发表于 10-21 11:56 22次 阅读
2020年的医疗面临什么问题

济南市已率先实现了基于5G应用的智慧化物流园区

这一物流园区是济南市率先实现5G应用的智慧化物流园区,园区利用5G、人工智能和大数据等先进技术,采用....
发表于 10-21 11:38 265次 阅读
济南市已率先实现了基于5G应用的智慧化物流园区

采矿行业的现状还可以通过AI技术改变吗

即使是在这个非常具体的行业当中,人工智能与机器学习同样有望成为提高效率、有效性、改善环境以及安全问题....
发表于 10-21 11:08 32次 阅读
采矿行业的现状还可以通过AI技术改变吗

360借条是如何利用AI技术解决难题的

通过人工智能的广泛应用,360借条将在解决暴力催收的行业乱象中,走出一条属于自己的科技之路,为用户带....
发表于 10-21 10:50 184次 阅读
360借条是如何利用AI技术解决难题的

广电媒体新闻在人工智能的时代有了什么改变

数据是新闻生产的新思维、新资源,人工智能技术的应用是以大数据资源和内容资源为基础的。
发表于 10-21 10:45 114次 阅读
广电媒体新闻在人工智能的时代有了什么改变

通用人工智能什么时候才能实现

智能机器人未来发展的趋势是基于认知脑计算模型、类脑信息处理技术来构建机器脑,利用机器脑直接控制机器人....
发表于 10-21 10:39 60次 阅读
通用人工智能什么时候才能实现

机器人如何读懂文字中的情感

以人工智能技术助力更多行业、机构及个人拥抱AI时代,分享AI发展的红利。
发表于 10-21 10:24 32次 阅读
机器人如何读懂文字中的情感

AI给市场营销带来了什么改变

互联网通信和交互式媒体的发展使营销进入数字化时代——数字营销已成为品牌借助科技力量进行营销的主要模式....
发表于 10-21 10:18 30次 阅读
AI给市场营销带来了什么改变

智慧银行有什么新的创新应用

人工智能技术和应用的蓬勃发展为银行行业带来了新动力,但在实际的场景落地过程中,仍然充满挑战。
发表于 10-21 10:13 40次 阅读
智慧银行有什么新的创新应用

人工智能医疗现在有什么“错位”

中国AI医疗发展有“四个错位”,分别在应用场景、商业模式、数据质量和相关人工智能政策四个方面。
发表于 10-21 10:08 143次 阅读
人工智能医疗现在有什么“错位”

人工智能最大的作用应该是帮助人类进行决策

人说到底还是一种环境适应性动物,在本能状态下,给一个刺激就会有一个对应的反应,情绪是这种反应之一,而....
发表于 10-21 10:06 74次 阅读
人工智能最大的作用应该是帮助人类进行决策

AI时代深度学习平台必须具备怎样的条件

深度学习平台在AI时代下一定要对接芯片,要做软硬一体的优化,一定程度上相当于芯片里面的指令集。
发表于 10-21 10:04 34次 阅读
AI时代深度学习平台必须具备怎样的条件

人工智能视频检索技术或将诞生新的曙光

在社会高速发展的今天,互联网数据催生出人工智能、大数据和云计算等信息技术,也催生出了诸如旷视科技、商....
发表于 10-21 10:01 33次 阅读
人工智能视频检索技术或将诞生新的曙光

互联网升级如何利用好人工智能技术

在大数据、人工智能等新兴技术与教学深度结合的大背景下,尚德机构通过数据化、智能化提升教学水平和效率。
发表于 10-21 09:57 18次 阅读
互联网升级如何利用好人工智能技术

如何推动人工智能系统的发展

人工智能正在改变世界各地的产业,无论是零售业的个性化消费体验、工业的预测维修、交通行业的舱内体验、智....
发表于 10-21 09:52 330次 阅读
如何推动人工智能系统的发展

人工智能时代开始来了吗

如果按照人工智能会取代人工的想法,其实所有的工作都是能够被取代的。
发表于 10-21 09:47 42次 阅读
人工智能时代开始来了吗

人工智能是什么,它是如何定义的

查找各种资料后你会发现,对于人工智能并没有一个清晰而明确的定义。部分人认为“人工智能就是对理性主体的....
发表于 10-21 09:41 118次 阅读
人工智能是什么,它是如何定义的

基于5G新空口的NR-V2X车联网技术的发展阶段探讨

从应用角度讲,LTE-V2X的设计目标主要是支持辅助驾驶,提升道路安全及提高效率和舒适性;NR-V2....
发表于 10-21 09:40 183次 阅读
基于5G新空口的NR-V2X车联网技术的发展阶段探讨

人工智能在行业中的应用是怎样的

人工智能实现计算机视觉,图像检测和深度学习,以制造能够自动检测物体并在无人干预的情况下行驶的汽车。
发表于 10-21 09:40 407次 阅读
人工智能在行业中的应用是怎样的

人工智能的技术结构是怎样的

深度学习全称深度神经网络,本质上是多层次的人工神经网络算法,即从结构上模拟人脑的运行机制,从最基本的....
发表于 10-21 09:26 674次 阅读
人工智能的技术结构是怎样的

机器人未来的新风向是怎样的

此外,东莞、南沙等地与机器人、人工智能相关的科研院所林立,为人工智能与机器人关键技术研发、技术创新等....
发表于 10-21 09:15 29次 阅读
机器人未来的新风向是怎样的

人工智能与法律的未来会是怎样的

人工智能实际上已经可以将脑力劳动和体力劳动、感知和思维、决策和执行结合到一起,从而更像是一个完整的人....
发表于 10-21 09:10 358次 阅读
人工智能与法律的未来会是怎样的

未来真正的人工智能是怎样的

人工智能的进步将通过重塑交通、健康、科学、金融和军事来改变现代生活。
发表于 10-21 09:03 290次 阅读
未来真正的人工智能是怎样的

AI技术有什么新的发展方向萌芽

随着越来越多的深度学习应用走向日常生活,该技术的局限性也开始受到大量关注,例如对大数据的强依赖、缺少....
发表于 10-21 08:59 26次 阅读
AI技术有什么新的发展方向萌芽

我们能否借助法律来管理人工智能的伦理道德问题

今以人工智能为代表的新一代互联网技术,取得了前所未有的快速发展,已经快速接近人类水准。
发表于 10-21 08:53 26次 阅读
我们能否借助法律来管理人工智能的伦理道德问题

人工智能在新时代具备怎样的潜力

人工智能正在渗透到各个不同的产业,切切实实融入到大众的生产、生活。
发表于 10-21 08:49 23次 阅读
人工智能在新时代具备怎样的潜力

智能经济有着怎样的新趋势

数字经济在经历了PC的发明与普及,PC互联网,移动互联网这三个阶段后,正在进化到以人工智能为核心驱动....
发表于 10-21 08:44 26次 阅读
智能经济有着怎样的新趋势

AI的理智和情感会对我们造成怎样的影响

人工智能不仅不会毁灭人类,反而可以让人们获得“永生”。
发表于 10-21 08:34 155次 阅读
AI的理智和情感会对我们造成怎样的影响

基于ARM9内核的智能灭火机器人怎么设计?

人工智能也称机器智能,是一门研究人类智能机理和如何用计算机模拟人类智能活动的学科。经过50多年的发展,人工智能已形成极广泛...
发表于 10-21 06:39 75次 阅读
基于ARM9内核的智能灭火机器人怎么设计?

广州今年计划全市建成5G基站2万座,重点热点区域实现全覆盖

10月17日消息,作为5G试点城市,今年,广州全市将至少建成5G基站2万座,实现交通枢纽、产业园区和....
发表于 10-20 10:44 81次 阅读
广州今年计划全市建成5G基站2万座,重点热点区域实现全覆盖

深入浅出学习机器学习

万万没想到,枯燥的“机器学习”还可以这样学!...
发表于 10-18 14:17 27次 阅读
深入浅出学习机器学习

FPGA和深度学习有什么关系?

人工智能的风潮从技术一路蔓延到硬件,让“芯片”成为今年行业里盛极一时的主题。人们关注通用芯片领域里CPU和GPU不断刷新...
发表于 10-18 08:30 32次 阅读
FPGA和深度学习有什么关系?

AI的核心是什么?

AI概念笼统,范围广大,到底什么才是AI的核心? ...
发表于 10-18 06:39 51次 阅读
AI的核心是什么?

什么是Cortex-A75?

时光飞逝,好像在昨天我们才刚发布ARM Cortex-A73这款最节能的高效能Cortex应用处理器,转眼之间我们就看到Cortex-A73量...
发表于 10-15 08:28 61次 阅读
什么是Cortex-A75?

用机器学习对人脸进行打分

利用机器学习进行人脸颜值评分
发表于 10-12 15:11 39次 阅读
用机器学习对人脸进行打分

为什么说FPGA是机器深度学习的未来?

  最近几年数据量和可访问性的迅速增长,使得人工智能的算法设计理念发生了转变。人工建立算法的做法被计算机从大量数据中自动...
发表于 10-10 06:45 89次 阅读
为什么说FPGA是机器深度学习的未来?

机器学习在即时配送领域的应用

机器学习在美团配送系统的实践:用技术还原真实世界...
发表于 10-09 06:10 56次 阅读
机器学习在即时配送领域的应用