0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习必需数据标注,人工标注帮助AI快速落地

倩倩 来源:lq 作者:中国日报网 2019-09-20 10:29 次阅读

“目前我国已有庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。”

目前人工智能落地场景不断丰富,智能化应用正改变着我们的生活。而在AI产业高速发展的背后,数据标注师这个新职业的从业人数也正在壮大。数据标注行业流行着一句话,“有多少智能,就有多少人工”。目前AI算法能学习的数据,必须通过人力逐一标注,这些人力为AI产业提供养料,构建了AI金字塔的基础。

近日,支付宝公益基金会、阿里巴巴人工智能实验室联合中国妇女发展基金会在贵州铜仁万山区启动了“AI豆计划”,这是该计划在全国启动的第一个试点地区。作为一种 “AI+扶贫”的公益新模式,计划旨在通过AI产业释放出的大量就业机会,在贫困地区培训相关职业人才、孵化社会企业,让贫困群众实现在家门口就业脱贫。

这些从业者不需要背井离乡,她们可以受训上岗,为AI机器学习进行数据的分类和标注工作,让机器可以快速学习和认知文字、图片、视频等内容,成为一名“AI培育师”。

机器学习必需数据标注

AI数据标注员被称作“人工智能背后的人工”。“数据是人工智能的血液。当下是大数据基础上的人工智能,是数据智能的深度学习时代,可以说谁掌握了数据,谁就有可能做好。”中科院自动化所研究员、视语科技创始人王金桥告诉科技日报记者。他解释,当前的人工智能也被称作数据智能,在这个发展阶段,神经网络的层数越多,神经网络越深,需要用于训练的数据量越大,“比如目前人脸识别做得好的是中青年人脸识别系统,因为年轻人坐车住酒店,采集的数据量大,小孩和老年人数据相对较少。”

但同时,只有数据是没用的。对于深度学习来讲,数据只有加上标签才有意义,才能用于机器的学习和进化。“标注是一个必须的工作。”王金桥说。

王金桥介绍,从数据的收集、清洗、标注到校验都离不开人工。数据标注最基本的就是画框,比如检测目标是车,标注员就需要把一张图上的所有车都标出来,画框要完全卡住车的外接矩形,框得不准确机器就可能“学坏”。再比如人的姿态识别,就包括18个关键点,经过训练的标注员才能掌握这些关键点的标注,标注完成的数据也才能符合机器学习的标准。

不同的数据类型对标注员的要求也不一样。除了一般较为简单、可以通过培训掌握的标注,还有一些需要专业背景的标注,比如在医疗数据标注中,标注员需要做医疗图像的分割,把肿瘤区域标出来,类似工作就需要看得懂片子的医生完成。再比如地方方言或外国文字,需要的也是掌握那门语言的标注员。

人工标注帮助AI快速落地

随着人工智能的发展,数据的训练量非常大,数据标注公司应运而生,这些公司以网络方式运作,一个平台有产品经理和项目经理,接到一个任务就找人来做,大家通过网络群组报名后,由产品经理来培训,之后各自领取自己的任务,登录账号进行标注,检验经理校验合格后就付钱,不合格则需要重新修正。

“目前已经形成庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。”王金桥说,“这个阶段数据对性能的贡献是最大的,数据越多越丰富、代表性越强、模型效果越好,算法的健壮性和鲁棒性就越强。目前情况是大部分AI公司都还没有实现盈利,但标注公司除外。”

据王金桥介绍,国外也是一样,无人零售、无人驾驶等都需要大量的人力,基于用工成本的问题,除了隐私数据之外,他们会把标注工作放在第三世界国家完成,马来西亚、泰国、印度等国家都有数据标注分公司。

常见的报道中,数据标注总被描述为“血汗工厂”,这项工作和从业者被描述得廉价低质,人被重复性机械式的劳动异化。在王金桥的解释下,这一刻板印象也被逐渐打破。

他直言,目前这种大量的人工标注是有价值的,因为理论上解决问题很难,但有了大量数据,设计深度学习网络,可以在特定场景特定应用中用数据训练神经网络,从而在很多场景中可以让AI快速落地占领市场、驱动行业应用、促进行业升级和迭代。

“比如在手机玻璃缺陷、高铁轨道的缺陷、电网高压线绝缘子损坏等检测工作中,无人机拍摄画面后,由人来检测,随着数据量增加,机器得到的训练越来越充分,机器慢慢可以自动检测,类似工作可以很大程度上由机器代劳。”王金桥说,目前人工智能的智能性虽然比较弱,但在各行各业都会带来改变,这是AI推动产业革命的机会。

数据标注需求持续增加

“现在科研界研究的都是无监督、小样本的深度学习,通过三维合成数据,用虚实结合的数据生成方式来训练机器,尽量减少数据的采集和标注,让机器自主学习、自主进化。”王金桥说,但由于缺乏理论上的突破性技术,所以虽然技术增长速度很快,但整体水平还比较低,目前的深度学习还是依赖基于统计意义的大数据模型,这要求数据足够多、足够均衡、基本满足真实世界的分布。

因此,标注这项工作会一直存在。

但王金桥也表示,随着无监督、小样本深度学习的进步,重复性标注的工作量会越来越少。“机器的识别和人一样,人经过几千年的进化,用语言用文字记录和存储几千年的文明,所以看到桌子就知道是桌子,看到灵芝知道是灵芝。机器也需要不断理解更多的内容,有数据标签,它才能学习,才会有智能。数据的加工是一个长期存在的过程,由画框到基础词汇,慢慢形成自己的知识图谱,才能自我推理和思考。”

目前的数据标注公司基本采取“计件付费”的模式,标注员的待遇与任务量和难度直接相关,熟练工一天能标几千张图片,月收入最高过万。这项工作也有一定专业性,受过培训才知道怎么标、标得清楚,人也要认真细心。“每天产生的数据量太大了,数据量持续增加,对标注的需求也持续增加。”王金桥说。

据阿里巴巴集团副总裁、阿里巴巴人工智能实验室总经理陈丽娟介绍,贵州万山仅仅是一个起点,未来项目的整体规划将聚焦贫困地区,寻找更多更适合发展“AI标注”产业的地区来落地。同时,也希望更多的人工智能企业加入,把AI标注的订单定向输送给贫困地区,为贫困群众提供更多就业机会。陈丽娟说。

延伸阅读

AI数据服务发展新方向:细分化、多模态、专业化

数据表明,当前AI发展出现了细分化、多模态以及专业化三大特征。相应的,新变化对于AI数据服务行业也形成了一定的影响与方向指引。

当前AI已经进入技术落地阶段,应用场景涉及安防、金融、家居、交通等各大行业。而未来,在数据标注行业,从业者也将随着AI行业而一同进入细分市场追逐阶段。

同时多模态也成为了AI技术发展的一个特征。所谓多模态,即是对多维时间、空间、环境数据的感知与融合。如当前的自动驾驶需要雷达+摄像头才能跑的更稳,安防行业需要摄像头+雷达红外RFID才能感知得更精准、更真实。而在数据服务产业,企业也需要适应AI技术发展的多模态特征,掌握对多维传感器融合的数据采集与标注。

此外,尽管当前AI技术已经进入落地阶段,但是头部AI企业的落地场景相较传统行业的AI落地场景,在技术上会更有前沿性。而这些企业的一些先进技术研究也很有可能成为未来数据服务行业的一大发展方向,所以数据服务企业也需要在这些前沿场景中不断探索,才能在行业竞争中获得长期发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1776

    文章

    43845

    浏览量

    230596
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130556
  • 深度学习
    +关注

    关注

    73

    文章

    5237

    浏览量

    119906
收藏 人收藏

    评论

    相关推荐

    利用AI实现自动图像标注不是梦

    了SpeedDP深度学习算法开发平台,如今平台已经实现移动端使用,可运行于Windows或Linux操作系统,可完成自动标注AI算法开发(项目配置、训练、评估、测
    的头像 发表于 01-04 08:29 660次阅读
    利用<b class='flag-5'>AI</b>实现自动图像<b class='flag-5'>标注</b>不是梦

    图像标注如何提升效率?

    图像标注是通过一定方式对图像进行标记分类,是对数据集的图像进行标记以训练机器学习模型的过程。当图像数量可控时,用人工
    的头像 发表于 12-19 08:29 196次阅读
    图像<b class='flag-5'>标注</b>如何提升效率?

    语音技术的催化剂:语音标注平台的崛起

    数据科学与人类智慧的结合体。它扮演着数据标注的关键角色,将大量的语音数据进行标注,为AI提供
    的头像 发表于 08-18 17:25 257次阅读

    科技前沿的助力:探索语音标注平台的奇迹

    平台无疑成为了一颗璀璨的明星,通过其高效的数据标注和质量控制,推动着人工智能在语音识别领域的巨大飞跃。 语音标注平台是一座连接人类智慧和机器
    的头像 发表于 08-18 17:05 262次阅读

    数据标注工:训练AI,被AI替代

    代延不得不为“AI可能完全取代人”做准备。他带着团队同时做文本标注类别的教辅标注和3D点云标注项目。一个是文字,一个是图片视频。代延做好了一个项目如果被
    的头像 发表于 07-18 16:29 487次阅读
    <b class='flag-5'>数据</b><b class='flag-5'>标注</b>工:训练<b class='flag-5'>AI</b>,被<b class='flag-5'>AI</b>替代

    点云标注的未来发展与技术革新

    和算法,实现自动化标注、自动校验等功能,减少人工干预和误差。同时,点云标注技术将结合计算机视觉、机器学习和优化算法等,实现更加精准的
    的头像 发表于 07-18 15:13 330次阅读

    点云标注的标准化与数据共享

    点云标注的标准化和数据共享对于自动驾驶技术的发展具有重要意义。通过标准化和数据共享,可以促进点云标注技术的进步,提高自动驾驶汽车的感知和决策能力。 首先,点云
    的头像 发表于 07-13 15:10 392次阅读

    点云标注的质量评估与优化

    过程可以将数据转换为标准化的格式,以便于后续的标注和处理。 其次,质量评估包括对标注准确性的评估。对于每个点云数据,需要进行人工检查或验证,
    的头像 发表于 07-10 15:47 475次阅读

    点云标注的挑战与未来发展

    点云标注在自动驾驶中面临着许多挑战。首先,点云数据的质量和精度对标注的准确性有着重要影响。在实际应用中,由于传感器技术和环境的复杂性,点云数据往往存在噪声、缺失等问题,这给
    的头像 发表于 07-10 15:39 362次阅读

    自动驾驶中的点云标注:技术与应用

    、车道线标注、道路标志牌标注等。这些标注数据可以帮助自动驾驶汽车识别路面情况、环境信息以及交通标志,从而实现自主驾驶。 点云
    的头像 发表于 07-10 15:33 1074次阅读

    点云标注简介及其应用

    常重要的一个分支。 点云标注技术主要分为手工标注和自动标注两种方式。手工标注是指通过人工的方式对点云数据
    的头像 发表于 05-26 17:53 3217次阅读

    点云标注技术在智能制造中的应用

    中,点云标注技术主要应用于以下几个方面: 工业机器人的手眼协调 通过点云标注技术,可以实现对机器人工作环境中障碍物的识别和标注,从而实现
    的头像 发表于 05-23 18:31 471次阅读

    AI数据采集标注类型:揭秘数据采集与标注的关键环节

    随着人工智能技术的快速发展,数据采集和标注已成为人工智能领域中不可或缺的一部分。数据采集是获取高
    的头像 发表于 05-16 18:04 3025次阅读

    数据标注类相关文章:揭秘数据标注的奥秘

    数据标注类相关文章:揭秘数据标注的奥秘 随着人工智能技术的不断发展,数据
    的头像 发表于 05-16 17:35 540次阅读

    数据标注——数字世界的基石

    数据标注是指通过人工或自动化的方式,将数据集中的每个数据标注上相应的标签或特征。
    的头像 发表于 05-08 18:02 958次阅读