0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

业务场景数据的采集和标注

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2020-11-02 14:57 次阅读

无论是在传统机器学习领域还是现今炙手可热的深度学习领域,基于训练样本有明确标签或结果的监督学习仍然是一种主要的模型训练方式。尤其是深度学习领域,需要更多数据以提升模型效果。目前,已经有一些规模较大的公开数据集,如ImageNet,COCO等。对于深度学习入门者,这些公开数据集可以提供非常大的帮助;但是对于大部分企业开发者,特别在医学成像自动驾驶工业质检等领域中,他们更需要利用专业领域的实际业务数据定制AI模型应用,以保证其能够更好地应用在业务中。因此,业务场景数据的采集和标注也是在实际AI模型开发过程中必不可少的重要环节。

数据标注的质量和规模通常是提升AI模型应用效果的重要因素,然而完全通过人力手动标注数据建立一个高质量、大规模专业领域数据集却并不容易:标注人员的培训与手工标注成本高、耗时长。为解决此问题,我们可以利用主动学习的方法,采用“Human-in-the-loop”的交互式框架(图1)进行数据标注,以有效减少人工数据标注量。

图1 基于主动学习的“Human-in-the-loop”交互式数据标注框架

主动学习(ActiveLearning, AL)是一种挑选具有高信息度数据的有效方式,它将数据标注过程呈现为学习算法和用户之间的交互。其中,算法负责挑选对训练AI模型价值更高的样本,而用户则标注那些挑选出来的样本。如“Human-in-the-loop”交互式数据标注框架,通过用户已标注的一部分数据来训练AI模型,通过此模型来标注剩余数据,再从中筛选出AI模型标注较为困难的数据进行人工标注,再将这些数据用于模型的优化。几轮过后,用于数据标注的AI模型将会具备较高的精度,更好地进行数据标注。以图像分类问题举例,首先,人工挑选并标注一部分图像数据,训练初始模型,然后利用训练的模型预测其余未标注的数据,再通过“主动学习”中的“查询方法”挑选出模型比较难分辨类别的数据,再人为修正这些“难”数据的标签并加入训练集中再次微调(Fine-tuning)训练模型。“查询方法”是主动学习的核心之一,最常见的“查询方法”有基于不确定性的样本查询策略和基于多样性的样本查询策略。

基于不确定性的样本查询策略可查询出深度学习模型预测时,靠近决策边界的样本。以二分类问题举例,当一个未标注样本被预测为任一标签的概率都是50%时,则该样本对于预测模型而言是“不确定”的,极有可能被错误分类。要注意的是,主动学习是一个迭代过程,每次迭代,模型都会接收认为修正后的标注数据微调模型,通过这个过程直接改变模型决策的边界,提高分类的正确率。

基于多样性的查询策略,可实现对当前深度学习模型下状态未知样本的查询。将通过多样性查询挑选出的数据加入训练集,可丰富训练集的特征组合,提升模型的泛化能力。模型学习过的数据特征越丰富,泛化能力越强,预测模型适用的场景也越广。

为解决大数据量标注的痛点,基于主动学习且融合多样查询策略的智能标注AI解决方案应运而生。通过EasyDL平台使用智能标注后,开发者们只需标注数据集中30%左右的数据,即可启动智能标注在EasyDL后台自动标注剩余数据,再返回少量后台难以确定的数据再次进行人工标注,同时提升自动标注的准确性,经过几轮之后,在实际项目测试中,智能标注功能可以帮助用户节省70%的数据标注量,极大地减少数据标注中的人力成本和时间成本。

EasyDL零门槛AI开发平台,面向企业开发者提供智能标注、模型训练、服务部署等全流程功能,针对AI模型开发过程中繁杂的工作,提供便捷高效的平台化解决方案。目前,EasyDL的智能标注功能已支持计算机视觉CV方向的物体检测模型、图像分割、自然语言处理NLP方向的文本分类模型的数据标注。

智能标注解决了模型开发过程中庞大的数据准备难题,那么在模型训练与部署阶段,EasyDL是否还有其他“武功秘籍”帮助开发者高效开发?

本周六,AI快车道EasyDL零门槛模型训练营来到六朝古都南京,依托桨声灯影里的秦淮河,为这座历史悠久的城市带来AI科技的新气息!

各行业如何做到技术与场景结合,高效用AI?

视觉模型背后的核心技术点如何理解?

从云到端,端侧模型的技术原理与部署如何操作?

模型精度难以提升,有没有关键效果提升技巧尚未掌握?

责任编辑:xj

原文标题:百度工程师带来干货分享,助你转型AI应用工程师!

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据采集
    +关注

    关注

    38

    文章

    4514

    浏览量

    112313
  • AI
    AI
    +关注

    关注

    87

    文章

    26424

    浏览量

    264031
  • 机器学习
    +关注

    关注

    66

    文章

    8116

    浏览量

    130550
  • 深度学习
    +关注

    关注

    73

    文章

    5236

    浏览量

    119900

原文标题:百度工程师带来干货分享,助你转型AI应用工程师!

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    车间数据采集网关的工作原理和应用场景

    在智能制造日益盛行的今天,车间数据采集作为整个生产流程中的关键环节,其重要性愈发凸显。数据采集网关作为这一环节的核心设备,扮演着承上启下的重要角色。本文旨在深入探讨车间数据采集网关的工作原理和应用
    的头像 发表于 03-06 14:42 147次阅读
    车间<b class='flag-5'>数据采集</b>网关的工作原理和应用<b class='flag-5'>场景</b>

    图像标注如何提升效率?

    图像标注是通过一定方式对图像进行标记分类,是对数据集的图像进行标记以训练机器学习模型的过程。当图像数量可控时,用人工标注就可以很快完成任务,但当有海量的图像信息待标注时,长时间的重复动
    的头像 发表于 12-19 08:29 196次阅读
    图像<b class='flag-5'>标注</b>如何提升效率?

    数据采集采集时间间隔该怎么选择

    ,对于需要高精度数据的应用场景,时间间隔应该尽可能短;对于数据量要求较低的场景,时间间隔可以适当增加。 具体来说,可以考虑以下因素来选择数据采集
    的头像 发表于 09-04 09:34 922次阅读

    RocketMQ在业务消息场景的优势有哪些呢?

    RocketMQ 5.0 是消息事件流一体的实时数据处理平台,是业务消息领域的事实标准,很多互联网公司在业务消息场景会使用 RocketMQ。
    的头像 发表于 08-07 11:36 488次阅读
    RocketMQ在<b class='flag-5'>业务</b>消息<b class='flag-5'>场景</b>的优势有哪些呢?

    点云标注在自动驾驶中的难点

    点云标注在自动驾驶中存在一些难点,其中一些包括: 首先,点云数据的复杂性和多样性。自动驾驶汽车在行驶过程中会遇到各种不同的环境和场景,点云数据非常复杂和多样化,这给点云
    的头像 发表于 07-25 11:09 319次阅读

    点云标注在自动驾驶中的挑战

    点云标注在自动驾驶中面临许多挑战,其中一些包括: 首先,点云数据的复杂性和多样性。自动驾驶汽车在行驶过程中会遇到各种不同的环境和场景,点云数据非常复杂和多样化,这给点云
    的头像 发表于 07-20 11:08 271次阅读

    点云标注在自动驾驶中的实践应用与挑战

    点云标注在自动驾驶中扮演着关键的角色,为自动驾驶汽车的感知和决策提供了基础。然而,实际应用中仍然面临一些挑战需要解决。 首先,点云数据的多样性和复杂性给标注带来了困难。在实际场景中,点
    的头像 发表于 07-18 17:00 320次阅读

    点云标注的标准化与数据共享

    点云标注的标准化和数据共享对于自动驾驶技术的发展具有重要意义。通过标准化和数据共享,可以促进点云标注技术的进步,提高自动驾驶汽车的感知和决策能力。 首先,点云
    的头像 发表于 07-13 15:10 392次阅读

    点云标注的挑战与未来发展

    ,点云标注需要处理大量数据和复杂场景。自动驾驶汽车在实际行驶中会遇到各种不同的路况和环境,这需要点云标注系统具备强大的处理能力和泛化能力。 此外,点云
    的头像 发表于 07-10 15:39 362次阅读

    自动驾驶场景图像分割(Unet)

    本文使用matlab环境,测试了自动驾驶场景的图像分割任务。分割网络使用Unet。 一千张标注图像,最终训练精度达到 90%。    数据准备 场景
    发表于 06-07 11:58 0次下载
    自动驾驶<b class='flag-5'>场景</b>图像分割(Unet)

    点云标注简介及其应用

    点云标注是一种将三维空间中的点云数据标注出来的过程,即将点云数据中的每个点标记上对应的标签或者坐标值等信息。点云标注技术在自动驾驶、无人机、
    的头像 发表于 05-26 17:53 3205次阅读

    点云标注技术在智能制造中的应用

    点云标注技术是指通过激光扫描、图像采集等方式获取物体的表面点云数据,然后将点云数据进行处理、标注和建模,实现物体表面特征的提取和识别,为智能
    的头像 发表于 05-23 18:31 470次阅读

    AI数据采集标注类型:揭秘数据采集标注的关键环节

    随着人工智能技术的快速发展,数据采集标注已成为人工智能领域中不可或缺的一部分。数据采集是获取高质量数据的第一步,而数据
    的头像 发表于 05-16 18:04 3017次阅读

    数据标注类相关文章:揭秘数据标注的奥秘

    数据标注类相关文章:揭秘数据标注的奥秘 随着人工智能技术的不断发展,数据标注已成为人工智能领域中
    的头像 发表于 05-16 17:35 536次阅读

    数据标注——数字世界的基石

    在现代社会中,数字技术已经渗透到了各行各业。而数据标注则是数字世界中不可或缺的一环,是保证数据质量和模型效果的必要步骤。下面我们来深入了解一下数据
    的头像 发表于 05-08 18:02 958次阅读