0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百度推智能数据服务平台EasyData,具有高级智能数据清洗功能

如意 来源:51cto 作者:佚名 2020-09-07 10:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在进行AI模型开发时,数据的数量与质量直接影响模型效果。在实地数据采集之后,企业往往需要从大量数据中筛选出符合训练要求的相关数据,剔除质量差或不相关的数据,这个步骤被称为数据清洗。

通常来讲,在清洗数据时主要会清理掉对训练任务没有用途的数据,例如在训练工厂工人佩戴安全帽识别模型时,希望在视频抽帧后的大量图片中仅保留有工人出现的图片进行标注训练。在这一步骤上,传统做法是进行人工筛选,人力投入较多且容易发生遗漏;随着人工智能发展,目前许多平台,如百度大脑AI开放平台,已经提供人脸检测、人体检测的通用接口,用户可以先调用接口处理数据,筛选出采集到人像的数据,再进入到具体的检测识别步骤。那么,是否有一个集成了各项数据处理能力,尽量减少人工干预,能够自动完成视频数据采集、抽帧、数据清洗、智能标注,从而高效提取高质量训练数据的解决方案呢?

关注到有越来越多的用户对数据处理有强烈需求,今年4月,百度全新推出智能数据服务平台EasyData,集数据采集、数据清洗、数据标注等功能于一身,完成上述数据处理工作之后,可以在EasyDL平台进行模型训练、模型部署。

针对数据清洗这一具体功能,EasyData目前上线了去相似、去模糊、旋转、裁剪和镜像这5种基础的数据清洗功能。那么除了常规能力之外,EasyData还有什么业内独家的终极秘技?

从应用出发,高级清洗功能让数据处理事半功倍

在园区智能管理等场景下,需要监测工厂园区、林区中是否有人闯入,或检查工人是否佩戴安全帽。为了满足此类场景下的图片清洗需求,EasyData上线了高级清洗功能,将无人脸、无人体出现的数据进行过滤。EasyData联动百度大脑AI开放平台提供的前沿技术能力,用户仅需在百度智能云上开通相应的服务(人脸检测和人体检测都可以免费试用),就可以通过简单的配置,在EasyData平台上直接使用这些功能进行自动数据清洗。

1、过滤无人脸图片

如果以前没有用过百度智能云的人脸检测服务,第一次使用高级清洗的功能会提示“申请免费试用”,点击链接会进入百度智能云人脸检测的页面,按照提示,开通服务后,再回到EasyData的页面就可以正常使用了。

和基础的数据清洗服务一样,过滤无人脸图片也是以数据集为单位的。在数据清洗页面选择过滤无人脸图片,点击保存,提交任务就可以进行清洗。如果勾选了“保留标签”,那么不仅会把没有人脸的图片过滤,还会将人脸画框同步至清洗后的数据集。

例如下图,清洗前的数据集除了人脸图片,还有一些风景照、车辆等其他物体的照片,人脸过滤会把这些没有人脸的图片过滤,保留下来包含人脸的图片,包括戴口罩、被遮挡的人脸也可以识别出来。

过滤无人体图片同样会用到百度智能云的人体检测能力,在使用之前需要在百度智能云上开通相应的服务。过滤无人体图片会用到两个接口,人体检测和属性分析(https://ai.baidu.com/tech/body/attr)和人像分割(https://ai.baidu.com/tech/body/seg)。数据集模板为图像分类和物体检测的数据集会调用人体检测和属性分析接口,数据集模板为图像分割的数据集会调用人像分割接口。百度智能云上的人像分割接口返回的是人像图片对应的二值图片(人像为1,背景为0),在后端会执行相应的标签转换,返回的二值图片转换成对应的标签。

关注广泛需求,提供多种基础数据清洗功能

1、去相似图片

用摄像头自动采集图片的时候,由于长时间在同一个场景下,即使做了抽帧处理,还是会有大量的相似图片。大量的相似图片,数据价值低,而且占用了大量的存储空间,而人工筛选,耗时费力,容易出错。EasyData平台推出的去相似图片利用图片的相似检索特征,计算图片的两两相关性,可以自动地判断相似图片、保留不相似的图片,具体操作也十分简便。

如下图所示,去相似前的数据集里有8张图片,根据图片的相似度,图片可以分成3类。清洗完成后的数据集中有3张图片,分别是清洗前的3类图片中的一张。

2、去模糊图片

相机抖动、物体快速移动都会造成拍出来的图片不清晰、产生低质图片。通过人工挑选的方法去除模糊图片缺乏统一的标准,容易漏删或多删。利用EasyData的去模糊图片,可以轻易地去除模糊图片。

以示例图片为例,清洗前有5张图片,画质不一,清洗后保留下来两张高质量的图片。此外,如果用户认为有部分模糊图片没有去除,或者高质量的图片没有保留下来,可以考虑调整清晰度的分值,重新清洗。

对于普通清洗,可以在一个清洗任务中提交多个清洗操作,例如同时勾选去相似、去模糊功能,即可同时去除相似和模糊的图片。

目前的数据清洗服务所能支持的最大数据集大小是5万张图片。基于EasyData平台的大数据处理平台,对于基础清洗服务,2万张图片的数据集,仅需1小时可以完成清洗;5万张图片的数据集,只需2小时即可完成清洗。对于高级清洗服务来说,清洗效率也可以通过配置QPS灵活调整清洗效率,更方便快捷。

考虑到智能园区管理等场景中,有对视频进行截帧、自动上传的需求,EasyData平台也免费提供SDK,供用户进行下载,可以将SDK接入业务现场的数据采集终端,在平台设置截帧时间与间隔,自动将原始视频数据截为图片数据并上传至EasyData平台进行后续处理。

EasyData是百度大脑推出的业内首个提供软硬一体、端云协同的智能数据采集与处理平台,支持图片、文本、音频和视频四类数据的处理,其中图片数据支持了采集、清洗、标注一站式处理,覆盖模型开发中的各类数据管理需求。EasyData处理后的数据可直接应用于EasyDL模型训练,通过EasyDL预训练模型和自动迁移学习机制,高效开发AI模型。
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    42016

    浏览量

    303087
  • 百度
    +关注

    关注

    9

    文章

    2401

    浏览量

    95375
  • 人脸识别
    +关注

    关注

    77

    文章

    4136

    浏览量

    88919
  • 数据分析
    +关注

    关注

    2

    文章

    1525

    浏览量

    36418
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    百度Create 2026发布“百度胜算”

    ;新尺子"取代沿用至今的Token消耗量指标,重新丈量AI时代的真实价值。与此同时,百度智能云同步发布企业数据智能平台 **"
    的头像 发表于 05-17 09:47 1230次阅读

    百度发布DAA新度量衡与四大智能体产品

    近日,百度Create AI开发者大会在北京开幕。百度创始人李彦宏在开幕式上抛出一个重磅概念—— **DAA(日活智能体数,Daily Active Agents)** ,将其定义为AI时代的核心
    的头像 发表于 05-15 10:50 724次阅读

    百度智能云正式发布Hogee

    5月13日,在Create2026百度AI开发者大会上,百度智能云正式发布了一款全新的企业一站式AI营销应用——Hogee。这款产品的亮相,标志着百度
    的头像 发表于 05-15 09:18 804次阅读

    利尔达作为“数据通道与硬件方案”核心伙伴亮相2026百度AI开发者大会

    “芯云模体”全栈能力以支撑智能体应用爆发。百度智能云同步升级为面向大规模智能体应用的“新全栈AI云”,目前服务已覆盖逾千家AI硬件公司。在这
    的头像 发表于 05-14 17:36 311次阅读
    利尔达作为“<b class='flag-5'>数据</b>通道与硬件方案”核心伙伴亮相2026<b class='flag-5'>百度</b>AI开发者大会

    百度地图LD解决方案助力无人配送行业规模化落地

    在今日举办的智能网联汽车发展论坛无人配送生态大会主论坛上,百度地图无人车解决方案产品负责人发表了题为《百度LD无人配送规模化落地元年》的主题演讲——百度地图依托AI大模型实现
    的头像 发表于 03-31 13:54 565次阅读

    百度智能云推出全球首款手机龙虾应用

    昨天,百度智能云发布了一款即开即用的零部署服务DuClaw。目前,DuClaw网页端服务已上线,能够实现零门槛“养虾”。DuClaw来了!零门槛开启自由“养虾”
    的头像 发表于 03-13 11:38 677次阅读

    百度地图开放平台助力商用车与两轮车智能出行

    智能出行加速渗透的今天,商用车与两轮车已成为智慧交通体系中不可或缺的组成部分。百度地图开放平台凭借其领先的数据能力、产品技术与开放生态,正携手生态伙伴深入行业场景,共同推动从“导航工
    的头像 发表于 01-28 09:44 695次阅读

    百度地图开放平台与400万开发者共赴智能时空新未来

    二十年星辰大海,十五载开放引航。2025年,百度地图迎来服务用户的二十周年,其开放平台亦走过了与开发者并肩同行的十五个春秋。在近期举行的“2025百度地图开发者盛典”上,
    的头像 发表于 01-23 09:03 1052次阅读
    <b class='flag-5'>百度</b>地图开放<b class='flag-5'>平台</b>与400万开发者共赴<b class='flag-5'>智能</b>时空新未来

    百度世界大会亮点 五年五芯 百度宣布打造最硬AI云

    自2006年以来,百度世界大会已连续举办近20届,百度世界大会是百度每年面向行业、媒体、合作伙伴和广大用户的最高级别盛事,作为百度年度最重要
    的头像 发表于 11-13 15:47 2058次阅读

    百度世界2025进行中 百度昆仑芯超节点亮相 性能巨幅提升

    百度世界大会是百度每年面向行业、媒体、合作伙伴和广大用户的最高级别盛事,作为百度年度最重要的的战略、技术、产品发布会,自2006年以来已连续举办19年,持续为行业搭建起交流前沿技术、碰
    的头像 发表于 11-13 11:51 1559次阅读

    珠海泰芯半导体携手百度共筑智能硬件产业新生态

    2025年8月29日,北京国际会议中心二期迎来科技行业年度盛会。由百度智能云与极客公园联合主办的百度云智大会AI+智能硬件专场论坛圆满举行,珠海泰芯半导体有限公司总经理唐振中作为特邀嘉
    的头像 发表于 09-01 17:46 1305次阅读

    百度智能云全面升级舸5.0和千帆4.0

    大会上,百度智能云全面升级舸AI计算平台5.0、千帆企业级AI开发平台4.0两大AI基础设施,帮助企业以更低成本、更高效率部署和开发AI产
    的头像 发表于 08-30 09:18 2066次阅读

    百度智能云亮相第二十二届ChinaJoy

    百度智能云亮相第二十二届ChinaJoy 8月1日,第二十二届中国国际数码互动娱乐展览会(ChinaJoy)在上海开幕。大会期间,百度全景展示了百度
    的头像 发表于 08-05 09:47 997次阅读

    65%央企大模型落地首选百度智能

    今天,很荣幸地分享一个好消息,百度智能云已牵手65%的央企,共同推进大模型产业落地。得益于全栈的AI能力,百度联合众多央国企伙伴,针对各类不同业务场景,打造了一大批可推广、可复制的标杆案例。
    的头像 发表于 06-11 15:44 1100次阅读

    百度地图重磅发布地图AI开放平台

    近日,在WGDC25全球时空智能大会上,百度地图重磅发布地图AI开放平台百度地图深耕20年的数据能力、引擎能力与AI技术全面开放,向开发者
    的头像 发表于 05-26 11:26 2154次阅读