0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

构建高质量数据集,推动人工智能快速发展

倩倩 来源:lq 2019-08-20 15:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着人工智能技术与产业不断融合,人工智能技术助力传统产业实现新的发展和升级,助力工业经济向数字经济快速转型。目前,人工智能技术在医疗、金融、交通、零售、工业制造、教育、安防等领域均产生良好的发展前景。

虽然人工智能技术的行业应用越来越广泛,仿佛真的站在风口准备拥抱下一场革命,但正如专家们所言,对于人工智能的发展,应该保持谨慎的乐观态度。众所周知,沃森是当下诸多人工智能技术和应用的典型代表,其重点领域是医疗(主攻癌症的预测与治疗)。然而,在经历了六年时间、耗资数十亿美元之后,Watson的诊断结果却令人沮丧。人工智能系统需要基于数据调整参数,以达到最佳拟合效果,由于数据的复杂性和相对不可用性,人工智能的效用往往存在不确定性。

同样对IBM沃森而言,当Watson获得足够多的“条理清楚”的数据时,能通过不断学习给出可能有用的答案。但在实际操作中,一方面Watson使用的训练数据并不丰富,例如,训练肺癌治疗方案的数据仅有635例,其它疾病更是少得可怜。另一方面,由于患者就医记录没有全部联网,医生经验录入成为沃森分析最核心的来源,这意味着当它扫描大量文件时,必然要识别复杂的信息并从中抽取关键内容。例如,患者的病历可能包含医生的大量注释,这些注释又是由简写和短语构成的,机器想完全理解它们并非易事。总结IBM沃森失败的原因,其算法算力毋庸置疑,而在数据处理上,除了收集的样本数据量不足,最大的问题便是在数据质量不高,几十万份病例下来,能够用的可能才几万份病例。这一切导致了沃森不能提供足够的敏感性、特异性和精准性,而这都是临床决策所必需的。

当前人工智能还面临诸多挑战,例如数据孤岛问题、隐私保护问题、安全问题等瓶颈。一项2018年的研究显示,人工智能的采纳率急剧增加,从2017年的38%增至2018年的61%,医疗保健业、制造业和金融服务业等各个行业都是如此。但根据国际数据公司(IDC)发布的一份报告指出,评估了4个行业(包括医疗健康行业)的“数据质量”,范围为1(严重)到5(优化)。IDC将医疗健康行业的数据质量评为2.4。报告显示,60%的医疗行业受访者缺乏数据处理能力。

构建高质量数据集,推动人工智能快速发展

当前,不管是人工智能技术的研发以及应用领域的发展,“数据”都是一个不可或缺、位于重中之重的因素。机器学习AI技术的基础是应用软件分析系统对数据集进行分析、挖掘。而数据集的大小至关重要,因为机器学习需要特定、大量的数据。只有数据上传足够高效,才能够在相关工作中体现出及时,而准确的数据是人工智能技术研发、训练的关键,以及其能够在生活中起到多大作用的一个考量因素。乍一看,医疗健康行业应该具有优势:该行业拥有大量数据。到2025年,医疗健康领域的数据数量将超过金融、媒体和制造业等领域,其年复合增长率达到36%。这在很大程度上是由于医疗健康领域新兴技术的不断涌现,例如医学成像、康复机器人以及不断成熟的大数据分析工具。但不幸的是,数量只是数据的一个方面:质量是另一个关键。医疗领域的数据往往数量足够,但质量堪忧。

GetApp的一项研究表示,他们调查了五个行业(包括医疗健康行业)的近500名小企业领导者,当询问受访者数据分析过程的哪个方面让他们感到信心最低时,25%的医疗行业受访者表示,他们对收集“相关数据”——可以提供决策的高质量数据的能力最不自信,在所有五个领域(包括医疗行业)数据质量是他们关注的主要问题。加拿大的一家保险公司想要根据保险公司的工作地点来衡量保险公司的风险时,其分析产生了垃圾结果,究其原因,是在对距离数据的标注时,分别以英里和公里为标记,使其结果出现了偏差。而在Dun&Bradstreet的一项调查中,很多组织表示,缺乏正确的数据是进一步实施人工智能的最大障碍之一。

大数据是人工智能技术研发、训练的关键,是人工智能长期发展的重要保障。只有当人工智能系统能够获取更为准确、及时、一致的高质量数据,才能提供更有效、有用、精准性高的智能化服务。根据埃森哲在2018年4月的一份调研发现,中国制造企业在运用人工智能技术时面临一系列挑战。其中,52%的受访中国企业将数据质量列为突出挑战,数据安全与网络安全紧随其后(47%)。在2017年4月的一次研讨会上,围绕人工智能话题,某业界专家提出:“高质量的数据是人工智能的前提和基础”。当前,不管是人工智能技术的研发,还是人工智能应用领域的发展,“数据质量”都是一个不可或缺、位于重中之重的要素。

用户隐私安全问题成制约人工智能发展因素

大数据,被视为人工智能发展的基石。在过去很多年里,人们并没有意识到大数据使用中的隐私风险,企业对用户数据的收集使用达到了无节制的程度,结果是“数据丑闻”在近两年集中爆发。比如今年刚被曝光的IBM,为了进行人脸识别训练,未经当事人许可,便从网络图库上获得了近100万张照片。亚马逊智能音箱Alex,也屡次因隐私问题引发美国用户的质疑。虽然企业总会辩称匿名化处理后的数据无法对应到具体的用户,人们还是无法完全放下担忧。根据加州大学伯克利分校的一项新研究显示,人工智能的进步为人们健康数据的隐私性带来了新威胁。业内一项人工智能相关调查报告也显示,8成受访者担心人工智能会威胁自己的隐私,3成受访者已经感受到了人工智能给自己工作带来的威胁。

作为新一轮科技革命和产业变革的重要驱动力量,人工智能正在深刻影响社会生活、改变发展格局。同时,人工智能如同一把“双刃剑”,如果应用不当,就可能带来隐私泄露的伦理风险。如何在人工智能应用中兼顾隐私保护,确保安全、可靠、可控,是一项亟须关注的伦理课题。

2019年9月5日,由北京大学、国家电网全球能源互联网研究院与华矩科技三家产学研代表联合发起的第三届大数据数据质量管理国际峰会将在北京举办,峰会以“数以质造质造未来”为主题展开深入探讨与交流,荟萃技术发展与产业升级,汇聚国内外数据质量学术大拿、技术大拿、行业应用及技术创新者,不仅从更新更全的角度剖析数据质量的前沿发展,而且更贴合各行业各领域深度的业务场景,提供全新的视角与思考。

针对人工智能领域,DQMIS2019特设数据质量与人工智能的结合主题板块,深度挖掘机器视觉、智能机器人、大数据与数据服务、AI+产业等前沿技术话题,邀请了国内外技术大咖及行业领袖现身说法,分享人工智能发展过程的数据质量难点与实践,给人工智能应用与发展带来更多启发与探讨。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 医疗
    +关注

    关注

    8

    文章

    1957

    浏览量

    61151
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261511
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    上海市计算机行业协会携手深兰科技推动人工智能高质量发展

    2025年11月13日,由上海市计算机行业协会主办的“智启未来·走进深兰——人工智能赋能高质量发展参访交流会”在位于张江的深兰科技总部顺利举行。市经信委无线和电子信息产业处相关领导、协会理事单位及会员企业代表出席活动,共同探讨具
    的头像 发表于 11-17 16:08 336次阅读

    四维图新亮相2025国际前瞻人工智能安全与治理大会

    日前,2025国际前瞻人工智能安全与治理大会在北京举行。作为数据治理领域的典型代表,四维图新打造的“‘车云’数据协同治理,赋能车企高质量发展
    的头像 发表于 11-08 17:20 1232次阅读

    研华AI智能推动储能产业高质量发展

    储能行业正面临海量数据处理与AI应用挑战。研华科技推出软硬件一体化控制方案,实现整站交付效率提升90%。该方案打通从数据采集到AI智能构建的全链路,
    的头像 发表于 11-02 15:43 643次阅读

    中科天机开放共享全球高分辨率气象数据

    大模型、AI算力、数据推动新一代人工智能快速发展的三大关键要素。在大模型走向开源开放,AI算
    的头像 发表于 09-24 09:41 447次阅读

    灵汐科技邀您共赴2025人工智能计算大会

    2025人工智能计算大会将于9月26日在北京举行。大会旨在深入贯彻国家关于加快发展新质生产力的战略部署,积极响应国务院“人工智能+”行动规划,以算力核心要素为创新牵引,汇聚产学研用各界力量,共同
    的头像 发表于 09-19 15:29 567次阅读

    中科曙光入选信通院2025上半年度高质量数字化转型十大典型案例

    9月16日,中国信通院正式公布《高质量数字化转型产品及服务典型案例(2025上半年度)》评选成果。天翼云与中科曙光联合打造的“智能政务应用翼政通驱动的混合云智算一体机”,成功入选中国信通院2025
    的头像 发表于 09-17 11:42 865次阅读

    标贝科技参编《人工智能高质量数据建设指南》

    人工智能迈入“数据驱动”的关键发展阶段,高质量数据已成为突破技术瓶颈、推动产业落地的核心引擎
    的头像 发表于 09-11 17:19 691次阅读

    易华录入选国家首批高质量数据建设先行先试工作名单

    8月28日下午,在2025中国国际大数据产业博览会上,国家数据局发布了首批高质量数据建设先行先试工作名单。经中国电科推荐、国家数据局评审,
    的头像 发表于 09-04 09:04 797次阅读

    中国中车通过中国信通院可信AI人工智能数据质量四级评估

    评估方法 总体要求》(2021-1303T-YD)行业标准开展,标志着中国中车在人工智能高质量数据建设方向迈入行业“顶尖”水平。
    的头像 发表于 08-22 17:02 1194次阅读

    大模型时代,如何推进高质量数据建设?

    高质量数据,即具备高价值、高密度、标准化特征的数据集合。 在AI领域,高质量数据地位举足轻重,如同原油经炼化成为汽油驱动汽车,海量原始
    的头像 发表于 08-21 13:58 526次阅读

    从芯片到主板,科技创新实现高质量发展

    数字化时代,科技的迅猛发展深刻影响着各个领域。从芯片到主板的集成,生动展现了科技创新如何成为推动高质量发展的核心动力。
    的头像 发表于 07-26 16:26 652次阅读

    浅析:数字经济时代,高质量数据对AI产业带来哪些新的变化

    ​在数字经济与人工智能深度融合的今天,数据已超越传统生产要素,成为驱动AI技术突破与产业变革的核心动力。高质量数据不仅是AI模型性能跃升的基石,更重塑了从技术研发到商业落地的全产业链
    的头像 发表于 05-09 15:10 733次阅读

    标贝科技“4D-BEV上亿点云标注系统”入选国家数据局首批数据标注优秀案例

    4月29日,作为第八届数字中国建设峰会的重要组成部分,由国家数据局主办的高质量数据数据标注主题交流活动在福州市数字中国会展中心举行。会议交流活动聚焦“
    的头像 发表于 04-30 14:38 569次阅读
    标贝科技“4D-BEV上亿点云标注系统”入选国家<b class='flag-5'>数据</b>局首批<b class='flag-5'>数据</b>标注优秀案例

    东风科技携手合作伙伴推动汽车产业高质量发展

    近日,东风电子科技股份有限公司、北京大学武汉人工智能研究院、合肥谷器数据科技有限公司在武汉举行战略合作协议签约仪式。三方就加强合作,发挥在汽车制造、人工智能以及数字化转型等领域的优势,进一步提升企业核心竞争力,助力汽车产业
    的头像 发表于 03-24 14:19 692次阅读

    喜报丨阿丘科技荣登苏州市人工智能大模型与高质量数据双项榜单

    科技”)凭借自主研发的“PCB缺陷检测视觉大模型”与“AQ工业基础材料加工缺陷数据”,分别入选“苏州市级培育人工智能大模型”及“苏州市首批行业高质量数据
    的头像 发表于 02-21 11:18 899次阅读
    喜报丨阿丘科技荣登苏州市<b class='flag-5'>人工智能</b>大模型与<b class='flag-5'>高质量数据</b><b class='flag-5'>集</b>双项榜单