0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么算法工程师每天都在搞数据?

工程师人生 来源:以岚听风 作者:以岚听风 2021-01-08 10:22 次阅读

这是一个数据大爆炸的时代。

根据IDC 发布的《数据时代2025》白皮书,全球数据量大约每两年就将翻一倍。到2025年,全球数据总量将攀升至163ZB。而且自动驾驶物联网等新技术正在不断推动数据量的爆炸。每辆自动驾驶汽车每秒就会产生 6-8GB 的数据,现在国内一线城市的摄像头数量都在百万级别,每时每刻产生大量的数据。

好在,机器学习可以成为处理大规模数据的利器。数据是人工智能的燃料,机器学习的发展,就是伴随着数据处理难度和复杂性的升级而不断升级。如何更好的帮机器学习开发者打通数据屏障,已经成为领先的人工智能企业的重要课题。

在不久前举行的亚马逊re:Invent大会上,AWS共发布180项新的服务和功能,其中,一系列用机器学习加速数据分析的服务备受关注。全托管的机器学习服务平台Amazon SageMaker发布了九项新功能,其中与数据处理直接相关的就有三个。此外,AWS还将机器学习融入数据库分析领域,赋能数据库分析师。当机器学习与数据分析紧密融合,将解决哪些痛点?

为什么算法工程师每天都在搞数据?

很多人眼中,机器学习算法工程师的日常是这样的:选择并优化算法、训练与调优模型、部署模型与验证模型。实际上,算法工程师大约有70%的时间是花在数据上的,花在模型和调参上的只有不到20%,这种现状引发了不少开发者的共鸣。

为什么会这样?在机器学习过程中,原始数据是不能直接用来训练模型的,需要复杂的处理流程。模型训练所需的数据通常来自不同类型的来源,并且格式多样。这意味着开发人员必须花费相当多的时间提取和规范这些数据。

Amazon SageMaker是帮助开发者快速建立、训练和部署机器学习模型的平台,旨在简化开发流程,缩短开发时间,让开发者将更多精力放在最核心的模型训练上。

此前,AWS发布的Amazon SageMaker Ground Truth 这个功能可以通过主动学习自动为输入的数据添加标签。主动学习是一种机器学习方法,它会识别需要人工添加标签的数据以及可以由机器添加标签的数据。与人工为整个数据集添加标签相比,Ground Truth最高可减少 70%的成本,并缩短添加标签的时间。

为了进一步简化机器学习过程中数据处理方面的复杂性,今年re:Invent大会,Amazon SageMaker推出了两个全新的功能,分别帮助算法工程师简化数据处理和进行特征管理。

Amazon SageMaker Data Wrangler 提供了更易用的数据预处理,大大简化了数据准备和特征工程的工作。Data Wrangler支持从各种数据存储中一键导入所需数据,其包含超过 300 个内置的数据转换器,可以帮助客户在无需编写任何代码的情况下,对特征进行规范化、转换和组合。

Amazon SageMaker Feature Store是用来存储、更新、检索和共享机器学习特征的工具。目前,这项特征可以被保存到Amazon S3中。

Feature Store解决的痛点是,大多数特征并不是只用于一个模型,而是被多个开发人员和数据科学家重复用于多个模型中。此前,工程师只能自行开发应用程序来跟踪管理特征,但工作量很大而且容易出错。有了Feature Store,用于训练的大批量特征,以及用于推理的小批量特征子集,都可以保持特征的一致性和更新的及时性。

数据偏见不可避免吗?

人类通常是非理性的,有很多认知偏差,不能准确地认知自身及外部环境的真实状态。在人们信息收集、信息加工、信息输出和信息反馈的各个阶段,都会产生认知偏差。机器学习也会产生偏见,这些偏见广泛存在于机器学习的各个环节,包括数据偏见、算法偏见等等。

数据偏见是指人们在工作中,由于各种原因不经意把并非完整客观的数据进行收集并处理,而使得结果产出发生“偏见”。数据偏见是机器学习中一种普遍的难题,通常会导致数据集的某些元素比其他元素具有更大的权重或表示。常见的数据偏见有样本偏差、排除偏差、测量偏差等等。

有偏见的数据集会导致分析模型的结果偏斜,准确性低甚至分析错误。比如一个主要用白种人人脸数据库训练出来的面部识别系统,对不同种族的人的识别准确度要低得多。

Amazon SageMaker Clarify这个新功能可以在整个机器学习工作流中进行偏差检测和模型解释。此前,开发人员通常使用开源工具检测统计偏差,但这需要大量的人工编程,而且经常容易出错。Clarify让开发人员在数据准备阶段就能发现数据偏差。目前,Clarify 已集成到 Data Wrangler,它运行了一系列基于特征数据的算法,用以识别数据准备过程中的偏差,并且清晰描述可能的偏差来源及其严重程度。

此外,随着机器学习模型越来越多地帮助人类进行决策分析,人们对机器学习的可解释性的要求越来越高。可解释性是指人类能够理解决策原因的程度。如果人们能够更多地了解模型的决策过程(原因和方式),就能增加对模型的信任。欧盟在 GDPR(GeneralData Protection Regulation)条例中明确要求,当采用机器做出针对某个体的决定时,比如自动拒绝一个在线信贷申请,该决定必须符合一定要求的可解释性。

Amazon SageMaker Clarify的另一大价值在于提供了数据模型的可解释性。“它能帮助你去分析哪些特征对模型的预测更重要,特征和模型之间的关系不再像原来是黑盒子,而是有更强的透明度。” AWS大中华区云服务产品管理总经理顾凡表示。

数据库分析师怎么用好机器学习?

数据分析和机器学习有很多重合之处。

机器学习很高深,但尚处早期,受众有限。今年,AWS在机器学习领域的一大动作就是“扩圈”,寻找更广泛的“圈外”开发者加入进来,使他们基于既有知识体系就轻松上手。AWS机器学习的“扩圈”正是从与数据分析的结合开始。

相比机器学习开发者,数据库开发者和数据库分析师是一个更庞大的专业群体。他们是否需要学习机器学习算法开发,才能享用机器学习带来的便利?AWS认为,完全不必。

2020亚马逊re:Invent大会上,AWS全球机器学习副总裁Swami Sivasubramanian 一口气发布了一系列产品服务,包括Amazon Aurora ML、Amazon Athena ML、Amazon Redshift ML、Amazon Neptune ML、Amazon QuickSight Q,分别把机器学习能力融进了关系型数据库、Amazon S3的 SQL 查询、数据仓库、图数据库、商业智能等领域。数据分析人员只需使用早已烂熟的 SQL 语句,就能进行连带机器学习功能的操作。

以 Amazon Aurora ML 为例,当用户通过 SQL 查询客户信息以试图找到一些负面反馈时,Amazon Aurora ML 会自动调度 Amazon Comprehend 这样的 AI 服务来返回具备 AI 支持的查询结果。

机器学习尚处在早期阶段。据德勤发布的《全球人工智能发展白皮书》预测,到2025年,世界人工智能市场规模将超过6万亿美元。可以预见,在应对数据挑战方面,机器学习提供给开发者的工具集将日益丰富,机器学习开发的门槛将越来越低。
编辑:hfy

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26393

    浏览量

    264001
  • 人工智能
    +关注

    关注

    1776

    文章

    43765

    浏览量

    230551
  • 机器学习
    +关注

    关注

    66

    文章

    8105

    浏览量

    130540
  • 数据分析
    +关注

    关注

    2

    文章

    1351

    浏览量

    33731
收藏 人收藏

    评论

    相关推荐

    如何入门硬件工程师

    想跨行业做硬件设计工程师,应该如何学习规划呢
    发表于 03-17 21:49

    企业老工程师和高校老师有啥区别

    电子工程师硬件
    电子发烧友网官方
    发布于 :2024年02月28日 17:50:00

    如何崩一个硬件工程师心态?试试对ta说这几句

    硬件工程师
    扬兴科技
    发布于 :2024年02月20日 18:05:49

    优秀电源工程师需要哪些必备技能?

    随着电源市场的不断扩张,开关电源行业飞速发展,企业对电源工程师的需求日益增加,对电源工程师的技能要求也日渐提高,相信没有一位电源工程师会错过让自己变得更优秀的机会。作为一名数字电源从业者,小编今天
    发表于 01-29 11:29

    #人工智能 #FPGA 怎么成为一个合格的FPGA工程师

    fpga工程师
    明德扬助教小易老师
    发布于 :2023年12月18日 21:19:01

    电子工程师第一天上班就暴揍师傅。。。#科普 #示波器 #电子工程师 #打工日记

    电子工程师示波器
    安泰小课堂
    发布于 :2023年12月18日 17:36:12

    FPGA工程师需要具备哪些技能?

    工程师需要能够产生正确的测试数据集,以确保设计的准确性和性能。 在综合方面,FPGA工程师需要使用工具将HDL语言转化为更低级别的代码。这样,他们就能够顺利地将代码映射到可编程逻辑设备中
    发表于 11-09 11:03

    #FPGA 本科生也能成为FPGA研发工程师

    fpga工程师
    明德扬助教小易老师
    发布于 :2023年09月23日 08:05:36

    当不同工程师到了退休年龄,都在做什么?#搞笑 #内容过于真实 #电子 #工程师 #扬兴科技

    电子工程师扬兴科技
    扬兴科技
    发布于 :2023年09月01日 15:23:09

    电子工程师必看书籍推荐#知识分享 #知识科普 #交流#硬声创作季

    电子工程师
    也许吧
    发布于 :2023年05月24日 10:47:34