0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何构建数据科学项目才能更高效?

物联网之声 来源:未知 作者:胡薇 2018-09-06 09:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数据科学是什么?数据分析?机器学习?还是数据工程?答案可能有很多,但也许只有直接与某个公司的数据科学家交流,才能了解该公司是如何看待数据科学的。由Netflix举办的第三届聚焦数据科学的WiBD研讨会,为我们所有人了解Netflix的数据科学故事提供了绝佳机会,一起来看看吧!

数据科学是一个非常抽象的概念。有些人认为它是数据分析,也有一些人认为它是机器学习,还有些认为它带有一些数据工程的味道。

业界对数据科学这一概念难以达成一致有很多原因,其中一点就是,现在大范围内的岗位都可能涉及数据科学,并且这些岗位的职责都不尽相同。

此外,不同公司之间的细微差别,甚至是同一公司内部的不同团队之间的细微差别都会导致对数据科学的理解不同。因此,只有直接与某个公司的数据科学家交流才能了解该公司是如何看待数据科学的。

信息不对称是一个令人遗憾的事实,它阻碍了许多人追寻数据科学以及数据工程这一职业的道路。

如果我们投入越多的工作时间来解决这一棘手的问题,那么这一阻碍也就能越早被突破。关于这一点,推荐一个社会教育企业——HasBrain,该企业致力于填补信息缺口并且为想要学习并找到通往数据科学和数据工程道路的人提供帮助。

构建数据科学项目

头脑风暴活动

现实世界的数据科学项目与理论上的有何不同,如何构建数据科学项目才能更高效?Becky在研讨会上展示的数据科学项目体系对该问题总结得非常好。

以下是Becky的总结

步骤一:从了解业务问题开始

下面的幻灯片,是Becky就如何定义成功而列出的一系列业务问题。如果你想要很好地证明你的概念,你需要一开始要以一个简单模型作为基准,然后从增量改善(incremental improvement)的角度来评估模型的价值。

否则,你会一直困扰于75%的准确度是否足够好这样的问题。拥有物理学博士学位的Becky也提到,专业学者总是会仔细检查到最后那20%,以确保结果是无懈可击的。所以,如果博士生们想要成为数据科学家,这一点是需要特别注意的。

步骤二:制定技术计划

除了下面的幻灯片中列出的细节,Becky还强调了沟通的重要性,同时还提出要站在利益相关者的角度思考。因为利益相关者最关心的未必是机器学习的误差测度,所以要学会如何将业务目标转化为价值优化问题,这一点极为关键。

相较于“重新发明轮子”,弄明白和学会使用现有的技术可以为我们节省很多时间。现有的用于监督学习的技术,如预测建模或分类,都有很好的文档记录。

然而,在相对更先进以及更专业的机器学习领域(例如NLP和图像分类),新文章不断地发表,技术不断地更新。因此,即时了解最新和最好的研究论文是数据科学家们需要牢记的黄金准则。

步骤三:对概念进行初步验证 -> 不断迭代/验证直到成功或是无法再继续 -> 向利益相关者传达结果

如果你对工作流程甚至是数据科学家使用的工具或库还有任何的疑问,都可以参考Becky在项目构建中对“doing the project”这部分的详细描述。

步骤四:模型产品化

如果一些数据科学家告诉你必须要学会编写产品级代码,那么,他们可能需要独立处理模型产品化,而不是交给机器学习工程师或是软件工程师。

模型产品化本质上就是指不要在现有的模型输出上停滞不前。你的结果输出是产品的一部分,并且会改变用户的实际体验。

你的代码也会成为更大的产品代码库的一部分,例如,如果你归类用户是否会在未来两周内流失,被预测为会流失的用户和被预测为不会流失的用户可能会有不同的用户界面(UI)。

实际上,你是为其他团队创建了一个API来调用你的模型并获得模型输出。你可能需要重构你的代码,此时,只要API没有中断并且终端用户体验是无缝的,你就可以不断地升级模型。

Becky自学了工作中要用到的软件工程方面的知识,学会使代码模块化,以实现可重复性并提高算法效率。甚至有时,可能会参与到软件工程师或是数据工程师的团队中。这不仅取决于工作的复杂性,还取决于服务等级协议(Service Level Agreement, SLA)。例如,如果你的API需要一直处于运行状态,则可能需要更广泛的代码审查或软件工程团队的直接参与。

沟通与问题解决

在讲述了数据科学项目的构建之后,Becky更多地谈到了有效沟通和解决问题的技巧的重要性。如何向非技术人员的利益相关者们解释复杂的数据科学概念,是获得他们买进支持的重要环节。

Becky将她在攻读物理学博士学位期间学会的一项技能运用于此——将复杂问题分解成小块并逐一解决。类似地,她就将利益相关者的高阶问题(high level question)进行分解,并找出数据科学项目可以提供价值的地方。

如果没有数据科学家的工作经验,想要胜任这部分工作是不容易的,因为包括Kaggle项目在内的大多数实践项目都是从已经定义明确的数据科学问题开始的。Becky谈到,这些软技能其实是从经验中获得的,当然也可以从有效的反馈中学习。

与此同时,她也会阅读一些基础书籍来熟悉商业中的通用概念和术语。另外,许多其他资深的数据科学家们都建议,如果想要进一步发展自己的商业头脑,则需要阅读一些产品管理的书籍和文章。

实践练习

这个项目使用WDI数据来预测业务启动成本,非常适合初学者。如果你是机器学习新人,或是刚刚完成一些监督学习的网络基础课程,这将会是一个很好的额外练习机会。

现在,让我们回到之前谈论的问题解决和沟通方面,Becky就此提出了一个业务问题:“在不同的国家开展业务都有多难?”她还确立了一个项目目标,即预测在不同国家开展业务的成本。

如果这是一个实际的工作项目,对于开展业务的便利性来说,这些预测成本要如何成为整体评估决策中的一部分,我想,她可能需要与利益相关者就此问题达成一致。

最后,希望这个总结对你有帮助。祝所有数据科学爱好者们好运!并再次感谢Netflix团队的慷慨分享!另有演示的幻灯片和录像可供使用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136266
  • 数据科学
    +关注

    关注

    0

    文章

    168

    浏览量

    10754

原文标题:如何成为一名数据科学家?听听来自Netfix的老司机怎么说

文章出处:【微信号:szwlw26059696,微信公众号:物联网之声】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    利用 Banana Pi BPI-CM5 Pro(ARMSoM CM5 SoM) 加速保护科学

    Cat M-1 用于遥测/连接。 用于边缘处理和机器学习的 ARMSoM 计算模块 (CM5)。 项目背景 []() 通过聆听自然界的声音,我们可以监测动物之间的交流方式,并获得基本的基线数据,从而
    发表于 10-27 09:18

    物联网网关实现与上位机双向数据通信的配置指南

    一、项目背景 随着工业数字化转型的不断深入,企业对现场设备数据的实时采集、远程传输与集中管理提出了更高要求。特别是在分布式控制系统中,如何实现本地与远程系统之间的数据互通,成为
    的头像 发表于 09-22 11:06 358次阅读
    物联网网关实现与上位机双向<b class='flag-5'>数据</b>通信的配置指南

    线上研讨会 | @9/23 Tinyswitch5不Tiny,拥有更高效更高瓦更精简的变频反驰式架构

    9月23日,大联大诠鼎集团携手PI将做客大大通直播间带来“Tinyswitch5不Tiny,拥有更高效更高瓦、更精简的变频反驰式架构”主题研讨会,邀您了解TinySwitch-5:更高效、更强
    的头像 发表于 09-18 08:18 335次阅读
    线上研讨会 | @9/23 Tinyswitch5不Tiny,拥有<b class='flag-5'>更高效</b>、<b class='flag-5'>更高</b>瓦更精简的变频反驰式架构

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    科学发现的重要组成部分。 实验科学:通过观察和实验来验证假说 理论科学:通过构建逻辑框架来解释观察到的现象 模型科学:通过数学模型来描述和
    发表于 09-17 11:45

    【「Yocto项目实战教程:高效定制嵌入式Linux系统」阅读体验】+基础概念学习理解

    是 Yocto 项目的核心部分之一,书中对元数据的概念、文件、语法以及菜谱和层的相关内容进行了详细阐述。通过学习这部分内容,我了解到元数据在 Yocto 项目中的重要性,它定义了
    发表于 08-04 22:29

    【「Yocto项目实战教程:高效定制嵌入式Linux系统」阅读体验】01总结与实践记录

    还是比较合理的,分为了基础普及和项目实战环节,基础普及里也有跟linux嵌入式构建相关的基础,也有Yocto的基础内容,对这块感兴趣的也可以了解了解。 个人比较感兴趣的是从树莓派那里的实战内容,对于
    发表于 06-30 11:38

    【书籍评测活动NO.61】Yocto项目实战教程:高效定制嵌入式Linux系统

    构建环境和性能要求。根据 Yocto 项目的官方说明,主要挑战可归纳为三大类: 学习曲线与理解成本 工作流与构建环境的复杂性 初始构建时间与性能问题 为了帮助大家
    发表于 05-21 10:00

    工业数据采集网关选型全攻略:构建智能工厂的数字桥梁

    在智能制造与工业互联网深度融合的今天,工业数据采集网关作为连接物理设备与数字世界的核心枢纽,其选型直接影响企业数字化转型的成效。本文将从六大核心维度解析如何科学选择适配的工业网关,助您构建稳定、
    的头像 发表于 04-12 11:13 631次阅读

    数据监测让光伏电站运维管理更高效

           数据监测让光伏电站运维管理更高效        光伏电站的日常管理过去像盲人摸象,工作人员只能靠经验判断设备状态,故障处理也总是慢半拍。如今,数据监测技术让电站拥有了数字感官和
    的头像 发表于 04-01 16:20 451次阅读
    <b class='flag-5'>数据</b>监测让光伏电站运维管理<b class='flag-5'>更高效</b>

    光伏电站运维系统让太阳能发电更高效

           光伏电站运维系统让太阳能发电更高效        光伏电站运维系统是一套帮助管理太阳能发电站的技术工具,它的作用是让电站运行更稳定、发电更高效,同时减少人工维护的成本和麻烦。以下是它
    的头像 发表于 03-28 16:22 802次阅读
    光伏电站运维系统让太阳能发电<b class='flag-5'>更高效</b>

    高效流量复制汇聚,构建自主可控的网络安全环境

    随着大数据监测、流量分析以及网络安全监管等核心业务需求的日益增长,网络环境对高性能、高可靠性的流量监控和分析提出了更高的要求。流量复制汇聚平台凭借其卓越的技术特性和灵活的应用方案,不仅帮助用户实现了对网络流量的精准控制和高效处理
    的头像 发表于 03-10 14:29 793次阅读
    <b class='flag-5'>高效</b>流量复制汇聚,<b class='flag-5'>构建</b>自主可控的网络安全环境

    请问NanoEdge AI数据集该如何构建

    我想用NanoEdge来识别异常的声音,但我目前没有办法生成模型,我感觉可能是数据集的问题,请问我该怎么构建数据集?或者生成模型失败还会有哪些原因?
    发表于 03-10 08:20

    JBD助力日本科学技术振兴机构资助的医用AR 眼镜开发项目

      近日,JBD宣布为日本科学技术振兴机构(JST)资助的战略创意研究推进项目CREST中的医用AR眼镜开发项目提供微显示模组产品。该项目由东京科学
    发表于 02-05 17:48 910次阅读
    JBD助力日本<b class='flag-5'>科学</b>技术振兴机构资助的医用AR 眼镜开发<b class='flag-5'>项目</b>

    NVIDIA RAPIDS cuDF如何赋能AI加速数据科学

    随着 AI 正帮助各行各业推动创新和提高效率,基于海量的高质量数据来训练各种模型是充分发挥 AI 应用潜力的必经之路,正因如此,数据科学家们面临着日益增长的工作负载需求,迫切需求寻找
    的头像 发表于 01-24 09:26 1072次阅读

    解码TW6501:ONFI 5.0协议如何令存储通讯更高效

    解码TW6501:ONFI 5.0协议如何令存储通讯更高效
    的头像 发表于 01-21 14:51 792次阅读
    解码TW6501:ONFI 5.0协议如何令存储通讯<b class='flag-5'>更高效</b>