0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何构建数据科学项目才能更高效?

物联网之声 来源:未知 作者:胡薇 2018-09-06 09:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数据科学是什么?数据分析?机器学习?还是数据工程?答案可能有很多,但也许只有直接与某个公司的数据科学家交流,才能了解该公司是如何看待数据科学的。由Netflix举办的第三届聚焦数据科学的WiBD研讨会,为我们所有人了解Netflix的数据科学故事提供了绝佳机会,一起来看看吧!

数据科学是一个非常抽象的概念。有些人认为它是数据分析,也有一些人认为它是机器学习,还有些认为它带有一些数据工程的味道。

业界对数据科学这一概念难以达成一致有很多原因,其中一点就是,现在大范围内的岗位都可能涉及数据科学,并且这些岗位的职责都不尽相同。

此外,不同公司之间的细微差别,甚至是同一公司内部的不同团队之间的细微差别都会导致对数据科学的理解不同。因此,只有直接与某个公司的数据科学家交流才能了解该公司是如何看待数据科学的。

信息不对称是一个令人遗憾的事实,它阻碍了许多人追寻数据科学以及数据工程这一职业的道路。

如果我们投入越多的工作时间来解决这一棘手的问题,那么这一阻碍也就能越早被突破。关于这一点,推荐一个社会教育企业——HasBrain,该企业致力于填补信息缺口并且为想要学习并找到通往数据科学和数据工程道路的人提供帮助。

构建数据科学项目

头脑风暴活动

现实世界的数据科学项目与理论上的有何不同,如何构建数据科学项目才能更高效?Becky在研讨会上展示的数据科学项目体系对该问题总结得非常好。

以下是Becky的总结

步骤一:从了解业务问题开始

下面的幻灯片,是Becky就如何定义成功而列出的一系列业务问题。如果你想要很好地证明你的概念,你需要一开始要以一个简单模型作为基准,然后从增量改善(incremental improvement)的角度来评估模型的价值。

否则,你会一直困扰于75%的准确度是否足够好这样的问题。拥有物理学博士学位的Becky也提到,专业学者总是会仔细检查到最后那20%,以确保结果是无懈可击的。所以,如果博士生们想要成为数据科学家,这一点是需要特别注意的。

步骤二:制定技术计划

除了下面的幻灯片中列出的细节,Becky还强调了沟通的重要性,同时还提出要站在利益相关者的角度思考。因为利益相关者最关心的未必是机器学习的误差测度,所以要学会如何将业务目标转化为价值优化问题,这一点极为关键。

相较于“重新发明轮子”,弄明白和学会使用现有的技术可以为我们节省很多时间。现有的用于监督学习的技术,如预测建模或分类,都有很好的文档记录。

然而,在相对更先进以及更专业的机器学习领域(例如NLP和图像分类),新文章不断地发表,技术不断地更新。因此,即时了解最新和最好的研究论文是数据科学家们需要牢记的黄金准则。

步骤三:对概念进行初步验证 -> 不断迭代/验证直到成功或是无法再继续 -> 向利益相关者传达结果

如果你对工作流程甚至是数据科学家使用的工具或库还有任何的疑问,都可以参考Becky在项目构建中对“doing the project”这部分的详细描述。

步骤四:模型产品化

如果一些数据科学家告诉你必须要学会编写产品级代码,那么,他们可能需要独立处理模型产品化,而不是交给机器学习工程师或是软件工程师。

模型产品化本质上就是指不要在现有的模型输出上停滞不前。你的结果输出是产品的一部分,并且会改变用户的实际体验。

你的代码也会成为更大的产品代码库的一部分,例如,如果你归类用户是否会在未来两周内流失,被预测为会流失的用户和被预测为不会流失的用户可能会有不同的用户界面(UI)。

实际上,你是为其他团队创建了一个API来调用你的模型并获得模型输出。你可能需要重构你的代码,此时,只要API没有中断并且终端用户体验是无缝的,你就可以不断地升级模型。

Becky自学了工作中要用到的软件工程方面的知识,学会使代码模块化,以实现可重复性并提高算法效率。甚至有时,可能会参与到软件工程师或是数据工程师的团队中。这不仅取决于工作的复杂性,还取决于服务等级协议(Service Level Agreement, SLA)。例如,如果你的API需要一直处于运行状态,则可能需要更广泛的代码审查或软件工程团队的直接参与。

沟通与问题解决

在讲述了数据科学项目的构建之后,Becky更多地谈到了有效沟通和解决问题的技巧的重要性。如何向非技术人员的利益相关者们解释复杂的数据科学概念,是获得他们买进支持的重要环节。

Becky将她在攻读物理学博士学位期间学会的一项技能运用于此——将复杂问题分解成小块并逐一解决。类似地,她就将利益相关者的高阶问题(high level question)进行分解,并找出数据科学项目可以提供价值的地方。

如果没有数据科学家的工作经验,想要胜任这部分工作是不容易的,因为包括Kaggle项目在内的大多数实践项目都是从已经定义明确的数据科学问题开始的。Becky谈到,这些软技能其实是从经验中获得的,当然也可以从有效的反馈中学习。

与此同时,她也会阅读一些基础书籍来熟悉商业中的通用概念和术语。另外,许多其他资深的数据科学家们都建议,如果想要进一步发展自己的商业头脑,则需要阅读一些产品管理的书籍和文章。

实践练习

这个项目使用WDI数据来预测业务启动成本,非常适合初学者。如果你是机器学习新人,或是刚刚完成一些监督学习的网络基础课程,这将会是一个很好的额外练习机会。

现在,让我们回到之前谈论的问题解决和沟通方面,Becky就此提出了一个业务问题:“在不同的国家开展业务都有多难?”她还确立了一个项目目标,即预测在不同国家开展业务的成本。

如果这是一个实际的工作项目,对于开展业务的便利性来说,这些预测成本要如何成为整体评估决策中的一部分,我想,她可能需要与利益相关者就此问题达成一致。

最后,希望这个总结对你有帮助。祝所有数据科学爱好者们好运!并再次感谢Netflix团队的慷慨分享!另有演示的幻灯片和录像可供使用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    67

    文章

    8567

    浏览量

    137274
  • 数据科学
    +关注

    关注

    0

    文章

    168

    浏览量

    10828

原文标题:如何成为一名数据科学家?听听来自Netfix的老司机怎么说

文章出处:【微信号:szwlw26059696,微信公众号:物联网之声】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【夏曹俊】VisualStudio2022构建调试C++项目

    状态)的情况下,告诉你临死前看了哪个变量、走了哪条岔路。 带着这个视角,你就不会被 VS 花哨的界面所迷惑,而是直击底层逻辑。 第二步:极速拆解三大核心模块(高效阅读法) 1. 项目构建篇:寻找
    发表于 04-18 16:21

    机场通信无杂音!A-29P 让候机与调度更高效

    A-29P 没有复杂的操作,也没有冗余的功能,它以精准的技术能力,破解机场通信的声学难题 —— 让航班调度更顺畅,让旅客服务更贴心,让应急处置更高效
    的头像 发表于 04-08 15:09 155次阅读
    机场通信无杂音!A-29P 让候机与调度<b class='flag-5'>更高效</b>

    晶科储能助力雅典国际机场构建稳定高效的清洁能源体系

    近日,雅典国际机场(Athens International Airport)宣布其“Route 2025”能源转型路线图顺利完成。作为全球航空枢纽绿色转型的重要标杆项目,晶科储能为该项目提供了123.8MWh公用级液冷储能系统,助力机场
    的头像 发表于 03-16 14:25 410次阅读

    科技赋能中药质检!高光谱技术让品质把控更高效科学

    中药材品质关乎疗效,但传统检测既耗时又伤材。现在,高光谱技术给出了新答案:无损、快速、精准。从丹参的品质分级到人参的年份鉴别,从枸杞的产地溯源到冬虫夏草的真伪识别,它用光谱‘指纹’穿透表象,让中药检测从‘经验驱动’迈向‘数据驱动’,助力产业实现规模化、标准化的高效质检。
    的头像 发表于 03-06 09:34 405次阅读
    科技赋能中药质检!高光谱技术让品质把控<b class='flag-5'>更高效</b><b class='flag-5'>科学</b>

    简单高效的鸿蒙编译提速技巧

    在鸿蒙应用开发中编译构建是开发者最频繁的操作,每一次编译提速都能显著提升项目整体开发效率。本次分享几个简单却高效的鸿蒙编译提速技巧,从编译配置、构建方式等维度进行优化,让你的开发流程更
    的头像 发表于 03-04 16:09 279次阅读
    简单<b class='flag-5'>高效</b>的鸿蒙编译提速技巧

    零碳园区全面感知体系构建:传感技术与数据采集策略

    零碳园区的核心竞争力源于“精准感知-智能决策-高效执行”的闭环能力,而全面感知体系作为这一闭环的“神经中枢”,承担着能源流、碳流、信息流的实时捕获任务。传感技术的科学选型与数据采集的高效
    的头像 发表于 01-27 11:07 311次阅读

    利用 Banana Pi BPI-CM5 Pro(ARMSoM CM5 SoM) 加速保护科学

    Cat M-1 用于遥测/连接。 用于边缘处理和机器学习的 ARMSoM 计算模块 (CM5)。 项目背景 []() 通过聆听自然界的声音,我们可以监测动物之间的交流方式,并获得基本的基线数据,从而
    发表于 10-27 09:18

    RT-Thread Studio 2.2.8创建新项目直接构建编译报错怎么解决?

    RT-Thread Studio 2.2.8 尝试了RT-Thread Source Code 5.1.05.0.24.0.34.0.2版本 创建新的项目工程后,没有任何修改直接构建编译报错
    发表于 09-24 07:28

    物联网网关实现与上位机双向数据通信的配置指南

    一、项目背景 随着工业数字化转型的不断深入,企业对现场设备数据的实时采集、远程传输与集中管理提出了更高要求。特别是在分布式控制系统中,如何实现本地与远程系统之间的数据互通,成为
    的头像 发表于 09-22 11:06 741次阅读
    物联网网关实现与上位机双向<b class='flag-5'>数据</b>通信的配置指南

    线上研讨会 | @9/23 Tinyswitch5不Tiny,拥有更高效更高瓦更精简的变频反驰式架构

    9月23日,大联大诠鼎集团携手PI将做客大大通直播间带来“Tinyswitch5不Tiny,拥有更高效更高瓦、更精简的变频反驰式架构”主题研讨会,邀您了解TinySwitch-5:更高效、更强
    的头像 发表于 09-18 08:18 335次阅读
    线上研讨会 | @9/23 Tinyswitch5不Tiny,拥有<b class='flag-5'>更高效</b>、<b class='flag-5'>更高</b>瓦更精简的变频反驰式架构

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    科学发现的重要组成部分。 实验科学:通过观察和实验来验证假说 理论科学:通过构建逻辑框架来解释观察到的现象 模型科学:通过数学模型来描述和
    发表于 09-17 11:45

    Keil 项目构建目标 software 时,FCARM 工具报错

    使用工具搜索问题,Keil 项目构建目标 software 时,FCARM 工具报错,搜索是未指定输出文件名。 根据网上提供的解决办法,在魔法棒OUTPUT中点击Create HEX File
    发表于 08-27 10:12

    【「Yocto项目实战教程:高效定制嵌入式Linux系统」阅读体验】+基础概念学习理解

    是 Yocto 项目的核心部分之一,书中对元数据的概念、文件、语法以及菜谱和层的相关内容进行了详细阐述。通过学习这部分内容,我了解到元数据在 Yocto 项目中的重要性,它定义了
    发表于 08-04 22:29

    【「Yocto项目实战教程:高效定制嵌入式Linux系统」阅读体验】01总结与实践记录

    还是比较合理的,分为了基础普及和项目实战环节,基础普及里也有跟linux嵌入式构建相关的基础,也有Yocto的基础内容,对这块感兴趣的也可以了解了解。 个人比较感兴趣的是从树莓派那里的实战内容,对于
    发表于 06-30 11:38

    【书籍评测活动NO.61】Yocto项目实战教程:高效定制嵌入式Linux系统

    构建环境和性能要求。根据 Yocto 项目的官方说明,主要挑战可归纳为三大类: 学习曲线与理解成本 工作流与构建环境的复杂性 初始构建时间与性能问题 为了帮助大家
    发表于 05-21 10:00