0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一些数据科学家在工作中最常遇到的“奇葩”需求

zhKF_jqr_AI 来源:未知 作者:李倩 2018-07-08 09:44 次阅读

编者按:数据科学家是21世纪“最性感”的工作,几乎所有人都为之疯狂——无论什么产品,只要在醒目位置标上“人工智能”,它就不仅卖得掉,还卖得火。但是,这也产生了不少问题。以往我们谈及设计人员工作时,总会拿不懂PS是Photoshop的甲方作为笑谈,现在这样的事也同样发生在数据科学家身上,纵然有心解释,社会刻板印象还是会让他们百口莫辩。

如果说现代设计已经在人们生活中存在了几十年,许多甲方客户还对它了解甚少;那机器学习才刚刚崭露头角,人们对它还仅限于眼熟,或是只读过几篇吹得天花乱坠的软文。常言道,隔行如隔山。很多时候,虽然专业人士眼里的常识别人不一定懂,但其他行业起码还有销售帮衬,可以很好地充当对接桥梁。而数据科学家就不一定有这个待遇了。

现在,人们对机器学习、人工智能的偏见是社会性的,这里面包括公司销售。举个不靠谱的例子,当销售们和客户宣传时,他们会把实际效果吹成“占领月球”,客户一听非常满意,超出自己预期,于是要求立即启动“占月”项目。归根结底,数据科学家能做的顶多是把他们送到月球,然后把他们丢在那片荒无人烟的地方。至于开发占领?不可能的。

下面列出了一些数据科学家在工作中最常遇到的“奇葩”需求,虽然看起来有些滑稽,但它们都是真实经历。如果你想成为数据科学家,你可以先熟悉一下它们,提前锻炼一颗强健的心脏;如果你是客户,你也可以通过它们规避不少麻烦,至少谈判时,坐在对面的数据科学家不会一脸了无生趣。

1.“我们想要一个AI模型……它可以解决‘这个’问题”

现如今,我们通过简单的探索性数据分析,就能解决80%的产业分析问题。既然如此,为什么你们还想用机器学习呢?对于这样精确到目标的需求,构建任何机器学习模型都是矫枉过正,在这些问题上用AI是徒劳的,企业也没法从中看到新技术带来的改变。从某种程度上来说,杀鸡焉用牛刀?

诚然,高级分析看起来很拉风,通过投资这项技术,企业可以在技术上“引领”行业,试问有那家公司不喜欢塑造自己先进、光彩的创新形象?但是每一个数据科学家都有义务引导客户正确使用技术,而不是滥用,以保证机器学习这把牛刀不会误伤他人。所以,大家在做数据分析时,请用美观的分析工具说服自己的客户,让他们看到数据背后的完整价值。

到目前为止,人工智能最大的危险在于人们觉得自己理解它,而这个结论下得太早了。——MIRI创始人 Eliezer Yudkowsky

2.“这些数据给你……你给我出一些商业洞见”

通常客户会认为自己的责任只是移交数据,他们中的有些人甚至连需求都不提,丢下一堆数据就走,然后期待数据科学家能总结出一些零零散散的、非常有见地的建议。最好这些建议还能“掷地有声”,让公司一夜间就改头换面。

不幸的是,数据科学家的工作不是文学写作,一个人凭空想是想不出什么操作性强的业务建议的。他们需要和公司业务人员保持长期的、富有成效的交流对话,以了解这家公司能做什么,不能做什么。在整个项目期间,双方要安排一个“验收”期,共同评判建议的具体效果。

如果你连提出一个正确的问题都不会,那你将一无所获。——美国统计学家 W. Edward Deming

3.“造个模型,能跳过不必要的分析,节约时间那种”

数据预处理和探索性分析的重要性毋庸置疑,但很多数据分析师同仁可能在处理数据前就把它们忘了。鉴于此,一些客户就希望机器学习能删除其中“不必要的分析”,在保证结果准确的同时缩短分析时间,提高效率。

其实数据分析是机器学习和所有高级分析的必要步骤,它们同根同源。如果不了解数据,无法从数据中找出异常值和潜在模式,那机器学习模型就是两眼一抹黑,什么都干不了。所以客户应该给数据分析预留足够的时间,并指定讨论时间,方便数据分析师或数据科学家能发现有趣的的东西和及时分享。

一个炼金师在找寻黄金时,会发现许多更具价值的其他物品。——叔本华

4.“我们有上周的数据,你能预测未来6个月的情况吗?”

这个问题几乎是所有数据科学家都没法避免的。总有那么一些人,拼拼凑凑几行数据,就指望AI能像巫女的水晶球一样给个“预兆”。也总有那么一些人,一点数据都没有,还想让AI去填补这些空白。

对机器学习来说,数据的数量和质量至关重要,如果客户不在乎“废料进,废品出”,做数据分析就可以了。一些有用的统计技术确实可以四两拨千斤地处理这类问题,从少量数据中提炼尽可能多的信息,比如插入缺失值(impute)、人工合成数据(SMOTE算法)和使用面向小数据的简单模型。为了避免客户失望,记得定义一些界限来解释为什么结果会那么差。

数据量和分析技术性能之间的关系

5.“你去建个模,两礼拜够不够?”

突然推翻原定计划,却还要求成果保质保量——这是所有项目都可能出现的问题。其他行业是怎么补救的,我们暂且不提,反正机器学习建模不可以。它的时间一旦计划好了,就改不了了,尤其是在原定时间就捉襟见肘的情况下。也许客户会有疑问:现在GPU算力大幅提高了,各种API也都有了,你们这群数据科学家到底在磨蹭啥?

事实上,尽管行业内出现了像Auto-ML这样的进展,但建模过程还是得依赖大量手动操作。数据科学家必须要痛苦地在一轮又一轮的迭代中检查统计结果、比较模型和检查成因。这些是没法自动化的,至少现在还没有自动化。如果客户实在不理解,建议给个例子让他直接体验一下。

建模既是实验,也是艺术创作,里程碑驱动的项目计划并不总是现实的。

6.“能不能把这个变量换了,重新跑下模型?”

当数据科学家终于把建好的商业模型交给客户看时,后者也会习惯性地提一些“调试”要求,其中最常见的是:“你能不能替换这个变量,然后重新运行模型”?表面上看这只是个小改动,但事实上,这个小改动却意味着把在世界杯上踢足球改成在NBA打篮球。

虽然机器学习是高度迭代的,但它的核心目标是为给定变量筛选正确的影响因子,并映射它们的关系。这个要替换的变量是模型的重要组成部分,不能说改就改。所以如果客户想投资AI技术,他们应该努力学习一些基本工作原理。如果遇到这样完全不懂的客户,数据科学家也有必要给出预警,防止他们事后处处不满。

7.“我们模型的准确率可以达到100%吗?”

看到“错误率”就宛如看到“瘟神”,这是很多人的误区。人们都喜欢盲目追求等级,客户也总觉得越靠近100%,模型就越好。然而当准确率超越其他因素成为唯一焦点后,数据科学家就又该头疼了:你们要这么一个精度很高,但没法实际应用的复杂模型有什么用?

2009年,BellKor's Pragmatic Chaos拿下Netflix Prize百万美金竞赛冠军,虽然Netflix到现在还一直夸这个模型有多好,但它从没上线过。为什么?因为这个高精度复杂模型背后的工程成本太高了。如果一个模型只有精度却不能实际应用,它对普通企业的意义又在哪儿?一个好的工程模型应该兼具准确率、稳定性、简单性和业务可解释性,并在之中达到平衡。

工程模型:实现精细平衡和权衡

8.“这模型训练好了,以后能一直保持高性能吗?”

虚拟产品也是产品,当模型训练完,客户自然还要关心一下它的使用寿命。因此他们常问的问题还有:“这个模型是不是会一直这么聪明啊?”“未来我们业务发展了,它跟不跟得上变化啊?”

很不幸,机器学习模型不会自动贯彻终身学习。它还只是个孩子,你们千万要不断耐心教导它!通常情况下,模型需要每隔几周或几个月进行一次快速复习,就像学校里为了考试苦苦挣扎的学生。更重要的是,如果公司业务发生明显变化,这个复习频率要加快,模型可能还要回炉学习点新东西。

尽管发展很快,但这就是当今分析行业的情况,所以如果想投资AI技术,做好模型维护和更新的时间、金钱预算吧!

小结

到现在为止,我们已经介绍了数据科学家工作生活中可能会遇到的8个关键误解,它们隐藏在机器学习建模的6个步骤中:

导致这些误解产生的原因有两个,一是客户对行业基础知识缺乏了解,二是双方对具体效果的预期错位。了解这些内容有助于数据科学家在遇到麻烦时温和、友善地向客户说明情况,而不是一脸无奈或是一肚子火气,最后被迫向客户屈服。

如果你在生活中也遇到过类似的困扰,欢迎留言指出,帮助更多同行总结经验,也让客户和销售更了解自己的工作。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6511

    浏览量

    87592
  • 人工智能
    +关注

    关注

    1776

    文章

    43841

    浏览量

    230590
  • 机器学习
    +关注

    关注

    66

    文章

    8121

    浏览量

    130550

原文标题:是什么让数据科学家频频受挫?机器学习的甲方&乙方

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    伺服电机在工作中常见的问题有哪些?该怎么处理?

      伺服电机作为现代工业自动化的核心组件,它的稳定运行对于整个生产流程至关重要。但就像任何机器一样,伺服电机也会遇到一些头疼的问题。今天,就让我来给大家科普一下伺服电机在工作中常见的问题以及相应
    的头像 发表于 03-16 08:42 90次阅读

    VNL5090N3TR-E低边驱动芯片在工作中片损坏的原因?

    VNL5090N3TR-E,低边驱动芯片在工作中发现片损坏。 我们想弄清楚损坏的原因,奈何请第三方切片分析太贵。 在此请教各位大佬:1、具体的失效模式和电路图有吗?2、想了解这颗芯片的实际损坏条件
    发表于 03-14 06:01

    PCB设计工作中常见的错误有哪些?

    一站式PCBA智造厂家今天为大家讲讲PCB设计工作中常见的错误有哪些?PCB设计中最常见到的六个错误。PCB设计是电子产品制造中非常关键的一环。它的质量直接关系到整个产品的性能和稳定性。然而
    的头像 发表于 02-21 09:32 203次阅读
    PCB设计<b class='flag-5'>工作中</b>常见的错误有哪些?

    谷歌DeepMind科学家欲建AI初创公司

    据知情人士透露,谷歌人工智能部门DeepMind的两名杰出科学家Laurent Sifre和Karl Tuyls正在与投资者商讨在巴黎成立一家新的人工智能初创公司的事宜。
    的头像 发表于 01-22 14:41 198次阅读

    飞腾首席科学家窦强荣获 “国家卓越工程师” 称号

         飞腾首席科学家窦强荣获 “国家卓越工程师” 称号 1月19日上午,首届 “国家工程师奖” 表彰大会在北京人民大会堂隆重举行。81 名个人被授予 “国家卓越工程师” 称号,50 个团队被授予
    的头像 发表于 01-19 19:22 1074次阅读
    飞腾首席<b class='flag-5'>科学家</b>窦强荣获 “国家卓越工程师” 称号

    反激式电源中最常见的噪声来源

    电子发烧友网站提供《反激式电源中最常见的噪声来源.doc》资料免费下载
    发表于 11-15 10:34 0次下载
    反激式电源<b class='flag-5'>中最常</b>见的噪声来源

    Open AI首席科学家:ChatGPT可能已经有了意识,AI将万世不朽

    我是来和OpenAI的联合创始人兼首席科学家Sutskever会面的,他的公司位于旧金山传教区一条不起眼的街道上,办公楼没有任何标志,我想听听他一手打造的这项颠覆世界的技术的下一步计划。我还想知道他的下一步计划,尤其是,为什么建立他公司的下一代旗舰生成模型不再是他的工作
    的头像 发表于 11-02 15:58 465次阅读

    高压放大器在工作中的应用实例有哪些

    高压放大器是一种电子设备,主要用于将输入的低电压信号放大为输出的高电压信号。它在工业、医疗、科研等领域具有广泛的应用。下面将列举一些高压放大器在工作中的应用实例。
    的头像 发表于 10-30 17:23 300次阅读
    高压放大器<b class='flag-5'>在工作中</b>的应用实例有哪些

    科学家制造出迄今为止分辨率最高的超透镜

    一个由中国和英国科学家组成的团队制造了迄今为止分辨率最高的光学成像透镜。 19世纪以来,医生们一直认为,光学显微镜存在一个分辨率极限,超出这个极限就无法清楚地看到物体。当物体小于200纳米,比如一些
    的头像 发表于 09-01 06:28 429次阅读

    华为辟谣3.2万名科学家移籍

    华为辟谣3.2万名科学家移籍 对于近期网络传言的华为3.2万名科学家移籍华为方面表示,造谣者毫无根据、无中生有。 华为辟谣3.2万名科学家移籍以及其他的一些网络传言,比如“华为孟晚舟宣
    的头像 发表于 08-22 16:51 1001次阅读
    华为辟谣3.2万名<b class='flag-5'>科学家</b>移籍

    科学家呼吁开展气候合作

    三位研究人员介绍了建立地球数字孪生的计划,该计划旨在帮助人们了解全球变暖的影响并做出应对。 三位顶尖科学家正在帮助带领计算史上最雄心勃勃的项目之一:打造地球的 数字孪生 。 Peter Bauer
    的头像 发表于 07-06 20:10 290次阅读
    <b class='flag-5'>科学家</b>呼吁开展气候合作

    踏歌智行创始人、首席科学家余贵珍教授登榜“2023科创家”

    “一群跨越了科学与商业边界的人”这是科创媒体36氪对科创企业家的定义。近日, 踏歌智行创始人、首席科学家余贵珍教授从全赛道中脱颖而出, 登榜首届“2023科创家”榜单。此次共有15位教授荣登榜单
    的头像 发表于 06-16 19:15 2361次阅读
    踏歌智行创始人、首席<b class='flag-5'>科学家</b>余贵珍教授登榜“2023科创家”

    如何让个uno成为ringmaster向网络上的每个其他uno发送一些数据并触发它们做一些工作

    数据并触发它们做一些工作,处理它们的数据并将其发送回第个 uno。 看起来这应该是相当直截了当的,但这超出了我的理解范围,我正在寻找
    发表于 05-23 07:06

    科学家用银线团搭建「纳米线网络」,触电就像大脑一样运作

    这也是如今不少AI科学家们梦寐以求的特性。最近,来自悉尼大学和日本国家材料科学研究所的科学家们在自然通讯上发表论文,试着通过使用纳米线网络(NWN)来模拟人类大脑在受到电激时的反应,实验效果还不错。
    的头像 发表于 05-04 09:30 432次阅读
    <b class='flag-5'>科学家</b>用银线团搭建「纳米线网络」,触电就像大脑一样运作

    获双项荣誉:中科智云受邀出席第二十一届中国科学家论坛

    、科技工作者、企业家等上千人齐聚一堂,探讨企业科技创新成果等热点话题。全球性创新型人工智能科技公司-中科智云受邀出席,并在此次大会中获组委会授予双项荣誉。 第二十一届中国科学家论坛现场 中国科学家论坛创办于2002年,由中国未来
    的头像 发表于 05-02 21:38 483次阅读