0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一些数据科学家在工作中最常遇到的“奇葩”需求

zhKF_jqr_AI 来源:未知 作者:李倩 2018-07-08 09:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

编者按:数据科学家是21世纪“最性感”的工作,几乎所有人都为之疯狂——无论什么产品,只要在醒目位置标上“人工智能”,它就不仅卖得掉,还卖得火。但是,这也产生了不少问题。以往我们谈及设计人员工作时,总会拿不懂PS是Photoshop的甲方作为笑谈,现在这样的事也同样发生在数据科学家身上,纵然有心解释,社会刻板印象还是会让他们百口莫辩。

如果说现代设计已经在人们生活中存在了几十年,许多甲方客户还对它了解甚少;那机器学习才刚刚崭露头角,人们对它还仅限于眼熟,或是只读过几篇吹得天花乱坠的软文。常言道,隔行如隔山。很多时候,虽然专业人士眼里的常识别人不一定懂,但其他行业起码还有销售帮衬,可以很好地充当对接桥梁。而数据科学家就不一定有这个待遇了。

现在,人们对机器学习、人工智能的偏见是社会性的,这里面包括公司销售。举个不靠谱的例子,当销售们和客户宣传时,他们会把实际效果吹成“占领月球”,客户一听非常满意,超出自己预期,于是要求立即启动“占月”项目。归根结底,数据科学家能做的顶多是把他们送到月球,然后把他们丢在那片荒无人烟的地方。至于开发占领?不可能的。

下面列出了一些数据科学家在工作中最常遇到的“奇葩”需求,虽然看起来有些滑稽,但它们都是真实经历。如果你想成为数据科学家,你可以先熟悉一下它们,提前锻炼一颗强健的心脏;如果你是客户,你也可以通过它们规避不少麻烦,至少谈判时,坐在对面的数据科学家不会一脸了无生趣。

1.“我们想要一个AI模型……它可以解决‘这个’问题”

现如今,我们通过简单的探索性数据分析,就能解决80%的产业分析问题。既然如此,为什么你们还想用机器学习呢?对于这样精确到目标的需求,构建任何机器学习模型都是矫枉过正,在这些问题上用AI是徒劳的,企业也没法从中看到新技术带来的改变。从某种程度上来说,杀鸡焉用牛刀?

诚然,高级分析看起来很拉风,通过投资这项技术,企业可以在技术上“引领”行业,试问有那家公司不喜欢塑造自己先进、光彩的创新形象?但是每一个数据科学家都有义务引导客户正确使用技术,而不是滥用,以保证机器学习这把牛刀不会误伤他人。所以,大家在做数据分析时,请用美观的分析工具说服自己的客户,让他们看到数据背后的完整价值。

到目前为止,人工智能最大的危险在于人们觉得自己理解它,而这个结论下得太早了。——MIRI创始人 Eliezer Yudkowsky

2.“这些数据给你……你给我出一些商业洞见”

通常客户会认为自己的责任只是移交数据,他们中的有些人甚至连需求都不提,丢下一堆数据就走,然后期待数据科学家能总结出一些零零散散的、非常有见地的建议。最好这些建议还能“掷地有声”,让公司一夜间就改头换面。

不幸的是,数据科学家的工作不是文学写作,一个人凭空想是想不出什么操作性强的业务建议的。他们需要和公司业务人员保持长期的、富有成效的交流对话,以了解这家公司能做什么,不能做什么。在整个项目期间,双方要安排一个“验收”期,共同评判建议的具体效果。

如果你连提出一个正确的问题都不会,那你将一无所获。——美国统计学家 W. Edward Deming

3.“造个模型,能跳过不必要的分析,节约时间那种”

数据预处理和探索性分析的重要性毋庸置疑,但很多数据分析师同仁可能在处理数据前就把它们忘了。鉴于此,一些客户就希望机器学习能删除其中“不必要的分析”,在保证结果准确的同时缩短分析时间,提高效率。

其实数据分析是机器学习和所有高级分析的必要步骤,它们同根同源。如果不了解数据,无法从数据中找出异常值和潜在模式,那机器学习模型就是两眼一抹黑,什么都干不了。所以客户应该给数据分析预留足够的时间,并指定讨论时间,方便数据分析师或数据科学家能发现有趣的的东西和及时分享。

一个炼金师在找寻黄金时,会发现许多更具价值的其他物品。——叔本华

4.“我们有上周的数据,你能预测未来6个月的情况吗?”

这个问题几乎是所有数据科学家都没法避免的。总有那么一些人,拼拼凑凑几行数据,就指望AI能像巫女的水晶球一样给个“预兆”。也总有那么一些人,一点数据都没有,还想让AI去填补这些空白。

对机器学习来说,数据的数量和质量至关重要,如果客户不在乎“废料进,废品出”,做数据分析就可以了。一些有用的统计技术确实可以四两拨千斤地处理这类问题,从少量数据中提炼尽可能多的信息,比如插入缺失值(impute)、人工合成数据(SMOTE算法)和使用面向小数据的简单模型。为了避免客户失望,记得定义一些界限来解释为什么结果会那么差。

数据量和分析技术性能之间的关系

5.“你去建个模,两礼拜够不够?”

突然推翻原定计划,却还要求成果保质保量——这是所有项目都可能出现的问题。其他行业是怎么补救的,我们暂且不提,反正机器学习建模不可以。它的时间一旦计划好了,就改不了了,尤其是在原定时间就捉襟见肘的情况下。也许客户会有疑问:现在GPU算力大幅提高了,各种API也都有了,你们这群数据科学家到底在磨蹭啥?

事实上,尽管行业内出现了像Auto-ML这样的进展,但建模过程还是得依赖大量手动操作。数据科学家必须要痛苦地在一轮又一轮的迭代中检查统计结果、比较模型和检查成因。这些是没法自动化的,至少现在还没有自动化。如果客户实在不理解,建议给个例子让他直接体验一下。

建模既是实验,也是艺术创作,里程碑驱动的项目计划并不总是现实的。

6.“能不能把这个变量换了,重新跑下模型?”

当数据科学家终于把建好的商业模型交给客户看时,后者也会习惯性地提一些“调试”要求,其中最常见的是:“你能不能替换这个变量,然后重新运行模型”?表面上看这只是个小改动,但事实上,这个小改动却意味着把在世界杯上踢足球改成在NBA打篮球。

虽然机器学习是高度迭代的,但它的核心目标是为给定变量筛选正确的影响因子,并映射它们的关系。这个要替换的变量是模型的重要组成部分,不能说改就改。所以如果客户想投资AI技术,他们应该努力学习一些基本工作原理。如果遇到这样完全不懂的客户,数据科学家也有必要给出预警,防止他们事后处处不满。

7.“我们模型的准确率可以达到100%吗?”

看到“错误率”就宛如看到“瘟神”,这是很多人的误区。人们都喜欢盲目追求等级,客户也总觉得越靠近100%,模型就越好。然而当准确率超越其他因素成为唯一焦点后,数据科学家就又该头疼了:你们要这么一个精度很高,但没法实际应用的复杂模型有什么用?

2009年,BellKor's Pragmatic Chaos拿下Netflix Prize百万美金竞赛冠军,虽然Netflix到现在还一直夸这个模型有多好,但它从没上线过。为什么?因为这个高精度复杂模型背后的工程成本太高了。如果一个模型只有精度却不能实际应用,它对普通企业的意义又在哪儿?一个好的工程模型应该兼具准确率、稳定性、简单性和业务可解释性,并在之中达到平衡。

工程模型:实现精细平衡和权衡

8.“这模型训练好了,以后能一直保持高性能吗?”

虚拟产品也是产品,当模型训练完,客户自然还要关心一下它的使用寿命。因此他们常问的问题还有:“这个模型是不是会一直这么聪明啊?”“未来我们业务发展了,它跟不跟得上变化啊?”

很不幸,机器学习模型不会自动贯彻终身学习。它还只是个孩子,你们千万要不断耐心教导它!通常情况下,模型需要每隔几周或几个月进行一次快速复习,就像学校里为了考试苦苦挣扎的学生。更重要的是,如果公司业务发生明显变化,这个复习频率要加快,模型可能还要回炉学习点新东西。

尽管发展很快,但这就是当今分析行业的情况,所以如果想投资AI技术,做好模型维护和更新的时间、金钱预算吧!

小结

到现在为止,我们已经介绍了数据科学家工作生活中可能会遇到的8个关键误解,它们隐藏在机器学习建模的6个步骤中:

导致这些误解产生的原因有两个,一是客户对行业基础知识缺乏了解,二是双方对具体效果的预期错位。了解这些内容有助于数据科学家在遇到麻烦时温和、友善地向客户说明情况,而不是一脸无奈或是一肚子火气,最后被迫向客户屈服。

如果你在生活中也遇到过类似的困扰,欢迎留言指出,帮助更多同行总结经验,也让客户和销售更了解自己的工作。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7349

    浏览量

    95025
  • 人工智能
    +关注

    关注

    1820

    文章

    50330

    浏览量

    266967
  • 机器学习
    +关注

    关注

    67

    文章

    8565

    浏览量

    137226

原文标题:是什么让数据科学家频频受挫?机器学习的甲方&乙方

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    商汤科技首席科学家林达华荣获第四届中银香港科技创新奖

    近日,商汤科技联合创始人兼首席科学家林达华教授,荣获第四届中银香港科技创新奖(人工智能及机器人领域),以表彰其于科研创新及成果转化方面的卓越贡献。
    的头像 发表于 04-24 16:48 330次阅读

    微电子科学家吴德馨院士逝世,在国内率先提出利用MEMS结构实现激光器和光纤的无源耦合

    3月24日,中国科学院微电子研究所官方账号发布讣告,中国科学院院士,我国杰出的微电子科学家,中国科学院微电子研究所研究员,原中国科学院微电子
    的头像 发表于 03-25 18:23 355次阅读
    微电子<b class='flag-5'>科学家</b>吴德馨院士逝世,在国内率先提出利用MEMS结构实现激光器和光纤的无源耦合

    了解全国产转速地磁测量模块的应用前景

    。在一些科研和工业应用中,这类模块的作用不可小觑。 你可能会问,为什么我们需要如此精密的测量工具?其实,地磁测量在地球科学、环境监测、航天航空等领域都具有重要价值。比如,科学家们可以通过这些
    发表于 03-23 10:35

    中国科学家重大突破:智能手表未来有望靠体温供电

    长久以来,“续航焦虑”困扰着可穿戴消费电子、植入式医疗领域。但现在,中国科学家项重磅研究,正在让“人体自带充电宝”从科幻走进现实——只需利用体温与环境的微小温差,就能为智能设备持续供电。2026
    的头像 发表于 03-10 18:09 158次阅读

    机器学习和深度学习中需避免的 7 个常见错误与局限性

    ,并验证输出结果,就能不断提升专业技能,养成优秀数据科学家工作习惯。需避免的机器学习和深度学习数据错误在训练数据驱动的人工智能模型时,我们
    的头像 发表于 01-07 15:37 350次阅读
    机器学习和深度学习中需避免的 7 个常见错误与局限性

    思必驰首席科学家俞凯教授当选2026年度IEEE Fellow

    日前,全球最大的专业技术组织国际电气电子工程师协会(The Institute of Electrical and Electronics Engineers, IEEE)公布了2026年度IEEE Fellow(会士)名单,上海交通大学特聘教授、思必驰联合创始人、首席科学家俞凯教授当选。
    的头像 发表于 12-12 11:36 998次阅读

    中兴通讯崔丽受邀出席2025腾冲科学家论坛

    近日,“2025腾冲科学家论坛”在云南启幕。本届论坛以“科学·AI改变世界”为主题,汇聚包括诺贝尔奖、图灵奖、菲尔兹奖得主在内的国际顶尖科学家,以及百余位两院院士、高校校长、科技精英与产业领袖,共话
    的头像 发表于 12-09 11:36 778次阅读

    科学家利用微波激光照射钻石,制造出时间准晶体

    科学家利用微波激光照射钻石,制造出时间准晶体。 美国华盛顿大学、麻省理工学院和哈佛大学科学家携手,成功在钻石上“雕刻”出种全新的物质形态:时间准晶体。这项突破有望为量子计算、精确计时等领域带来
    的头像 发表于 11-19 07:35 281次阅读
    <b class='flag-5'>科学家</b>利用微波激光照射钻石,制造出时间准晶体

    国际类脑计算科学家Yulia Sandamirskaya教授加盟时识科技

    近日,国际类脑计算与神经形态机器人领域知名科学家Yulia Sandamirskaya 教授,作为科学家顾问正式加入时识科技(SynSense)。
    的头像 发表于 10-13 13:50 943次阅读

    科技感拉满!鲸启智能机器人与无人机联动,闪耀服务世界青年科学家论坛

    9 月 20 日,以 “青年,世界科学的未来” 为主题的世界青年科学家论坛(南京)在江北新区启幕。20 余位诺贝尔奖得主、海内外院士,超百位国际国内青年科学家及产业代表齐聚,围绕前沿科技展
    的头像 发表于 10-11 16:54 470次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    AI被赋予了人的智能,科学家们希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动科学被认为是科学发现的第五个范式了,与实验
    发表于 09-17 11:45

    复星医药使用亚马逊云科技生成式AI技术赋能医疗撰写场景 助力科学家效率跃升

    进程。通过“临床试验报告致性检查”和“研发文献翻译”两大功能,复星医药可解放科学家生产力,使其专注于创新药研发的核心工作。在亚马逊云科技的加持下,“临床试验报告致性检查”可覆盖研究
    发表于 07-14 14:16 1199次阅读

    地物光谱仪如何帮助科学家研究植被和土壤?

    在遥感、生态、农业等研究领域,科学家们常常会提到个工具: 地物光谱仪 。它看起来像台“测光的枪”,却能揭示土壤和植被的“隐藏信息”。那么,地物光谱仪到底是怎么工作的?它又是如何在
    的头像 发表于 05-20 15:46 782次阅读
    地物光谱仪如何帮助<b class='flag-5'>科学家</b>研究植被和土壤?

    滚珠丝杆在工作中损耗会影响什么?

    滚珠丝杆在工作中的损耗会对设备的性能、精度、寿命和运行稳定性产生多方面的影响。
    的头像 发表于 05-10 17:54 635次阅读
    滚珠丝杆<b class='flag-5'>在工作中</b>损耗会影响什么?

    在FX2LP USB上配置GPIF中断时遇到一些问题,求解决

    你好,我在 FX2LP USB 上配置 GPIF 中断时遇到一些问题。 我启用了 INT4 中断并从 GPIF 中选择了源 INT4,然后启用了 GPIF 完成中断,但我看不到中断 4 工作。 我该如何做呢?
    发表于 05-06 08:00