一些数据科学家在工作中最常遇到的“奇葩”需求-电子发烧友网

编者按：数据科学家是21世纪“最性感”的工作，几乎所有人都为之疯狂——无论什么产品，只要在醒目位置标上“人工智能”，它就不仅卖得掉，还卖得火。但是，这也产生了不少问题。以往我们谈及设计人员工作时，总会拿不懂PS是Photoshop的甲方作为笑谈，现在这样的事也同样发生在数据科学家身上，纵然有心解释，社会刻板印象还是会让他们百口莫辩。

如果说现代设计已经在人们生活中存在了几十年，许多甲方客户还对它了解甚少；那机器学习才刚刚崭露头角，人们对它还仅限于眼熟，或是只读过几篇吹得天花乱坠的软文。常言道，隔行如隔山。很多时候，虽然专业人士眼里的常识别人不一定懂，但其他行业起码还有销售帮衬，可以很好地充当对接桥梁。而数据科学家就不一定有这个待遇了。

现在，人们对机器学习、人工智能的偏见是社会性的，这里面包括公司销售。举个不靠谱的例子，当销售们和客户宣传时，他们会把实际效果吹成“占领月球”，客户一听非常满意，超出自己预期，于是要求立即启动“占月”项目。归根结底，数据科学家能做的顶多是把他们送到月球，然后把他们丢在那片荒无人烟的地方。至于开发占领？不可能的。

下面列出了一些数据科学家在工作中最常遇到的“奇葩”需求，虽然看起来有些滑稽，但它们都是真实经历。如果你想成为数据科学家，你可以先熟悉一下它们，提前锻炼一颗强健的心脏；如果你是客户，你也可以通过它们规避不少麻烦，至少谈判时，坐在对面的数据科学家不会一脸了无生趣。

1.“我们想要一个AI模型……它可以解决‘这个’问题”

现如今，我们通过简单的探索性数据分析，就能解决80%的产业分析问题。既然如此，为什么你们还想用机器学习呢？对于这样精确到目标的需求，构建任何机器学习模型都是矫枉过正，在这些问题上用AI是徒劳的，企业也没法从中看到新技术带来的改变。从某种程度上来说，杀鸡焉用牛刀？

诚然，高级分析看起来很拉风，通过投资这项技术，企业可以在技术上“引领”行业，试问有那家公司不喜欢塑造自己先进、光彩的创新形象？但是每一个数据科学家都有义务引导客户正确使用技术，而不是滥用，以保证机器学习这把牛刀不会误伤他人。所以，大家在做数据分析时，请用美观的分析工具说服自己的客户，让他们看到数据背后的完整价值。

到目前为止，人工智能最大的危险在于人们觉得自己理解它，而这个结论下得太早了。——MIRI创始人 Eliezer Yudkowsky

2.“这些数据给你……你给我出一些商业洞见”

通常客户会认为自己的责任只是移交数据，他们中的有些人甚至连需求都不提，丢下一堆数据就走，然后期待数据科学家能总结出一些零零散散的、非常有见地的建议。最好这些建议还能“掷地有声”，让公司一夜间就改头换面。

不幸的是，数据科学家的工作不是文学写作，一个人凭空想是想不出什么操作性强的业务建议的。他们需要和公司业务人员保持长期的、富有成效的交流对话，以了解这家公司能做什么，不能做什么。在整个项目期间，双方要安排一个“验收”期，共同评判建议的具体效果。

如果你连提出一个正确的问题都不会，那你将一无所获。——美国统计学家 W. Edward Deming

3.“造个模型，能跳过不必要的分析，节约时间那种”

数据预处理和探索性分析的重要性毋庸置疑，但很多数据分析师同仁可能在处理数据前就把它们忘了。鉴于此，一些客户就希望机器学习能删除其中“不必要的分析”，在保证结果准确的同时缩短分析时间，提高效率。

其实数据分析是机器学习和所有高级分析的必要步骤，它们同根同源。如果不了解数据，无法从数据中找出异常值和潜在模式，那机器学习模型就是两眼一抹黑，什么都干不了。所以客户应该给数据分析预留足够的时间，并指定讨论时间，方便数据分析师或数据科学家能发现有趣的的东西和及时分享。

一个炼金师在找寻黄金时，会发现许多更具价值的其他物品。——叔本华

4.“我们有上周的数据，你能预测未来6个月的情况吗？”

这个问题几乎是所有数据科学家都没法避免的。总有那么一些人，拼拼凑凑几行数据，就指望AI能像巫女的水晶球一样给个“预兆”。也总有那么一些人，一点数据都没有，还想让AI去填补这些空白。

对机器学习来说，数据的数量和质量至关重要，如果客户不在乎“废料进，废品出”，做数据分析就可以了。一些有用的统计技术确实可以四两拨千斤地处理这类问题，从少量数据中提炼尽可能多的信息，比如插入缺失值（impute）、人工合成数据（SMOTE算法）和使用面向小数据的简单模型。为了避免客户失望，记得定义一些界限来解释为什么结果会那么差。

数据量和分析技术性能之间的关系

5.“你去建个模，两礼拜够不够？”

突然推翻原定计划，却还要求成果保质保量——这是所有项目都可能出现的问题。其他行业是怎么补救的，我们暂且不提，反正机器学习建模不可以。它的时间一旦计划好了，就改不了了，尤其是在原定时间就捉襟见肘的情况下。也许客户会有疑问：现在GPU算力大幅提高了，各种API也都有了，你们这群数据科学家到底在磨蹭啥？

事实上，尽管行业内出现了像Auto-ML这样的进展，但建模过程还是得依赖大量手动操作。数据科学家必须要痛苦地在一轮又一轮的迭代中检查统计结果、比较模型和检查成因。这些是没法自动化的，至少现在还没有自动化。如果客户实在不理解，建议给个例子让他直接体验一下。

建模既是实验，也是艺术创作，里程碑驱动的项目计划并不总是现实的。

6.“能不能把这个变量换了，重新跑下模型？”

当数据科学家终于把建好的商业模型交给客户看时，后者也会习惯性地提一些“调试”要求，其中最常见的是：“你能不能替换这个变量，然后重新运行模型”？表面上看这只是个小改动，但事实上，这个小改动却意味着把在世界杯上踢足球改成在NBA打篮球。

虽然机器学习是高度迭代的，但它的核心目标是为给定变量筛选正确的影响因子，并映射它们的关系。这个要替换的变量是模型的重要组成部分，不能说改就改。所以如果客户想投资AI技术，他们应该努力学习一些基本工作原理。如果遇到这样完全不懂的客户，数据科学家也有必要给出预警，防止他们事后处处不满。

7.“我们模型的准确率可以达到100％吗？”

看到“错误率”就宛如看到“瘟神”，这是很多人的误区。人们都喜欢盲目追求等级，客户也总觉得越靠近100%，模型就越好。然而当准确率超越其他因素成为唯一焦点后，数据科学家就又该头疼了：你们要这么一个精度很高，但没法实际应用的复杂模型有什么用？

2009年，BellKor's Pragmatic Chaos拿下Netflix Prize百万美金竞赛冠军，虽然Netflix到现在还一直夸这个模型有多好，但它从没上线过。为什么？因为这个高精度复杂模型背后的工程成本太高了。如果一个模型只有精度却不能实际应用，它对普通企业的意义又在哪儿？一个好的工程模型应该兼具准确率、稳定性、简单性和业务可解释性，并在之中达到平衡。

工程模型：实现精细平衡和权衡

8.“这模型训练好了，以后能一直保持高性能吗？”

虚拟产品也是产品，当模型训练完，客户自然还要关心一下它的使用寿命。因此他们常问的问题还有：“这个模型是不是会一直这么聪明啊？”“未来我们业务发展了，它跟不跟得上变化啊？”

很不幸，机器学习模型不会自动贯彻终身学习。它还只是个孩子，你们千万要不断耐心教导它！通常情况下，模型需要每隔几周或几个月进行一次快速复习，就像学校里为了考试苦苦挣扎的学生。更重要的是，如果公司业务发生明显变化，这个复习频率要加快，模型可能还要回炉学习点新东西。

尽管发展很快，但这就是当今分析行业的情况，所以如果想投资AI技术，做好模型维护和更新的时间、金钱预算吧！

小结

到现在为止，我们已经介绍了数据科学家工作生活中可能会遇到的8个关键误解，它们隐藏在机器学习建模的6个步骤中：

导致这些误解产生的原因有两个，一是客户对行业基础知识缺乏了解，二是双方对具体效果的预期错位。了解这些内容有助于数据科学家在遇到麻烦时温和、友善地向客户说明情况，而不是一脸无奈或是一肚子火气，最后被迫向客户屈服。

如果你在生活中也遇到过类似的困扰，欢迎留言指出，帮助更多同行总结经验，也让客户和销售更了解自己的工作。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉