0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据科学不是万能的,需抱有怀疑态度来思考

如意 来源:百家号 作者: 读芯术 2020-07-02 17:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

有人认为,数据科学就是创建可用来预测的模型。这句话可以这样理解:我们有了数据,探测发展模式,把这些再应用于预测未来,获得结果。这个逻辑说得通,其背后的理论,我们称之为统计。

整个历史长河中,有关预测的代名词先后涌现,比如数据挖掘、分析、商业智能、运筹学、新兴的数据科学。不过在这里我们没必要深究统计与数据科学之间是否能划等号,也大可不必对数据信息获取的无数流行词吹毛求疵。今天笔者想聊点儿别的。

你无法预测未来,这一点毋庸置疑,但你依然试图在用图表乐此不疲地做着预测。你认为数据中一定存在些信息,有偏差的“地图”总比没“地图”强吧。

NassimTaleb最出名的一本书中,他借助隐喻说明人类之前对于预测未来的了解经不起推敲。多个世纪前,人们不相信这世上有黑天鹅的存在,因为从未有人见过。直到第一批探险队伍抵达澳大利亚,他们发现原来也会有黑色的羽毛。

单一只黑色家禽让多年存在的“白天鹅定律”不攻自破。哲学家Karl Popper(1902-1994)认为科学是彻底纠正理论的事业。Popper认为理论只可能是错的,我们会需要无数证据验证理论是否实事求是,但这不太可能。

黑天鹅事件不能被预测

你可能会说“这算个什么哲学,这也太糟糕了!”让实践来说明一切吧!看一下国际货币基金组织2020年1月份的GDP增速预测:

数据科学不是万能的,需抱有怀疑态度来思考

2020年1月IMF的GDP增速预测

这里是8月份的预测数据:

数据科学不是万能的,需抱有怀疑态度来思考

2020年8月IMF的GDP增速预测

他们怎么做到的短短几个月就可以迅速改变预测?2019年12月31日,中国报道了武汉“连续几件不明原因疫情”,几周后被称之为COVID-19,世界卫生组织将其升级为全球性流行病。由于该疾病会人传人,整个世界的经济会因此受到了影响。

国际货币基金组织是预测经济的一个前沿机构,它传达的信息变化非常快,会让你对任何预测产生怀疑。假如你碰巧是所谓的“数据科学家”,希望你在预测时也持有怀疑的态度。

你也许会认为IMF从来没打算准确预测未来,他们仅仅预测未来可能出现的情况从而帮助决策制定者。我同意你的说法,但关键是是稳增经济有过山车式发展的风险并未考虑在内。

IMF“单纯预估”会让决策制定者在未来几个月中错过最关键的信息。IMF并非没有能力预测或故意使坏,而是无法预测。这正是Taleb 想传达的:我们无法预测最重要的事件,因为没有消息指向。数据也不难获取,只是答案根本不在那!

对于黑天鹅事件,就算是数据也帮不了你。

为什么我还不富裕?

股市几乎完全预测了近期的五次衰退。如果你还在臣服于数据科学的魔力,赶紧停下来吧。把时间投资在更容易获利的领域:股市。

股市对数据科学家来说是一个再好不过的环境了。有无数需要计算的数据,这些不仅是公共的资源,格式也正确。实际上,一些机器学习的文字介绍会将股市作为主要对象,建立最好的模型。

如果你的预测准确,就会赢得一大笔钱。抛售下行股票,买上行股票。很不幸,这不太能实现,我打赌。

根据S&P 的观点(一家追踪全世界平均股价的企业),“从以往来看,主动式管理基金在短期核长期以来不如基准”。主动式管理基金需要工作人员预测市场趋势,告知大家要卖哪个或买哪个股票。即便如此,他们也无法超越基准,所以只购买每只股票的一小部分来获取平均回报的人会更占优势。

用历史数据预测股市是贸易中的传统,这种方法属于技术分析。这个话题存在争议,时至今日一些人非常信誓旦旦地认为这个方法奏效。他们认为市场中有这样的趋势,许多亿万富翁的财富都要归功于数据信号的利用。

也许这是对的。或许股市中确有趋势,但80%的公司无法利用此途径,哪怕信息是真的,因为旧潮流后会有新的出现。事实证明世界是不断变化的,万事万物变化得飞快,所以任何预测都无济于事。

数据科学无法预测股市是真实情况。将“股市”变为“公司收益”、“客户选择”或其他老板让你预测的利益点,你还会认为自己预测的数字是好的吗?我们无法预测最重要的事情,哪怕这些事即将发生,小概率事件即使可以预测也提不出什么有价值的信息。

数字和叙述

未来无法预测,但可以被创造。

就像我之前提到的,商业环境下从数据中抽取信息的历史长达整整两个世纪。所以我们就该预测到所谓正常情况下发生的事情。一个人必须是其领域中是最好的预测者,我们才会称之为专家。

Philip Tetlock开展了调查,想了解专家是否真的需要预测未来重要的事情。没有成绩的人如何能称之为专家呢?我认为,就算这些人不擅长预测,也是善于编造故事的,只挑选最有用的信息然后另创一个故事,这足以让很多人信服。

专家们都很谨慎,不会做一些容易被推翻的预测,不会告诉你准确的时间。他们一般会说“未来的路很难走”,怎么个难法留给大众去自行解读。

我们可以用数字撒谎。在数据科学家眼中,这不是需要解决的重要问题,而是他们工作的一部分。他们是在讲故事,现在用数字说服人也是一种技巧。或者用我最喜欢的TED讲者的话说,“再添几行,我会给你提供更多的数字”。

任一家公司的员工都会被要求做出成绩。在特特洛克看来,数据科学家很容易成为“专家”。在企业政治游戏中,一些分析师会运用各种编故事的技俩呈现最佳预测,即便是错误的关联、没有预测的能力,而且比不过测试数据集。

如果你从数据科学家那里得到了预测的话,问问你自己:这些数字在告诉我一些重要的事吗?还是特定程序给你呈现想要的结果?

事实如此不便多说,学术研究登记之前是有协议的。研究人员需要先提出问题再寻找答案,否则数据提示的信息都有可能成为答案。至少你要知道这些数字可能什么也说明不了,哪怕是背后的模型设计得再精密。

总结

错误不代表完全没有价值,有用的东西蕴含在其中。在每天工作结束的时候,数据科学家给公司创造的价值就是:

· 没有预测重大事件或意外发生的事件——比如黑天鹅。

· 就算没有意外发生,数据中一定有一些重要的模式,这些模式可能无法继续利用,毕竟世界在变化——比如主动式基金。

· 即使某种方式会不断受用,预测结果可能只是个美好的谎言——比如“那些专家”。

不是说数据科学家没必要存在。我们会定决策,但得看是基于金钱还是数据,我倾向于后者。数据科学家越被鼓励进行实验,找到错误的速度就越快。

但如果你相信了宣传语投身数据的话,就大错特错了。独角兽企业这么做没问题,因为首先,关联并不代表因果;其次是无需为那些迷信数据圣经的公司的失败负责,用Taleb的话来说,这些公司深陷数字教条爬不出来了。

你可能觉得笔者有点儿偏激了,但我的目的在于:把你带离数据驱动的乌托邦世界。数据科学并非灵丹妙药,它也有许多缺点,需要抱有怀疑态度,请跳出迷信理解数据科学。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据挖掘
    +关注

    关注

    1

    文章

    406

    浏览量

    24971
  • 数据科学
    +关注

    关注

    0

    文章

    168

    浏览量

    10751
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    软件的力量:玩转电子万能试验机控制系统的高级技巧

    电子万能试验机的效能发挥,不仅依赖硬件设备的性能,更离不开控制系统软件的灵活运用。很多操作人员仅将软件视为“参数输入工具”,却忽略了其隐藏的强大功能。实际上,熟练掌握软件的高级技巧,能让测试流程更高
    的头像 发表于 10-24 09:31 106次阅读
    软件的力量:玩转电子<b class='flag-5'>万能</b>试验机控制系统的高级技巧

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    科学发现的重要组成部分。 实验科学:通过观察和实验验证假说 理论科学:通过构建逻辑框架解释观察到的现象 模型
    发表于 09-17 11:45

    HarmonyOSAI编程万能卡片生成(二)

    两种方式触发卡片页面刷新;对于元服务工程生成的卡片,数据交互为通过网络请求方式触发卡片页面刷新。 卡片事件:使用router事件跳转到指定的UIAbility、使用call事件拉起UIAbility到
    发表于 09-09 16:10

    HarmonyOSAI编程万能卡片生成(一)

    基于AI大模型理解开发者的卡片需求信息,通过对话式的交互智能生成HarmonyOS万能卡片工程。 使用约束 建议从以下维度描述卡片需求: 当前不支持在生成卡片预览图后继续描述需求进行增量修改。 万能
    发表于 09-08 17:09

    广州邮科三相逆变电源:从直流220V到交流380V,工业用电的“万能转换器”

    在工业领域,电力问题就像一场“无声的战役”——设备突然停机、电压不稳导致故障、临时用电无处可接……这些问题不仅影响效率,还可能造成损失。而广州邮科推出的三相逆变电源,正是为解决这些痛点而生。今天,我们就用“大白话”聊聊这款“电力转换神器”,看看它如何成为工业场景的“万能转换器”。
    的头像 发表于 09-03 16:40 752次阅读
    广州邮科三相逆变电源:从直流220V到交流380V,工业用电的“<b class='flag-5'>万能</b>转换器”

    CCLinkIE转Modbus TCP:光伏逆变器的“万能钥匙”

    “协议僵局”的关键,正是耐达讯通信技术CCLinkIE转Modbus TCP网关的“翻译服务”。 技术痛点:为什么协议不兼容会“卡脖子”? 光伏逆变器实时向PLC传输电压、电流、功率等数据,但
    发表于 07-09 10:17

    AI学习机,比的是什么?

    AI不是万能匙,登高仍须脚下力。
    的头像 发表于 06-12 09:47 2822次阅读
    AI学习机,比的是什么?

    试验机数据采集管理系统有效提升工地材料质量管理

    在现代工程建设中,试验室的科学管理和高效运行成为确保工程质量的关键环节。随着科技的发展,试验机数据采集管理系统逐渐成为工地试验室不可或缺的核心工具。本文将深入探讨该系统如何通过万能机、压力机、抗折
    的头像 发表于 05-13 10:20 471次阅读
    试验机<b class='flag-5'>数据</b>采集管理系统有效提升工地材料质量管理

    突破工业接口壁垒!ARK(方舟微)DMZ42C10S让PLC\\\"万能适配\\\"成为现实!

    突破工业接口壁垒!ARK(方舟微)DMZ42C10S让PLC\"万能适配\"成为现实!
    发表于 03-27 15:20

    万能七彩充开关电源电器的制作

    手机万能七彩充电器的制作过程JC820型手机万能充电器套件制成后,适合充容量为250~3000mA锂离子、镍氢电池;充电时,七彩灯闪烁,指示灯的颜色依次变化,发出绚丽多彩的七彩光芒,饱和后熄灭
    发表于 03-26 14:17

    数据采集卡:示波器不是万能的!!!#数据采集卡 #示波器 #热电偶 #信号

    数据采集卡
    西安阿尔泰电子科技发展有限公司
    发布于 :2025年03月07日 16:38:13

    张希院士探讨AI在科学研究中的应用与思考

    分享,供大家学习和交流。 原文(节选)如下: “ 面对人工智能,我们必须秉持批判性态度。深入思考其输出内容的内涵,探究分析所基于的数据集,以及评估输出结果的质量。” 2016年诺贝尔化学奖得主Ben L. Feringa 的这番
    的头像 发表于 02-14 11:17 1087次阅读
    张希院士探讨AI在<b class='flag-5'>科学</b>研究中的应用与<b class='flag-5'>思考</b>

    NVIDIA RAPIDS cuDF如何赋AI加速数据科学

    随着 AI 正帮助各行各业推动创新和提高效率,基于海量的高质量数据训练各种模型是充分发挥 AI 应用潜力的必经之路,正因如此,数据科学家们面临着日益增长的工作负载需求,迫切需求寻找高
    的头像 发表于 01-24 09:26 1055次阅读

    效率大升!AI赋鸿蒙万能卡片开发

    万能卡片,作为鸿蒙生态应用和元服务的重要展示形式,凭借将关键信息和核心操作前置,实现服务直达、减少跳转层级的体验效果,备受用户和开发者青睐。但传统卡片的设计和编码流程相对繁琐,影响了万能卡片的搭建
    的头像 发表于 01-13 13:44 1390次阅读
    效率大升!AI赋<b class='flag-5'>能</b>鸿蒙<b class='flag-5'>万能</b>卡片开发

    Kimi发布视觉思考模型k1,展现卓越基础科学能力

    ,其能力还成功扩展到了物理、化学等基础科学领域。这标志着Kimi在视觉思考模型的技术研发上取得了重大突破,为用户在多个学科领域提供了强大的支持。 在针对数学、物理、化学等基础科学学科的基准能力测试中,k1模型展现出了卓越的性能。
    的头像 发表于 12-17 09:59 1081次阅读