0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么说数学知识是数据科学家的先决条件?

DPVg_AI_era 来源:lq 2019-01-29 09:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AI机器学习的火热让数据科学家成为近几年热门职业之一。但对于试图从事这一职业的新人来说,数学可能最大的拦路虎之一。不过本文作者认为,当数据科学家并不一定需要坚实的数学基础,并给出了9类无需数学基础的数据科学任务。

在当今世界上,数据科学和机器学习已成为最令人向往的职业方向之一,从大学生到职业生涯中期的专业人士,很多人都希望进入数据科学领域。但是,在追求数据科学或机器学习领域时想到的第一个先决条件是,要具备深入研究复杂数学问题的能力,才能走进数据科学的大门。

但是那些数学基础薄弱,不具备扎实数学背景的人怎么办?他们就没有希望进入数据科学领域了吗?

当然不是。本文将提供踏入数据科学和机器学习世界之前,是否强制要求数学背景知识的真实情况。

为什么说数学知识是数据科学家的先决条件?

与大学其他专业相比,数据科学更多地是关于如何快速准确地学习。通过严格的数学运算,快速准确地掌握技术,并且通常可以比大多数人更容易地学习。

数据科学家基本上都是统计学家,大多数人拥有研究生水平的数学和统计学知识。这是从事实际项目所必需的知识,对于正确使用算法和假设检验至关重要。

掌握逻辑回归、决策树、置信区间等标准数学工具也很重要。大多数企业都会使用这些标准工具。因此,招聘人员也倾向于寻找具备扎实数学背景的求职者,这主要是出于历史原因。

坚持使用标准的数学训练和标准工具,对有兴趣成为硬核数据科学家的人是非常有用的。

数据科学家需要掌握哪些知识呢?

一位优秀的数据科学家或工程师必须具备丰富的数据库知识和工程实践知识。包括处理和记录错误、监控系统,构建人为错误容错渠道,了解扩展项目所需的条件、处理持续整合问题、掌握数据库管理知识,维护数据清理以及确保确定性处理流程等。

凡事有例外,高中数学水平的人也有机会

实际上,在机器学习的所有方面的技术中,数据科学背后的统计引擎并不涉及高中以后的任何数学或统计理论。

如果具备强大的数据和编程背景,任何人都可以非常快速地学习数据科学。

不过,由硬核数学导向的数据科学家开发的一些技术并不使用数学或统计学,这些技术同样有效,其中一些技术已经被证明不输于使用数学的同类技术,而且性能通常更加强大。此外,这些技术更易于理解,并且可解释性更强。

数据科学家的实际工作有多少和数学有关?

打破神话,揭示现实。

从入门级数据科学家到中级数据科学家,一般花在数学上的时间不到5%,机器学习也是如此,尤其是建立模型时,很少有时间做任何数学上的工作。对于机器学习,需要学习的真正的必要技能是数据分析,以便建立能够进行准确预测的模型。初学者其实不需过多掌握微积分和线性代数。

只有参与学术上的机器学习研究或者少数先进的数据科学家团队时,数学的作用才显得特别重要。高水平的业内人士也经常使用高等数学。一些人正在拓展机器学习研究人员的研究边界。

像谷歌和Facebook这样的公司中,人们只会在工作中经常使用微积分、线性代数和更高级的数学工具。

最重要的是,在产业界中,数据科学家只是没有将太多时间花在数学上,但花了大量时间来获取数据、清理数据、探索数据。实际上,80%的人所做的是数据整理和数据的可视化。

9类无需数学技术的数据科学任务

1、使用基本的Excel进行高级机器学习:此方法是一种轻量级的技术实现,包括非常简单易懂的基本Excel实现。目前可用于Python、Perl,Julia和R。未来预计还将支持SQL实现。

2、使用HDT进行自动化的机器学习:此方法融合了名为“决策树”和“回归”的两种传统技术。但是这种实现不涉及任何节点分割或任何传统的回归模型,回归部分是与数学无关的Jack-knife回归。早期版本使用逻辑回归,但由于数据转换过程比较简单,使用的参数较少,导致逻辑回归被Jack-knife回归所取代。

3、无模型置信区间:需要对随机变量和概率分布有基本的了解才能知道置信区间的概念。这类置信区间方法基于百分位数,非常易于理解,无需数学知识且可靠性高,可用于预测分析。

4、假设检验:这是学生在统计课程中的难题之一。这里已被置信区间的简单变体所取代,便于直观理解。

5、使用Excel的Jack-knife回归:这些回归技术非常简单高效,可以在Excel或SQL中轻松实现。

6、Jack-knife回归:理论 – 无须统计理论的回归,甚至不涉及线性代数。不过带有置信区间。在该方法中,即使使用少量元参数,与经典回归相比,也能实现最低限度的精度损失。该方法在存在异常值、高度相关的特征或其他违反假设的情况下性能良好,这些假设条件在使用传统回归时必须通过一个数据集满足。

7、索引,编目和NLP:无需数学知识的监督聚类方法。

8、快速组合特征选择:这种方法通常需要理解随机变量的概念。

9、方差,聚类和密度估计:这些方法中也不大涉及数学。

要成为高效的数据科学家,还是要懂点数学的

其实,这里的关键点是,对于初出茅庐的数据科学家和机器学习从业者来说,数据专业知识的重要性要优于数学专业知识,因此,如果你的目标是获得一份工作,进入数据科学领域,那么最重要的任务是必须掌握数据分析,而不是掌握微积分。数据科学家要做的不是做证明题或研究数学问题,能够分析数据才是最重要的。

初学者需要尽快掌握如何收集数据、探索和准备数据。全面掌握数据可视化和数据处理(包括聚合)是关键环节,这样才可以同时使用它们来执行探索性数据分析任务。

尽管这些无需数学知识的工具和方法,确实凸显了在不具备坚实数学基础的情况下从事数据科学的可能性,但并一定能够满足行业的期望,因为能否获得数据科学家的职位,完全取决于你从事的工作内容,以及你心仪的公司究竟从事什么业务。

在不具备数学背景知识的情况下,确实有可能成为一名数据科学家。但按以往经验来看,如果没有一定程度的数学素养,从长期而言,很难成为一个高效的数据科学家,而高效这一点无疑是更为重要的。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    67

    文章

    8571

    浏览量

    137431
  • 数据科学
    +关注

    关注

    0

    文章

    168

    浏览量

    10836

原文标题:不懂数学,照样做数据科学家

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    从工具智能到 AI 原生验证:徐强教授出任芯华章首席科学家

    从工具智能到 AI 原生验证:徐强教授出任芯华章首席科学家   近日,系统级验证 EDA 企业芯华章宣布,香港中文大学计算机科学与工程系教授徐强正式加盟,出任公司首席科学家。徐强教授长期深耕 AI
    的头像 发表于 05-12 09:39 339次阅读
    从工具智能到 AI 原生验证:徐强教授出任芯华章首席<b class='flag-5'>科学家</b>

    商汤科技首席科学家林达华荣获第四届中银香港科技创新奖

    近日,商汤科技联合创始人兼首席科学家林达华教授,荣获第四届中银香港科技创新奖(人工智能及机器人领域),以表彰其于科研创新及成果转化方面的卓越贡献。
    的头像 发表于 04-24 16:48 545次阅读

    微电子科学家吴德馨院士逝世,在国内率先提出利用MEMS结构实现激光器和光纤的无源耦合

    3月24日,中国科学院微电子研究所官方账号发布讣告,中国科学院院士,我国杰出的微电子科学家,中国科学院微电子研究所研究员,原中国科学院微电子
    的头像 发表于 03-25 18:23 407次阅读
    微电子<b class='flag-5'>科学家</b>吴德馨院士逝世,在国内率先提出利用MEMS结构实现激光器和光纤的无源耦合

    中国科学家重大突破:智能手表未来有望靠体温供电

    长久以来,“续航焦虑”困扰着可穿戴消费电子、植入式医疗领域。但现在,中国科学家的一项重磅研究,正在让“人体自带充电宝”从科幻走进现实——只需利用体温与环境的微小温差,就能为智能设备持续供电。2026
    的头像 发表于 03-10 18:09 230次阅读

    巨霖科技孙家鑫亮相ICCM 2025世界华人数学家大会

    2026年1月3日,以“数学新前沿:改造科学与人类的推动力”为主题的第十届世界华人数学家大会在沪开幕。上海市委书记陈吉宁出席开幕式并致辞,上海市委副书记、市长龚正出席。
    的头像 发表于 01-07 16:35 621次阅读
    巨霖科技孙家鑫亮相ICCM 2025世界华人<b class='flag-5'>数学家</b>大会

    思必驰首席科学家俞凯教授当选2026年度IEEE Fellow

    日前,全球最大的专业技术组织国际电气电子工程师协会(The Institute of Electrical and Electronics Engineers, IEEE)公布了2026年度IEEE Fellow(会士)名单,上海交通大学特聘教授、思必驰联合创始人、首席科学家俞凯教授当选。
    的头像 发表于 12-12 11:36 1080次阅读

    中兴通讯崔丽受邀出席2025腾冲科学家论坛

    近日,“2025腾冲科学家论坛”在云南启幕。本届论坛以“科学·AI改变世界”为主题,汇聚包括诺贝尔奖、图灵奖、菲尔兹奖得主在内的国际顶尖科学家,以及百余位两院院士、高校校长、科技精英与产业领袖,共话
    的头像 发表于 12-09 11:36 850次阅读

    技术感知世界!昊衡科技在第四届飞行器健康管理技术国际高端论坛暨青年科学家论坛等您!

    今日是第四届飞行器健康管理技术国际高端论坛暨青年科学家论坛在厦门国际会展酒店(会展二路199号)的会议日,现场学术氛围持续高涨。武汉昊衡科技作为国产先进光学测量与传感测量仪器制造商,此次携两款创新
    的头像 发表于 11-20 17:15 1904次阅读
    技术感知世界!昊衡科技在第四届飞行器健康管理技术国际高端论坛暨青年<b class='flag-5'>科学家</b>论坛等您!

    科学家利用微波激光照射钻石,制造出时间准晶体

    科学家利用微波激光照射钻石,制造出时间准晶体。 美国华盛顿大学、麻省理工学院和哈佛大学科学家携手,成功在钻石上“雕刻”出一种全新的物质形态:时间准晶体。这项突破有望为量子计算、精确计时等领域带来
    的头像 发表于 11-19 07:35 341次阅读
    <b class='flag-5'>科学家</b>利用微波激光照射钻石,制造出时间准晶体

    第四届飞行器健康管理技术国际高端论坛暨青年科学家论坛:昊衡科技,欢迎您来!

    大会介绍第四届飞行器健康管理技术国际高端论坛暨青年科学家论坛将于2025年11月19-21日在中国厦门举行。会议由厦门大学和江南大学联合主办,围绕飞行器健康管理与智能运维,以“数字时代、智领运维
    的头像 发表于 11-14 17:36 3270次阅读
    第四届飞行器健康管理技术国际高端论坛暨青年<b class='flag-5'>科学家</b>论坛:昊衡科技,欢迎您来!

    国际类脑计算科学家Yulia Sandamirskaya教授加盟时识科技

    近日,国际类脑计算与神经形态机器人领域知名科学家Yulia Sandamirskaya 教授,作为科学家顾问正式加入时识科技(SynSense)。
    的头像 发表于 10-13 13:50 1049次阅读

    科技感拉满!鲸启智能机器人与无人机联动,闪耀服务世界青年科学家论坛

    9 月 20 日,以 “青年,世界科学的未来” 为主题的世界青年科学家论坛(南京)在江北新区启幕。20 余位诺贝尔奖得主、海内外院士,超百位国际国内青年科学家及产业代表齐聚,围绕前沿科技展
    的头像 发表于 10-11 16:54 582次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    AI被赋予了人的智能,科学家们希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动科学被认为是科学发现的第五个范式了,与实验
    发表于 09-17 11:45

    复星医药使用亚马逊云科技生成式AI技术赋能医疗撰写场景 助力科学家效率跃升

    进程。通过“临床试验报告一致性检查”和“研发文献翻译”两大功能,复星医药可解放科学家生产力,使其专注于创新药研发的核心工作。在亚马逊云科技的加持下,“临床试验报告一致性检查”可覆盖研究人员90%的撰写场景,工作效率提升70%;而在“研发文
    发表于 07-14 14:16 1224次阅读

    PCB层叠结构设计的先决条件

    )出发,深入探讨PCB多层板的层叠结构设计的先决条件。 一、Core和PP的简要介绍 Core是PCB多层板的核心组成部分,它的两个表层都铺有铜箔,可作为信号层、电源层、地层等导电层。Core的上、下表层之间填充的是固态材料,具有良好的机械强度和电气性能。而PP则是一种半固态的树脂
    的头像 发表于 06-06 15:37 1620次阅读
    PCB层叠结构设计的<b class='flag-5'>先决条件</b>