0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据科学和机器学习所需要的基本数学技能

如意 来源:读芯术 作者:读芯术 2020-07-06 09:39 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作为一切科学的基础,数学在数据科学领域也占据着重要地位。如果你是一名数据科学爱好者,一定想过这些问题:

· 我可以在几乎没有数学背景的情况下,成为一名数据科学家吗?

· 在数据科学中,哪些基本的数学技能是重要的?

有很多好用的包可以用来构建预测模型,或生成数据可视化。一些最常用的描述性分析和预测性分析包包括:Ggplot2、Matplotlib、Seaborn、Scikit-learn、Caret、TensorFlow、PyTorch、Keras等。

有了这些包,任何人都可以构建模型或者生成数据可视化。然而,想要微调模型,使之能产生具有最佳性能的可靠模型,确实需要非常扎实的数学基础知识。

建立模型是一回事,但是解释模型,并且总结出有意义的,且可用于数据驱动的决策制定的结论是另一回事。重要的是,在使用这些包之前,读者必须要对每一个包的数学基础有所了解,不仅限将这些包作为黑盒子工具来使用。

案例研究:构建多元回归模型

假设现在要建立一个多元回归模型。在此之前,我们需要问自己几个问题:

· 数据集有多大?

· 我的特征变量和目标变量是什么?

· 哪些预测特征与目标变量最相关?

· 哪些功能很重要?

· 应该缩放特征吗?

· 如何提高模型的预测能力?

· 应该使用正则回归模型吗?

· 回归系数是多少?

· 什么是拦截?

· 如何将数据集划分为训练集和测试集?

· 什么是主成分分析(PCA)?

· 应该使用主成分分析来删除冗余的特征吗?

· 应不应该使用非参数回归模型,如k邻近回归(或支持向量回归)?

· 模型中有哪些超参数,如何对它们进行微调以获得性能最优的模型?

· 如何评估模型?是用R2-score(决定系数),MSE(均方误差),还是MAE(平均绝对误差)?

没有良好的数学背景,就无法回答上述问题。在数据科学和机器学习中,数学技能和编程技能同等重要。作为一名数据科学爱好者,一定要投入时间来研究数据科学和机器学习的理论和数学基础。

能否建立可靠而有效的模型,使其应用于现实世界的问题,取决于读者的数学技能有多好。接下来我们来讨论一下在数据科学和机器学习中所需要的一些基本数学技能。

数据科学与机器学习的基本数学技能

1. 线性代数

线性代数是机器学习中最重要的数学技能。数据集表示为矩阵,线性代数用于数据预处理、数据转换、降维和模型评估。

以下是大家需要熟悉的:向量;向量的范数;矩阵;矩阵的转置;逆矩阵;矩阵的行列式;矩阵的迹;点积;特征值;特征向量。

2. 统计与概率

统计与概率用于特征可视化、数据预处理、特征转换、数据插补、降维、特征工程、模型评价等。

以下是大家需要熟悉的:均值、中值、模式、标准差/方差、相关系数和协方差矩阵、概率分布(二项式、泊松分布、正态分布)、p值、贝叶斯定理(精度、召回率、正预测值、负预测值、混淆矩阵、ROC曲线)、中心极限定理,R-2 score,均方误差(MSE),A/B检验,蒙特卡罗模拟

3. 多变量微积分

大多数机器学习模型都是由一个具有多个特征或预测器的数据集建立的。因此,熟悉多变量微积分对于建立机器学习模型非常重要。

以下是大家需要熟悉的:多元函数;导数和梯度;阶跃函数、S形函数、Logit效用函数、ReLU(修正线性单元)函数;成本函数;函数绘图;函数的最小值和最大值。

4.优化方法

大多数机器学习算法是通过最小化目标函数进行预测建模,从而学习为获得预测标签而必须应用于测试数据的权重。

以下是大家需要熟悉的:成本函数/目标函数;似然函数;误差函数;梯度下降算法及其变体(例如随机梯度下降算法)。

本文讨论了数据科学和机器学习所需的基本数学和理论技能。互联网时代,你能很轻松找到学习资源。作为数据科学爱好者一定要记住,数据科学的理论基础对于高效可靠的模型建立至关重要。你应该花足够的时间来钻研每种机器学习算法背后的数学理论,这对于数据科学来说是必不可少的。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数学建模
    +关注

    关注

    0

    文章

    50

    浏览量

    14149
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236
  • 数据科学
    +关注

    关注

    0

    文章

    168

    浏览量

    10749
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    嵌入式需要掌握哪些核心技能?

    嵌入式需要掌握哪些核心技能? 若想通过学习嵌入式技术提升就业竞争力,需重点掌握C语言、嵌入式硬件架构、RTOS/Linux开发、通信协议四大核心技能,并结合行业需求积累项目经验。
    发表于 10-21 16:25

    labview怎么读取UTF-16 LE 文本数据

    各位大佬 请问labview怎么读取UTF-16 LE 文本数据 直接读数据出来会有空格 但是空格无法删除,请问怎么获取UTF-16 LE格式数据
    发表于 10-10 11:23

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    科学发现的重要组成部分。 实验科学:通过观察和实验来验证假说 理论科学:通过构建逻辑框架来解释观察到的现象 模型科学:通过数学模型来描述和
    发表于 09-17 11:45

    量子机器学习入门:三种数据编码方法对比与应用

    在传统机器学习数据编码确实相对直观:独热编码处理类别变量,标准化调整数值范围,然后直接输入模型训练。整个过程更像是数据清洗,而非核心算法组件。量子
    的头像 发表于 09-15 10:27 482次阅读
    量子<b class='flag-5'>机器</b><b class='flag-5'>学习</b>入门:三种<b class='flag-5'>数据</b>编码方法对比与应用

    如何在机器视觉中部署深度学习神经网络

    人士而言往往难以理解,人们也常常误以为需要扎实的编程技能才能真正掌握并合理使用这项技术。事实上,这种印象忽视了该技术为机器视觉(乃至生产自动化)带来的潜力,因为深度学习并非只属于计算机
    的头像 发表于 09-10 17:38 693次阅读
    如何在<b class='flag-5'>机器</b>视觉中部署深度<b class='flag-5'>学习</b>神经网络

    盘点嵌入式就业所需要技能有哪些?

    良好的沟通能力和团队合作精神,能够与不同领域的工程师协作。 综上所述,嵌入式行业的就业方向丰富多样,不同行业对嵌入式技术的需求也各有侧重。因此,嵌入式工程师需要根据不同的就业方向,学习和掌握相关的技能
    发表于 08-11 15:43

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    这对开发人员意味着什么,以及使用Neuton 模型如何改进您的开发和最终应用。 ML 模型对于您所选微控制器的内存来说太大。 创建自定义ML 模型本质上是一个手动过程,需要高水平的数据科学
    发表于 07-31 11:38

    通过NVIDIA Cosmos模型增强机器人学习

    通用机器人的时代已经到来,这得益于机械电子技术和机器人 AI 基础模型的进步。但目前机器人技术的发展仍面临一个关键挑战:机器需要大量的训练
    的头像 发表于 07-14 11:49 763次阅读
    通过NVIDIA Cosmos模型增强<b class='flag-5'>机器人学习</b>

    嵌入式AI技术之深度学习数据样本预处理过程中使用合适的特征变换对深度学习的意义

      作者:苏勇Andrew 使用神经网络实现机器学习,网络的每个层都将对输入的数据做一次抽象,多层神经网络构成深度学习的框架,可以深度理解数据
    的头像 发表于 04-02 18:21 1284次阅读

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编将探讨机器学习模型市场
    的头像 发表于 02-13 09:39 625次阅读

    数学专业转人工智能方向:考研/就业前景分析及大学四年学习路径全揭秘

    随着AI技术的不断进步,专业人才的需求也日益增长。数学作为AI的基石,为机器学习、深度学习数据分析等提供了理论基础和工具,因此越来越多的
    的头像 发表于 02-07 11:14 1702次阅读
    <b class='flag-5'>数学</b>专业转人工智能方向:考研/就业前景分析及大学四年<b class='flag-5'>学习</b>路径全揭秘

    传统机器学习方法和应用指导

    用于开发生物学数据机器学习方法。尽管深度学习(一般指神经网络算法)是一个强大的工具,目前也非常流行,但它的应用领域仍然有限。与深度学习相比
    的头像 发表于 12-30 09:16 1982次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    医疗领域,手术辅助机器需要毫米级的精确控制,书中有介绍基于视觉伺服的实时控制算法,以及如何利用大模型优化手术路径规划。工业场景中,协作机器人面临的主要挑战是快速适应新工艺流程。具身智能通过在线
    发表于 12-24 15:03

    【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

    嵌入式人工智能(EAI)将人工智能集成到机器人等物理实体中,使它们能够感知、学习环境并与之动态交互。这种能力使此类机器人能够在人类社会中有效地提供商品及服务。 数据是一种货币化工具
    发表于 12-24 00:33

    zeta在机器学习中的应用 zeta的优缺点分析

    在探讨ZETA在机器学习中的应用以及ZETA的优缺点时,需要明确的是,ZETA一词在不同领域可能有不同的含义和应用。以下是根据不同领域的ZETA进行的分析: 一、ZETA在机器
    的头像 发表于 12-20 09:11 1627次阅读