0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

传统机器学习方法和应用指导

上海生物芯片 来源:上海生物芯片 2024-12-30 09:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在上一篇文章中,我们介绍了机器学习的关键概念术语。在本文中,我们会介绍传统机器学习的基础知识和多种算法特征,供各位老师选择。

01

传统机器学习

传统机器学习,一般指不基于神经网络的算法,适合用于开发生物学数据的机器学习方法。尽管深度学习(一般指神经网络算法)是一个强大的工具,目前也非常流行,但它的应用领域仍然有限。与深度学习相比,传统方法在给定问题上的开发和测试速度更快。开发深度神经网络的架构并进行训练是一项耗时且计算成本高昂的任务,而传统的支持向量机(SVM)和随机森林等模型则相对简单。此外,在深度神经网络中估计特征重要性(即每个特征对预测的贡献程度)或模型预测的置信度仍然不是一件容易的事。即使使用深度学习模型,通常仍应训练一个传统方法,与基于神经网络的模型进行比较。

传统方法通常期望数据集中的每个样本具有相同数量的特征,但是生物学检测数据很难满足这个需求。举例说明,当使用蛋白质、RNA的表达水平矩阵时,每个样本表达的蛋白质、RNA数量不同。为了使用传统方法处理这些数据,可以通过简单的技术(如填充和窗口化)将数据调整为相同的大小。“填充”意味着将每个样本添加额外的零值,直到它与数据集中最大的样本大小相同。相比之下,窗口化将每个样本缩短到给定的大小(例如,使用在所有样品中均表达的蛋白质、RNA)。

5ed086d2-c36d-11ef-9310-92fbcf53809c.png

表1. 传统机器学习方法比较

02

回归模型

对于回归问题,岭回归(带有正则化项的线性回归)通常是开发模型的良好起点。因为它可以为给定任务提供快速且易于理解的基准。当希望减少模型依赖的特征数时,比如筛选生物标志物研究时,其他线性回归变体如LASSO回归和弹性网络回归也是值得考虑的。数据中特征之间的关系通常是非线性的,因此在这种情况下使用如支持向量机(SVM)的模型通常是更合适的选择。SVM是一种强大的回归和分类模型,它使用核函数将不可分的问题转换为更容易解决的可分问题。根据使用的核函数,SVM可以用于线性回归和非线性回归。一个开发模型的好方法是训练一个线性SVM和一个带有径向基函数核的SVM(一种通用的非线性SVM),以量化非线性模型是否能带来任何增益。非线性方法可以提供更强大的模型,但代价是难以解释哪些特征在影响模型。

03

分类模型

许多常用的回归模型也用于分类。对于分类任务,训练一个线性SVM和一个带有径向基函数核的SVM也是一个好的默认起点。另一种可以尝试的方法是k近邻分类(KNN)。作为最简单的分类方法之一,KNN提供了与其他更复杂的模型(如SVM)进行比较的有用基线性能指标。另一类强大的非线性方法是基于集成的模型,如随机森林和XGBoost。这两种方法都是强大的非线性模型,具有提供特征重要性估计和通常需要最少超参数调优的优点。由于特征重要性值的分配和决策树结构,这些模型可分析哪些特征对预测贡献最大,这对于生物学理解至关重要。

无论是分类还是回归,许多可用的模型都有令人眼花缭乱的变体。试图预测特定方法是否适合特定问题可能会有误导性,因此采取经验性的试错方法来找到最佳模型是明智的选择。选择最佳方法的一个好策略是训练和优化上述多种方法,并选择在验证集上表现最好的模型,最后再在独立的测试集上比较它们的性能。

04

聚类模型和降维

聚类算法在生物学中广泛应用。k-means是一种强大的通用聚类方法,像许多其他聚类算法一样,需要将聚类的数量设置为超参数。DBSCAN是一种替代方法,不需要预先定义聚类的数量,但需要设置其他超参数。在聚类之前进行降维也可以提高具有大量特征的数据集的性能。

降维技术用于将具有大量属性(或维度)的数据转换为低维形式,同时尽可能保留数据点之间的不同关系。例如,相似的数据点(如两个同源蛋白序列)在低维形式中也应保持相似,而不相似的数据点(如不相关的蛋白序列)应保持不相似。通常选择两维或三维,以便在坐标轴上可视化数据,尽管在机器学习中使用更多维度也有其用途。这些技术包括数据的线性和非线性变换。生物学中常见的例子包括主成分分析(PCA)、均匀流形逼近和投影(UMAP)以及t分布随机邻域嵌入(t-SNE)。

5f95bb50-c36d-11ef-9310-92fbcf53809c.png

图1. 各种传统机器学习模型

本文详细介绍了传统机器学习方法和应用指导,下一篇文章将介绍深度神经网络算法模型,敬请期待。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4825

    浏览量

    106767
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136214

原文标题:生物学家的机器学习指南(三)

文章出处:【微信号:SBCNECB,微信公众号:上海生物芯片】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    量子机器学习入门:三种数据编码方法对比与应用

    传统机器学习中数据编码确实相对直观:独热编码处理类别变量,标准化调整数值范围,然后直接输入模型训练。整个过程更像是数据清洗,而非核心算法组件。量子机器
    的头像 发表于 09-15 10:27 467次阅读
    量子<b class='flag-5'>机器</b><b class='flag-5'>学习</b>入门:三种数据编码<b class='flag-5'>方法</b>对比与应用

    AI 驱动三维逆向:点云降噪算法工具与机器学习建模能力的前沿应用

    在三维逆向工程领域,传统方法在处理复杂数据和构建高精度模型时面临诸多挑战。随着人工智能(AI)技术的发展,点云降噪算法工具与机器学习建模能力的应用,为三维逆向工程带来了创新性解决方案,
    的头像 发表于 08-20 10:00 442次阅读
    AI 驱动三维逆向:点云降噪算法工具与<b class='flag-5'>机器</b><b class='flag-5'>学习</b>建模能力的前沿应用

    ARM入门学习方法分享

    。 以下是一些入门学习方法的分享: 一、 理解基本概念:首先,了解ARM是什么以及它的基本概念是很重要的。ARM(Advanced RISC Machines)指的是一种精简指令集计算机(RISC
    发表于 07-23 10:21

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 2620次阅读

    扫地机器人EMC整改:传统方法VS新技术的高效解决方案

    南柯电子|扫地机器人EMC整改:传统方法VS新技术的高效解决方案
    的头像 发表于 06-10 11:00 740次阅读
    扫地<b class='flag-5'>机器</b>人EMC整改:<b class='flag-5'>传统</b><b class='flag-5'>方法</b>VS新技术的高效解决方案

    第一章 W55MH32 高性能以太网单片机的学习方法概述

    本章介绍W55MH32的学习方法,建议先了解硬件资源,按基础篇、入门篇循序渐进学习。参考两份手册,提供例程资料,还给出官网、github 等学习资料查找渠道。让我们一起踏上W55MH32高性能以太网单片机的
    的头像 发表于 05-26 09:07 527次阅读
    第一章 W55MH32 高性能以太网单片机的<b class='flag-5'>学习方法</b>概述

    使用MATLAB进行无监督学习

    无监督学习是一种根据未标注数据进行推断的机器学习方法。无监督学习旨在识别数据中隐藏的模式和关系,无需任何监督或关于结果的先验知识。
    的头像 发表于 05-16 14:48 1160次阅读
    使用MATLAB进行无监督<b class='flag-5'>学习</b>

    18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现

    本来转自:DeepHubIMBA本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理解。为确保内容
    的头像 发表于 04-23 13:22 1291次阅读
    18个常用的强化<b class='flag-5'>学习</b>算法整理:从基础<b class='flag-5'>方法</b>到高级模型的理论技术与代码实现

    一种无刷直流电机霍耳信号与定子绕组关系自学习方法

    的关系。提出了一种无刷直流电机霍耳信号与定子绕组关系自学习方法,该方法通过不同的绕组通电组合将电机转子依次转到6个不同的位置并记录对应的霍耳信号,然后得出霍耳信号与定子绕组的对应关系。所提出的方法快速
    发表于 03-25 15:15

    DeepSeek与Kimi揭示o1秘密,思维链学习方法显成效

    据消息,OpenAI近日发布了一项重要研究报告。报告指出,DeepSeek和Kimi两家机构通过独立研究,成功利用思维链学习方法,在数学解题与编程挑战中显著提升了模型的综合表现。 Kimi的研究员
    的头像 发表于 02-18 15:13 690次阅读

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编将探讨机器学习模型市场的未来发展。
    的头像 发表于 02-13 09:39 617次阅读

    嵌入式机器学习的应用特性与软件开发环境

    作者:DigiKey Editor 在许多嵌入式系统中,必须采用嵌入式机器学习(Embedded Machine Learning)技术,这是指将机器学习模型部署在资源受限的设备(如微
    的头像 发表于 01-25 17:05 1199次阅读
    嵌入式<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的应用特性与软件开发环境

    如何快速学习硬件电路

    对于想要学习硬件电路的新手来说,一开始可能感到有些困难,但只要掌握了正确的学习方法和技巧,就能够快速地成为一名优秀的硬件电路工程师。 首先,新手需要了解基本的电路知识,例如电阻、电容、电感等。这些
    的头像 发表于 01-20 11:11 1931次阅读
    如何快速<b class='flag-5'>学习</b>硬件电路

    如何选择云原生机器学习平台

    当今,云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势,逐渐成为企业构建和部署机器学习应用的首选。然而,市场上的云原生机器
    的头像 发表于 12-25 11:54 695次阅读

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    共同挑战:如何从高维噪声数据中提取有效特征?如何平衡模型复杂度和计算效率?如何保证系统在真实环境中的稳定性?书中提出的技术方案对我的工作很有启发。多模态融合策略可用于处理异构数据源,元学习思想可指导增量学习系统设计,而模型优化
    发表于 12-24 15:03