0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云计算环境中流行的大数据框架介绍

h1654155282.3538 来源:全球物联网资讯 作者:全球物联网资讯 2021-01-09 11:35 次阅读

在本文中,我们将介绍云计算环境中流行的大数据框架,并确定这些大数据框架的某些属性,并探讨与之相关的一些最大障碍和问题。本文将按资源管理大数据框架的主要属性进行分类,将它们与具有类似性质的其他框架进行比较,并提出与使用它们相关的推荐最佳实践。

介绍

尽管迁移到云计算的好处是众所周知的,但在大数据分析的背景下,其好处更为明显。大数据所固有的是使用PB(即将成为EB和ZB)数据。业务分析要求使用数据密集型应用程序,而云环境的可伸缩性对于使它们的部署可行是必不可少的。利用云还可以促进整个组织之间更轻松的协作和连接,简化数据共享并授予更多员工访问相关分析的权限。

IT领导者当然认识到将大数据转移到云中的好处,但是要让主要利益相关者和高层管理人员购买该概念会更加复杂。但是,利用云和大数据的组合确实具有商业上的实际意义,因为它将允许对业务进行优化查看,并将促进基于相关数据的决策。

例如,生产实物产品公司的首席运营官可以极大地受益于访问有关供应链优化的数据以及跟踪缺陷的有效机制。同样,寻求提高客户忠诚度和参与度的CMO,以及寻求增加收入,降低成本和进行战略投资的新途径的CFO,也都依赖数据来制定决策。无论从哪个角度来看,基于云的敏捷平台和大数据的利用将驱动贵公司的运营和实现目标。

如2020-2025年大数据市场报告所述,全球大数据市场规模将从2020年的1389亿美元增加到2025年的2294亿美元。

pIYBAF_5JJKAFn_yAAFWpdEac1E844.png

大数据和云计算的历史

庞大的分析项目高度依赖有效的资源管理,因为数据平台利用大量可视化的硬件资源来降低成本并优化结果。架构的复杂性使得这种管理或资源具有挑战性。因此,应认真考虑将要处理多少数据,并设计出既有利于当前应用,又有利于未来应用的最佳性能的体系结构。

直到最近,网格,计算机集群和其他高性能超级计算机仍被用作高计算项目的资源。群集计算是

此类框架的主要环境。网格计算环境(或其他分布式HPC环境)中的虚拟组织管理专用于应用程序需求的资源(外部和内部),尽管近年来有关将此执行转移到云的讨论一直是讨论的热门话题。出于安全原因,吸引本地存储敏感数据不足为奇,但是当存储量变得无法内部存储(例如企业中的数据)时,组织发现必须迁移到云存储解决方案。

尽管云计算可能是增长大数据的核心,但是针对大数据应用程序的基于云的解决方案与常见的解决方案有很大不同。传统的云解决方案提供了一些松散相关的应用程序,其细粒度的体系结构旨在为大量用户提供服务。这些用户通常在不同的位置独立运行,并且通常拥有非共享或私有数据。该数据可能主要是面向批处理的,并且包含许多交互。通常会对其进行重新定位,以适应高度动态的资源需求。话虽如此,大数据与常规扩展解决方案共享一些共同的属性,以及对资源自动管理的要求。

云计算企业的成长和成熟正在完善和改善云环境,以使其更加敏捷和高效。云提供商也在扩展其服务,其中通常包括数据湖架构。该平台提供了增强的生产力套件,可用于BI,云操作,数据库,OLAP,数据仓库和其他开发工具。

大数据云计算中的资源管理框架

已经在不同的应用领域中使用了各种计算基础结构,以利用商品计算资产以批处理模式处理大型数据库。在这里,我们旨在探索云计算环境中使用的一些流行的大数据资源管理框架。下图有助于直观地绘制出大数据管理结构样式的分类。

pIYBAF_5JJeABInBAAFbiHTZ07M784.png

比较大数据框架

当代企业,研究社区和IT行业都在感受到大数据云计算的影响,涌现出一些变革性和颠覆性的大数据解决方案和技术,以促进许多企业的创新和数据驱动的运营决策。现代数据云计算服务提供了基础架构,技术和大数据分析,可帮助加快大数据分析的步伐并降低其成本。

尽管有许多选项可用,但关键在于选择最适合特定业务的框架。这种选择往往会归结为应用需求,并权衡每种情况的优点和缺点。其中许多是基于应用程序使用场景的,并且可能涉及一些折衷。在云中部署大数据应用程序之前,需要确定几个关键因素。现在,我们将讨论选择每种主要管理框架类型的利弊。

1.处理速度

在评估不同资源管理结构的功效时,处理速度是一项重要的性能衡量工具,它基于对内存或磁盘的数据传输读写(I / O)的便利性。它还测量特定时间段内两个通信单元之间的数据传输速率。有理由认为某些资源管理框架会表现更好。但是,研究发现,尽管某些框架在执行较小的任务时表现出更好的性能,但其他框架在处理更大的数据源集时却要快得多。但是,随着数据集输入的增加,所有框架的“加速”比率都降低了。

2.容错

测量一个组件发生故障时系统的其余部分如何继续运行称为容错。在高性能计算系统中执行特定任务时,将评估数百个错综复杂的互连节点。一个导致失败的结果应该对整个计算的影响很小或没有影响。一些框架比其他框架具有更高的容错能力,其中某些框架在涉及大量数据传输的情况下会超出容错范围。使用PageRank算法进行的研究已用于对多种框架的性能进行实验,发现在较小的数据集中,性能可以很好地衡量,但是随着数据集的增长,“加速”性能下降。某些数据集可能变得如此之大,以至于某些系统无法处理它们而不会崩溃。

3.可扩展性

企业依靠及时处理数据来解决高价值业务问题。通过能够同时大规模执行多个计算,可以减少与业务相关的计算的工作量,总体时间和复杂性。通过在运行时分配额外的资源来适应大负载或工作量(或大小)变化的情况称为可伸缩性。可伸缩性可用于增加所需的资源(按比例放大)或减少所需的资源(按比例缩小)。因此,可伸缩性涉及将多个条件组合到单个算法中。研究表明,框架也可以在不同级别上产生可伸缩的性能。

4.安全性

大多数大数据应用程序都不再使用内部数据存储,而是选择迁移到云环境中,使不同的用户可以访问或记录相同的隐私,从而轻松获得信息。数据完整性和安全性一直是最重要的,但是随着大数据平台广泛采用云计算服务,这一方面会进一步扩大。由于暴露给出于自身原因而寻求数据的多个用户,这反过来又增加了数据所面临的隐私和安全性的风险级别。

安全性分为几类,每一种都需要通过各种级别的加密对身份验证和授权进行不同级别的访问。某些框架在其访问示意图中使用加密机制,而其他框架则允许对其访问和加密进行密码控制。尽管如此,其他人仍未提供任何系统级内置安全性。

结论

在速度和数据量方面的增长速度可能是惊人的,特别是对于年轻的组织。但是,利用云计算可以从根本上改变任何运营的效率和数据驱动的组织。

您的组织是否已将大数据迁移到云?我们很想听听此举如何影响您的数据分析质量和速度。请与我们分享这如何帮助您改善组织运作。
责任编辑人:CC

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云计算
    +关注

    关注

    38

    文章

    7337

    浏览量

    135652
  • 大数据
    +关注

    关注

    64

    文章

    8634

    浏览量

    136568
收藏 人收藏

    评论

    相关推荐

    边缘计算平台开源框架有哪些类型

    将详细介绍几种常见的边缘计算平台开源框架。 Akraino Edge Stack Akraino Edge Stack 是一个开放、轻量级、灵活的云边缘平台框架,它提供了一套标准和最佳
    的头像 发表于 12-27 15:17 461次阅读

    边缘计算框架有哪些

    等应用的需求。边缘计算架构的出现,为各种行业提供了更高效、更灵活的计算数据处理方式,有助于推动数字化转型和智能化发展。本文将详尽介绍边缘计算
    的头像 发表于 12-27 15:01 508次阅读

    数据处理器:DPU编程入门》DPU计算入门书籍测评

    一、DPU计算框架 通过一周多的时间翻阅这本书,基本上这本书是一本比较全面的,面向架构的新手指导数据。它在书中详尽介绍了关于DPU在计算机架
    发表于 12-24 10:54

    Get职场新知识:做分析,用大数据分析工具

    综合分析。但现在有了大数据分析工具,一切问题都可迎刃而解。 大数据分析工具,顾名思义就是专门为分析海量数据而开发的一类工具。这类工具具有极强的大数据分析、指标
    发表于 12-05 09:36

    曙光生态环境大数据解决方案助力我国生态环境大数据”建设

    相通、数据不规范等难题。通过构建智慧高效的生态环境大数据体系成为推动我国生态环境保护的重要支撑。 为全面提升生态环境系统化、科学化、精细化管
    的头像 发表于 10-11 15:51 340次阅读

    加速大数据计算存储应用

    电子发烧友网站提供《加速大数据计算存储应用.pdf》资料免费下载
    发表于 09-15 15:05 0次下载
    加速<b class='flag-5'>大数据</b>和<b class='flag-5'>计算</b>存储应用

    基于STM32的节点端及开发环境介绍

    第一节:基于STM32的节点端介绍• 硬件平台,软件开发环境• 第二节:使用Paho MQTT客户端协议栈直连阿里IoT平台• 适用于资源受限的节点设备• 第三节:使用Linkkit C-SDK和TLS通过MQTT协议直连阿里
    发表于 09-11 07:46

    深度学习框架pytorch介绍

    深度学习框架pytorch介绍 PyTorch是由Facebook创建的开源机器学习框架,其中TensorFlow是完全基于数据流图的。它是一个使用动态
    的头像 发表于 08-17 16:10 1112次阅读

    大数据计算框架简介(2)#大数据分析

    大数据分析
    学习硬声知识
    发布于 :2023年07月13日 18:15:35

    大数据计算框架简介(1)#大数据分析

    大数据分析
    学习硬声知识
    发布于 :2023年07月13日 18:14:55

    大数据计算的关系(2)#大数据分析

    大数据分析
    学习硬声知识
    发布于 :2023年07月13日 00:12:15

    计算的分类#大数据分析

    大数据分析
    学习硬声知识
    发布于 :2023年07月13日 00:06:59

    分布式环境中的连接计算和聚合计算(1)#大数据处理

    大数据
    未来加油dz
    发布于 :2023年07月05日 11:10:53

    大数据下构建智慧消防建设的发展与问题 安科瑞 许敏

    的开展提供强有力的技术支撑,促使消防资源得到合理分配和利用,为社会消防安全治理工作的开展提供保障。 1 、大数据时代智慧消防的特点分析 在大数据时代,智慧城市框架得以提出。而在该框架
    的头像 发表于 06-21 12:26 348次阅读
    <b class='flag-5'>大数据</b>下构建智慧消防建设的发展与问题 安科瑞 许敏

    什么是计算

    、存储和网络服务。PaaS 提供了开发环境和应用程序部署服务,包括数据库、开发工具和应用程序服务。SaaS 则提供了各种类型的软件服务,包括电子邮件、客户关系管理和教育软件等。计算
    发表于 04-21 10:45