0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据技术的主要挑战及解决方法

jf_78858299 来源:DataFunTalk 作者:谈数据 2023-03-29 14:32 次阅读

尽管大数据发展到现在,已经有了一定的技术和商业积累,但还有很多难题等待我们解决。在众多的难题中,亟待解决的主要挑战有:运维挑战、成本挑战和安全挑战。

如何应对这些挑战?有没有具体的解决方案?针对这个问题,笔者与在亚马逊科技任数据架构师的朋友 will(英文名)进行了深度交流。

我们经常说:当今社会已经进入了大数据时代。这句话,容易让人理解为在过去数据似乎离人们很远,或者说过去的时代只有小数据甚至无数据。

事实上,自从人类诞生之日起,数据就承载着人类对自然万物、生产生活的记录和表达。从古代的“结绳记事”,到现在的“智能仪表盘”,从传统数据到网络数据,从小数据到大数据,变化的只有承载数据的载体和使用数据的方法/技术,而数据作为大千世界的符码,一直存在,且亘古未变。万物皆可产生数据,万物皆可数据化。

现如今,人们经常将数据比作石油和金矿,其实在我看来,这只是从经济的视角来阐述数据的价值,而数据的价值远不止于此。数据中既有宇宙星空的奥秘,也有人类社会的百态。谁掌握了数据,谁就掌握了未来!

激活数据潜能,释放数据价值,已经成为当今社会各界的重要共识。于是乎,我们看到越来越多的组织,将数据作为一项重要的资源对其进行采集、存储、管理和利用。

**01 **

大数据技术的发展历程

随着人们对数据越来越重视,大数据的存储和处理的技术也有了较快的发展。注意:这里的数据是指已经电子化的数据,龟壳上的甲骨文、泥板上的楔形文字、以及现代在纸质文件等都不在这个范畴。依据笔者的观察,数据存储和处理技术主要经历了4个发展阶段:

1、传统SQL数据库

传统SQL数据库也叫SMP架构数据库(全称是Symmetrical Multi-Processing,SMP),其核心原理是处理器共享统一的内存和磁盘等,应用场景以单机为主。我们常见的Oracle、MySQL、SQLServer、DB2等都属于SMP数据架构,这种架构一直统治了数据存储江湖40年之久,且在“小数据”管理领域至今依然经久不衰。

2、MPP数据架构

随着DT时代的到来,整个社会数据大爆炸。企业动辄就需要处理TB级数据量,而SMP这种共享资源的数据存储架构对于海量数据的处理显得越发吃力。于是,一种大规模、分布式数据存储架构出现了,它就是MPP (Massively Parallel Processing)架构,它可以 将查询分散到不同节点并行执行 ,显著地提高了数据查询的性能,MPP的出现为数据仓库和数据分析平台提供了出色的解决方案。MPP数据架构的代表有:Redshift、Terdata、GreenPlum、Vertica等。

3、Hadoop数据架构

数据的激增,带动了数据架构的变革,以Hadoop、spark为代表的开源数据库产品,对传统SQL数据库带来了巨大的影响和冲击。**Hadoop的特点是不仅能够存储和处理结构化数据,还能够对半结构化数据、非结构化数据的进行采集、存储、管理和使用。**Hadoop不是单一产品,而是一个庞大的软件生态系统,部署通常需要熟练掌握一系列工具,包括HDFS,Yarn,Spark,Impala,Hive,Flume,Zookeeper和Kafka等等。

4、云原生数据架构

云计算的出现和发展,让企业 IT 基础设施云化,应用转向云端。与此同时,行业内也出现了云原生架构的数据库,其核心是充分发挥云基础设施带来的各种资源弹性的优势,通过 将计算和存储分离,提高数据库资源配置效率,实现计算和存储弹性扩展,按需分配 ,为客户带来超高的ROI。

以亚马逊云科技的云原生数据仓库Redshift为例,Redshift采用存算分离的云原生架构,底层数据是在S3上,支持存储和计算资源的完全独立扩展、自动伸缩,使得 Redshift 具备大数据量下的高并发计算能力。值得一提的是Redshift 还支持机器学习算法,用户可以用SQL方式直接创建机器学习模型,这让数据分析挖掘变得更加简单。

02

大数据所面临的主要挑战

“大数据蕴含大价值”,这是毋庸置疑的。对企业而言,尽管大数据发展到现在,已经有了一定的技术和商业积累,但还有很多难题等待我们解决。在众多的难题中,亟待解决的主要挑战有:运维挑战、成本挑战和安全挑战。

1、大数据的运维挑战

云计算、大数据技术的发展,尤其是开源Hadoop体系的应用,让数据运维工作迎来了巨大的挑战。首先,企业普遍缺乏掌握大数据技术的专业化人才,很多情况下,企业负责数据人员既要做需求,又要做开发,还要做运维。情况好一点的,将大数据开发和运维剥离出来,但是面对庞大的Hadoop体系和不断的技术发展,让大数据运维变得越来越困难。其次,随着数据量和数据应用的激增,交付运维的东西也会越来越多。大数据运维不仅是服务启停、监控、告警、作业调度等浅层次的运维工作,更多的需要肩负起性能调优、资源伸缩、故障处理等工作,以确保大数据的稳定运行。

2、大数据的成本挑战

对于企业而言, 大数据项目的部署有时候给企业带来的不是“大价值”,而是“大成本”。 首先,企业需要考虑的是新增硬件的费用,例如:机房、服务器、存储以及电力消耗等。其次,在软件方面,企业尽管可以选用开源的Hadoop体系来搭建大数据平台,但也不得不为大数据的设计开发和日常运维付费。当然,也有企业选择了云数据架构解决方案,但是在购置云服务时,沿用过去的本地化部署的“超配”思维,资源过度配置,不必要的容量以及环境的可见性不良等问题,导致了云计算成本失控。

3、大数据的安全挑战

大数据的安全问题,一直是业内的一个难题。大数据所存储的数据非常巨大,也非常容易被黑客盯上。企业采用分布式数据架构进行存储,而这种架构数据存储的路径视图相对清晰,导致数据保护相对简单,黑客较为轻易利用相关漏洞,实施不法操作。甚至有的企业有 **“开源等于安全” ** 的错误认知 ,于是积极拥抱开源软件。事实上,开源软件的漏洞并不少,而由此引发的数据安全和泄露问题也在逐年攀升。

03

寻求解决方案,积极应对挑战

大数据的3大挑战,是当今每个企业不得不面对的问题。但要如何应对,有没有具体的解决方案?

近日,针对这个问题,笔者与在亚马逊云科技任数据架构师的朋友 ** will ** (英文名)进行了深度交流,will给出的解决方案是——Serverless data,他认为 Serverless data将是基于云原生数据服务的下一代技术架构的新常态

说实话,对于Serverless我倒是听过,但什么是Serverless data服务,以及它是否真的可以解决大数据的挑战,我却是丈二和尚摸不着头脑,于是只能虚心请教!在一番交杯换盏、深度交流之后,对于这个全新的数据架构,我终于有了一定的认知,于是迫不及待分享给大家。

1、先说一说什么是Serverless

Serverless是一种云计算架构模式,也称为无服务器计算。 这个术语最早出现在 2012 年左右的一篇文章里,作者 Ken Fromm 对它的解释是:Serverless一词并不意味着不再涉及服务器,它只是意味着开发人员不再需要考虑那么多的物理容量或其他基础设施资源管理责任。通过消除后端基础设施的复杂性,无服务器让开发人员将注意力从服务器级别转移到任务级别。

Serverless是一种事件驱动的计算模型,开发者不需要关心底层的服务器和基础设施,只需要编写处理逻辑代码,并将其上传到云服务提供商的平台上。这种架构模式具有高度的可扩展性、灵活性、可靠性和低成本等优点,适合于处理复杂的高并发应用场景。

据朋友介绍,亚马逊云科技是Serverless技术的开创者和引领者。虽然我知道华为、阿里、腾讯也都推出了自己的Serverless产品,但朋友说亚马逊云科技在这个领域全程领跑。没有实质证据,我就不反驳他了,哈哈哈!

2、再说说什么是Serverless data

Serverless data是指一种无服务器架构的数据处理方式,它利用云服务提供商的基础设施和平台服务,以事件驱动的方式来执行和管理数据处理任务。在Serverless数据处理中,开发者不需要关注服务器的运维和部署,只需要编写处理逻辑代码,将其部署到云服务提供商的平台上,然后通过事件触发器来触发处理任务的执行。 这种处理方式具有高可扩展性、高可靠性、低成本等优点,适合于处理大规模、复杂的数据处理任务。 以Serverless架构的数据库为例,它的工作原理如下:

3、Serverless data能够解决的问题

在听完will对Serverless data的介绍,我大致理解Serverless data在数据计算和存储方面确实有一定的优势,但will还提到了亚马逊云科技的全线Serverless data,据说可以有效解决企业数据管理和应用中的各种挑战和问题。

“啥是全线Serverless data?它到底能解决哪些问题?” 在我的不断追问之下,will给出了如下回答:

**第一,Serverless data无需运维。**使用 Serverless Data,用户无需关心服务器、操作系统、网络配置等底层细节,只需要编写代码,托管数据库服务或数据分析服务,它会自动托管运行环境,为用户提供高可用的计算资源和弹性扩缩容能力,从而免去了传统架构中的服务器运维成本和风险。

第二,Serverless data可以有效降低IT成本。 使用 Serverless Data,用户只需要在需要时启动服务,无需预先为未来的峰值流量或访问量准备资源,也无需为不使用的空闲资源付费。简单来讲就是,Serverless data不需要用户预留集群容量,而是根据任务需求实现资源的自动伸缩,从而提高了资源利用率和成本效益,避免资源的浪费,有效降低企业的 IT 成本。

第三,Serverless data支持数据的实时处理。 Serverless data可以通过事件触发器和调度器,自动触发和调度数据处理任务的执行,响应实时事件,处理实时数据流并生成实时数据结果。

第四,Serverless data支持数据治理。 Serverless data可以通过编写数据处理逻辑代码,对数据进行清洗、转换和格式化等操作,让企业的数据资源转化为数据资产。云服务厂商也会提供一些列基于Serverless架构的数据治理和管理工具,支持对企业数据进行管理、监控和维护。在数据安全防护方面,利用云服务厂商的安全防护体系,可以有效保证数据的安全和隐私。

**第五,Serverless data还能支持数据分析和挖掘。**以亚马逊为代表云服务厂商在数据分析和挖掘方面也提供了一系列的Serverless架构的产品和工具,利用这些工具,可以对大量数据进行分析、挖掘和可视化,以发现数据中的有价值信息,让数据为业务赋能,助力企业实现数字化转型。

第六……

第七……

吧啦吧啦……&*#¥#@~##!

will这个技术控就是这样,聊起技术来没完没了。虽然我自认为技术也还行,但跟他比起来还是自愧不如……

04

亚马逊云科技 Serverless Data

通过这次与will的交流,我确实也学到了不少东西,对 Serverless 和 Serverless Data 也有了更深的认知。临别之际,他丢下了一个亚马逊云科技 Serverless 服务介绍材料。让我们一起来看一下号称引领 Serverless 技术发展的亚马逊云科技,在数据服务这个领域到底有哪些无服务器的服务,以及能够给企业带来哪些价值!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SQL
    SQL
    +关注

    关注

    1

    文章

    738

    浏览量

    43465
  • MPP
    MPP
    +关注

    关注

    0

    文章

    22

    浏览量

    10504
  • 大数据
    +关注

    关注

    64

    文章

    8657

    浏览量

    136604
收藏 人收藏

    评论

    相关推荐

    浅谈大数据视频图像处理系统技术

    浅谈大数据视频图像处理系统技术近年来,随着计算机、网络以及图像处理、传输技术的飞速发展,视频监控系统正向着高清化、智能化和网络化方向发展。视频监控系统的高清化、智能化和网络化为视频监控图像处理
    发表于 09-24 15:22

    探寻大数据时代的商业变革

    `科技的进步在很多时候总会超出我们的想象。近年来,“大数据”一词逐渐被大众所熟知,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。大数据时代已然来临,它
    发表于 05-27 17:11

    常见大数据应用有哪些?

    拥有Java编程语言基础的前提下,可以学习以上大数据技术大数据是未来的发展方向,正在挑战我们的分析能力及对世界的认知方式,因此,我们与时俱进,迎接变化,并不断的成长!
    发表于 03-13 16:50

    大数据运用的技术

    领域也有所应用,主要可用于数据采集、数据分析以及数据可视化等,因此,大数据开发需学习一定的Python知识。只有完整的学完以上
    发表于 04-08 16:50

    大数据专业技术学习之大数据处理流程

    集中的大型分布式数据库 或者分布式存储集群,利用分布式技术来对存储于其内的集中的海量数据进行普通的查询和分类汇总等,以此满足大多数常见的分析需求。特点和挑战:导入
    发表于 06-11 16:41

    大数据开发核心技术详解

    数据的核心是云技术和BI。关于大数据和云计算的关系人们通常会有误解,而且也会把它们混起来说,分别做一句话直白解释就是:云计算就是硬件资源的虚拟化;大数据就是海量
    发表于 07-26 16:26

    NLPIR系统KGB知识图谱技术助力大数据深度挖掘

      大数据时代的到来,意味着海量数据的产生,给我们现有的数据存储技术带来了巨大的挑战。而随着时代的进步,
    发表于 12-05 11:49

    几种数据库的大数据批量插入解决方法

    在之前只知道SqlServer支持数据批量插入,殊不知道Oracle、SQLite和MySql也是支持的,不过Oracle需要使用Orace.DataAccess驱动,今天就贴出几种数据库的批量插入解决方法
    发表于 11-04 07:59

    什么是大数据大数据的特点有哪些

    大数据(big data)目录1什么是大数据2大数据的定义3大数据的特点[1]4大数据的作用[2]5大数
    发表于 07-12 06:52

    大数据技术与应用是学什么的?

    大数据技术与应用是学什么的?大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据
    发表于 07-27 07:47

    STM32使用串口2发送数据出现问题及解决方法

    目录设计目的出现问题解决方法设计目的STM32使用串口2发送数据出现问题定义的数组数量过大时,数组内的数据可以正常发送完成,但是发送过后单片机死机。如下图所示,函数卡死在硬件错误中。解决方法
    发表于 08-09 09:18

    面对大数据和物联网设计挑战的英特尔CoFluent技术介绍

    针对Impala集群的大数据和物联网设计挑战的英特尔Cofluent技术
    的头像 发表于 11-05 06:30 3443次阅读

    设计汽车系统的挑战及相应解决方法

    如果您正在设计汽车系统,可能会同时面临器件级和系统级挑战,包括尺寸限制、故障条件,以及设计重复使用以缩短开发时间的需求。因此,本文将详细分析这些挑战并提供相应解决方法
    的头像 发表于 12-22 14:27 567次阅读
    设计汽车系统的<b class='flag-5'>挑战</b>及相应<b class='flag-5'>解决方法</b>

    大数据技术主要学什么

    大数据技术主要学什么 大数据技术专业主要学统计学、数学、计算机、医学、环境科学、经济学、社会学、
    发表于 04-12 13:53 7205次阅读

    大数据技术主要学什么 大数据技术就业方向

    大数据技术专业主要包括以下方面的学习内容:   数据技术数据库是存储和管理
    的头像 发表于 04-14 17:21 5484次阅读