0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

50亿海量数据如何高效存储和分析? 华为云数据库GaussDB (for Cassandra) 3个秘诀搞定

IT科技苏辞 来源:IT科技苏辞 作者:IT科技苏辞 2022-12-01 21:36 次阅读

50亿海量数据如何高效存储和分析?

华为云数据库GaussDB (for Cassandra) 3个秘诀搞定

当下,信息社会正在从互联网时代走向物联网时代,信息交互变得更加庞杂、高效和智能。对于互联网公司IOT企业来说,既是机遇,也是挑战。因为,企业不可避免的要面对数据量剧增带来的一系列问题:如何高效存储和扩容,如何在对原有业务改动最小的情况下做到智能化和实时分析。

针对挑战,华为云GaussDB (for Cassandra)为客户提供了强扩展、高存储、高效导入/导出和实时分析等一系列能力,并成功服务了众多互联网公司和IOT企业,获得了客户的高度认可和支持。本文将以其中一个客户业务的痛点问题举例,聊聊高效存储和实时分析的3个秘诀。

海量存储,PB级无感扩展

该用户在线下本地化部署使用数据库或者使用其他的存储为云盘的数据库时,常常需要在容量达到阈值时,提前规划和申购存储资源,可能还需要连带扩容不必要的计算资源。而使用GaussDB (for Cassandra)之后,便再无此烦恼。GaussDB (for Cassandra)采用存算分离架构,可单独扩展存储,高效扩容,业务无感,最高可扩展到PB级。

此外,客户为了做大数据分析,将数据库中的数据再写入一份到HDFS中,供MapReduce和Spark分析,同时需要维护两套资源,维护和资源成本成为了痛点。而客户使用GaussDB (for Cassandra)之后,可以仅采用GaussDB (for Cassandra)即可完成数据库存储和对接大数据分析的功能,同时GaussDB (for Cassandra)提供了更为易用的CQL接口,让用户更加专注功能开发,而不是资源管理。

数据变更捕获和实时分析

客户的一个使用场景需要将爬虫或用户输入的数据,进行在线分析和实时推荐业务,该业务中全量数据达到了50亿条,但增量数据不足5亿,分析对象主要是每日新增数据。在这个场景中,GaussDB (for Cassandra)为客户提供了streaming服务+实时分析解决方案,在损失小部分读写性能的前提下,客户端无需改造即可做到数据读写和实时分析并行,解决方案如下图,该解决方案主要有以下几个阶段:

1.客户业务用过开源驱动写入数据到GaussDB (for Cassandra)

2.GaussDB (for Cassandra)对外提供streaming接口,该接口可获取数据变更捕获

3.客户构建的流服务组件读取streaming接口数据写入到指定的Kafka队列

4.Kafka队列将streaming数据写入到Spark或者Flink中

5.客户在Spark中可对增量数据做分析,也可合并之后做全量分析

pYYBAGOIraiAcczoAAKXPqDFmpM013.png

全量数据导出分析

客户的另一个业务需要周期性对全量数据进行分析和处理,但不想影响在线业务,希望在闲时处理。GaussDB (for Cassandra)提供了全量数据导出和分析解决方案,可在业务低峰期触发任务进行数据导出和冷数据分析,数据导出速率是开源的10+倍,同时做到对业务读写基本无影响。如下为互联网客户每周定期导出数据分析用户画像的解决方案,该方案有以下几个阶段:

1.客户根据需求配置ECS规格,并挂载obsfs并行文件系统

2.客户在DLF上配置导出作业,包括ECS信息,导出参数和定时任务

3.CDM下发作业任务

4.ECS上的导出任务将GaussDB (for Cassandra)中的指定表指定条件的数据导出到obsfs

5.Spark从obsfs中读取全量数据进行数据分析

pYYBAGOIrbCABT61AATHjGVJFJs439.png

通过这3个秘诀,华为云GaussDB (for Cassandra)完美解决了难扩展、高成本、变更不及时等问题,实现了海量数据的高效存储和实时分析,为互联网公司和IOT企业的数字化发展提供了更多可能。

审核编辑黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为云
    +关注

    关注

    3

    文章

    2156

    浏览量

    16813
收藏 人收藏

    评论

    相关推荐

    无惧百万级并发,GaussDB(for Cassandra) 让华为 Push 推送服务更快触达

    利器。 华为GaussDB(for Cassandra) 是一款基于计算存储分离架构的分布式数据库,致力于提供稳定可靠、超高并发,兼容
    的头像 发表于 06-29 16:48 307次阅读
    无惧百万级并发,<b class='flag-5'>GaussDB</b>(for <b class='flag-5'>Cassandra</b>) 让<b class='flag-5'>华为</b> Push 推送服务更快触达

    海量数据运维要给力,华为GaussDB(for Cassandra) 来助力

    应用运维管理平台(AOM)和 Cassandra 是两个不可分割的组成部分,它们共同构成了一个高效的解决方案,可以帮助企业在应用运维业务上取得巨大的优势。在这篇文章中,我们将介绍 AOM
    的头像 发表于 06-27 23:08 233次阅读
    <b class='flag-5'>海量</b><b class='flag-5'>数据</b>运维要给力,<b class='flag-5'>华为</b>云 <b class='flag-5'>GaussDB</b>(for <b class='flag-5'>Cassandra</b>) 来助力

    全量通过!华为GaussDB 首批完成信通院全密态数据库评测

    100%全量通过!基于全栈创新计算架构的全密态数据库华为GaussDB,完成了中国信通院组织的首批“全密态数据库”产品能力评测,标志着 Gaus
    的头像 发表于 06-27 23:08 270次阅读
    全量通过!<b class='flag-5'>华为</b>云 <b class='flag-5'>GaussDB</b> 首批完成信通院全密态<b class='flag-5'>数据库</b>评测

    华为云新一代分布式数据库GaussDB正式发布

    GaussDB、分布式中间件以及可信的开发工具等构建的金融分布式新核心,并正式发布新一代分布式数据库GaussDB。   张平安表示,华为早在2001年就开始投入
    的头像 发表于 06-16 11:33 879次阅读

    华为数据库GaussDB:给世界一个更优选择

    数据库国产化进程中,自主能力是产品的根基。以华为GaussDB数据库为例,代码完全自研。能提供和国际厂商同等的性能和稳定性。目前,华为
    的头像 发表于 06-14 23:02 401次阅读
    <b class='flag-5'>华为</b>云<b class='flag-5'>数据库</b><b class='flag-5'>GaussDB</b>:给世界一个更优选择

    华为数据库GaussDB:数字化转型的可信之选

    华为数据库GaussDB,以其独特的技术优势和卓越的性能,正在为世界提供一个更优选择。作为一种全栈自研、技术领先、性能出众、承载核心业务的数据库产品,
    的头像 发表于 06-14 23:01 330次阅读
    <b class='flag-5'>华为</b>云<b class='flag-5'>数据库</b><b class='flag-5'>GaussDB</b>:数字化转型的可信之选

    数据库知识

    数据时代的数据库 --数据采集、数据清洗和分析数据可视化:提供决策依据 openGaus
    发表于 06-09 16:10 0次下载

    华为发布100%自主数据库

      几天前,华为正式推出全栈自主分散云数据库gaussdb,核心代码100%自主研发。对于华为发布gaussdb
    的头像 发表于 06-09 10:58 1284次阅读

    华为推出首款全栈自主数据库GaussDB,核心代码100%自研

    在生态底座上,华为再有新动作。6月7日,华为在“全球智慧金融峰会2023”上宣布,旗下华为云推出新一代分布式高斯数据库GaussDB)。据
    的头像 发表于 06-09 08:38 490次阅读
    <b class='flag-5'>华为</b>推出首款全栈自主<b class='flag-5'>数据库</b><b class='flag-5'>GaussDB</b>,核心代码100%自研

    根技术突破!华为云重磅发布GaussDB数据库 全面替代海外大厂同类产品

    华为云CEO张平安宣布,华为云新一代分布式数据库GaussDB正式发布,GaussDB华为基于
    的头像 发表于 06-08 18:19 2312次阅读
    根技术突破!<b class='flag-5'>华为</b>云重磅发布<b class='flag-5'>GaussDB</b><b class='flag-5'>数据库</b> 全面替代海外大厂同类产品

    GaussDB 数据类型介绍

    GaussDB 数据库 GaussDB华为基于 openGauss 自研生态推出的云化企业级分布式关系型数据库,它支持多种
    的头像 发表于 06-05 16:40 1285次阅读
    <b class='flag-5'>GaussDB</b> <b class='flag-5'>数据</b>类型介绍

    全量通过!华为GaussDB 首批完成信通院全密态数据库评测

    100%全量通过!!! 基于全栈国产自主计算架构的全密态数据库华为GaussDB,完成了中国信通院组织的首批“全密态数据库”产品能力评测,标志着
    的头像 发表于 06-05 16:39 974次阅读
    全量通过!<b class='flag-5'>华为</b>云 <b class='flag-5'>GaussDB</b> 首批完成信通院全密态<b class='flag-5'>数据库</b>评测

    再识华为数据库——GaussDB

    。同时具有 PB 级海量数据存储、实时高效访问、自动化运维等特点,广泛应用于金融、电信、物流、电商、政体等行业,成为行业最受欢迎的企业级数据库
    的头像 发表于 06-05 16:38 938次阅读
    再识<b class='flag-5'>华为</b>云<b class='flag-5'>数据库</b>——<b class='flag-5'>GaussDB</b>

    GaussDB存储过程介绍

    华为数据库 GaussDB 是一款高性能、高安全性的云原生数据库,在数据库领域处于领先地位。而在 Ga
    的头像 发表于 06-05 16:30 450次阅读
    <b class='flag-5'>GaussDB</b><b class='flag-5'>存储</b>过程介绍

    GaussDB数据库存储过程介绍

    华为数据库 GaussDB 是一款高性能、高安全性的云原生数据库,在数据库领域处于领先地位。而在 Ga
    的头像 发表于 05-30 09:52 738次阅读