0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

50亿海量数据如何高效存储和分析? 华为云数据库GaussDB (for Cassandra) 3个秘诀搞定

IT科技苏辞 来源:IT科技苏辞 作者:IT科技苏辞 2022-12-01 21:36 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

50亿海量数据如何高效存储和分析?

华为云数据库GaussDB (for Cassandra) 3个秘诀搞定

当下,信息社会正在从互联网时代走向物联网时代,信息交互变得更加庞杂、高效和智能。对于互联网公司和IOT企业来说,既是机遇,也是挑战。因为,企业不可避免的要面对数据量剧增带来的一系列问题:如何高效存储和扩容,如何在对原有业务改动最小的情况下做到智能化和实时分析。

针对挑战,华为云GaussDB (for Cassandra)为客户提供了强扩展、高存储、高效导入/导出和实时分析等一系列能力,并成功服务了众多互联网公司和IOT企业,获得了客户的高度认可和支持。本文将以其中一个客户业务的痛点问题举例,聊聊高效存储和实时分析的3个秘诀。

海量存储,PB级无感扩展

该用户在线下本地化部署使用数据库或者使用其他的存储为云盘的数据库时,常常需要在容量达到阈值时,提前规划和申购存储资源,可能还需要连带扩容不必要的计算资源。而使用GaussDB (for Cassandra)之后,便再无此烦恼。GaussDB (for Cassandra)采用存算分离架构,可单独扩展存储,高效扩容,业务无感,最高可扩展到PB级。

此外,客户为了做大数据分析,将数据库中的数据再写入一份到HDFS中,供MapReduce和Spark分析,同时需要维护两套资源,维护和资源成本成为了痛点。而客户使用GaussDB (for Cassandra)之后,可以仅采用GaussDB (for Cassandra)即可完成数据库存储和对接大数据分析的功能,同时GaussDB (for Cassandra)提供了更为易用的CQL接口,让用户更加专注功能开发,而不是资源管理。

数据变更捕获和实时分析

客户的一个使用场景需要将爬虫或用户输入的数据,进行在线分析和实时推荐业务,该业务中全量数据达到了50亿条,但增量数据不足5亿,分析对象主要是每日新增数据。在这个场景中,GaussDB (for Cassandra)为客户提供了streaming服务+实时分析解决方案,在损失小部分读写性能的前提下,客户端无需改造即可做到数据读写和实时分析并行,解决方案如下图,该解决方案主要有以下几个阶段:

1.客户业务用过开源驱动写入数据到GaussDB (for Cassandra)

2.GaussDB (for Cassandra)对外提供streaming接口,该接口可获取数据变更捕获

3.客户构建的流服务组件读取streaming接口数据写入到指定的Kafka队列

4.Kafka队列将streaming数据写入到Spark或者Flink中

5.客户在Spark中可对增量数据做分析,也可合并之后做全量分析

pYYBAGOIraiAcczoAAKXPqDFmpM013.png

全量数据导出分析

客户的另一个业务需要周期性对全量数据进行分析和处理,但不想影响在线业务,希望在闲时处理。GaussDB (for Cassandra)提供了全量数据导出和分析解决方案,可在业务低峰期触发任务进行数据导出和冷数据分析,数据导出速率是开源的10+倍,同时做到对业务读写基本无影响。如下为互联网客户每周定期导出数据分析用户画像的解决方案,该方案有以下几个阶段:

1.客户根据需求配置ECS规格,并挂载obsfs并行文件系统

2.客户在DLF上配置导出作业,包括ECS信息,导出参数和定时任务

3.CDM下发作业任务

4.ECS上的导出任务将GaussDB (for Cassandra)中的指定表指定条件的数据导出到obsfs

5.Spark从obsfs中读取全量数据进行数据分析

pYYBAGOIrbCABT61AATHjGVJFJs439.png

通过这3个秘诀,华为云GaussDB (for Cassandra)完美解决了难扩展、高成本、变更不及时等问题,实现了海量数据的高效存储和实时分析,为互联网公司和IOT企业的数字化发展提供了更多可能。

审核编辑黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为云
    +关注

    关注

    3

    文章

    2805

    浏览量

    19106
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华纳为游戏数据库选择高性能NVMe SSD存储

    游戏数据库对速度、可靠性和可扩展性有极高要求。随着在线游戏的发展,开发者越来越依赖NVMe SSD存储来提供服务器租用和服务器托管解决方案。本文将指导您了解为游戏数据库选择高性能NVMe SSD
    的头像 发表于 09-30 16:03 850次阅读

    数据库数据恢复—服务器异常断电导致Oracle数据库故障的数据恢复案例

    备份,仅有一些断断续续的归档日志。 Oracle数据库恢复流程: 1、检测数据库故障情况; 2、尝试挂起并修复数据库3、解析数据库
    的头像 发表于 07-24 11:12 458次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—服务器异常断电导致Oracle<b class='flag-5'>数据库</b>故障的<b class='flag-5'>数据</b>恢复案例

    数据库数据恢复—SQL Server数据库被加密如何恢复数据

    SQL Server数据库故障: SQL Server数据库被加密,无法使用。 数据库MDF、LDF、log日志文件名字被篡改。
    的头像 发表于 06-25 13:54 519次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—SQL Server<b class='flag-5'>数据库</b>被加密如何恢复<b class='flag-5'>数据</b>?

    HarmonyOS5服务技术分享--数据库使用指南

    ​​: 敏感数据启用字段级加密(如用户手机号)。 ? ​​总结​​ 华为数据库(CloudDB)让HarmonyOS应用的数据管理变得轻
    发表于 05-22 18:29

    分布式存储数据恢复—虚拟机上hbase和hive数据库数据恢复案例

    分布式存储数据恢复环境: 16台某品牌R730xd服务器节点,每台服务器节点上有数台虚拟机。 虚拟机上部署Hbase和Hive数据库。 分布式存储故障:
    的头像 发表于 04-17 11:05 522次阅读

    服务器数据库购买流程汇总,小白也能轻松上手!

    服务器数据库购买流程通常包括需求评估、供应商选择、配置与定价、注册账号、填写订单信息、支付费用以及后续的设置与配置等步骤。其核心逻辑在于通过精准匹配业务需求(如性能、存储、合规性)与
    的头像 发表于 03-05 10:58 608次阅读

    如何保障服务器数据库的安全与稳定

    在数字化时代,服务器数据库承载着企业和个人的海量关键数据,其安全与稳定至关重要。一旦出现安全漏洞或稳定性问题,可能导致数据丢失、业务中断等
    的头像 发表于 02-12 10:37 617次阅读

    避坑指南:服务器数据库购买方法全攻略

    服务器数据库购买方法包含:先明确业务需求与数据库类型,再挑选信誉好、技术支持强的服务提供商,接着根据需求配置数据库实例及选择付费方式。购
    的头像 发表于 01-15 10:05 805次阅读

    分布式数据库有哪些类型

    分布式数据库有哪些类型?分布式数据库主要类型包括:关系型分布式数据库、非关系型分布式数据库
    的头像 发表于 01-15 09:43 891次阅读

    弹性服务器通过什么存储数据和文件?

    弹性服务器通过多种存储方式存储数据和文件,包括硬盘、对象存储服务、分布式文件系统和
    的头像 发表于 01-13 09:50 725次阅读

    构建数据库解决方案,基于华为 Flexus X 实例容器化 MySQL 主从同步架构

    前言**** 华为 Flexus X 实例,融合柔性算力与智能调度,为数据库解决方案带来全新突破。采用容器化 MySQL 主从同步架构,实现数据
    的头像 发表于 01-07 17:22 973次阅读
    构建<b class='flag-5'>数据库</b>解决方案,基于<b class='flag-5'>华为</b><b class='flag-5'>云</b> Flexus X 实例容器化 MySQL 主从同步架构

    数据库是哪种数据库类型?

    数据库是一种部署在虚拟计算环境中的数据库,它融合了计算的弹性和可扩展性,为用户提供高效、灵活的数据库
    的头像 发表于 01-07 10:22 821次阅读

    一般企业购买服务器带数据库吗?

    购买服务器是否带数据库,这主要取决于所选择的服务提供商及其具体的套餐或服务内容。一般来说,服务器本身是一提供计算能力、
    的头像 发表于 01-06 10:25 735次阅读

    华为荣登Gartner®数据库挑战者象限

    近日,全球知名的信息技术研究与顾问公司Gartner®正式发布了其备受瞩目的2024年度《数据库管理系统魔力象限报告》。在这份权威报告中,华为凭借其卓越的表现成功入选挑战者象限,彰
    的头像 发表于 12-31 13:57 841次阅读

    使用华为 X 实例部署图数据库 Virtuoso 并存储 6500 万条大数据的完整过程与性能测评

    前言   1. 部署Virtuoso图数据库的准备工作   1.1 选择华为X实例的原因   1.2 Virtuoso图数据库简介   1.3 环境准备与系统配置   2. Virt
    的头像 发表于 12-25 17:51 919次阅读
    使用<b class='flag-5'>华为</b><b class='flag-5'>云</b> X 实例部署图<b class='flag-5'>数据库</b> Virtuoso 并<b class='flag-5'>存储</b> 6500 万条大<b class='flag-5'>数据</b>的完整过程与性能测评