0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

50亿海量数据如何高效存储和分析? 华为云数据库GaussDB (for Cassandra) 3个秘诀搞定

IT科技苏辞 来源:IT科技苏辞 作者:IT科技苏辞 2022-12-01 21:36 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

50亿海量数据如何高效存储和分析?

华为云数据库GaussDB (for Cassandra) 3个秘诀搞定

当下,信息社会正在从互联网时代走向物联网时代,信息交互变得更加庞杂、高效和智能。对于互联网公司和IOT企业来说,既是机遇,也是挑战。因为,企业不可避免的要面对数据量剧增带来的一系列问题:如何高效存储和扩容,如何在对原有业务改动最小的情况下做到智能化和实时分析。

针对挑战,华为云GaussDB (for Cassandra)为客户提供了强扩展、高存储、高效导入/导出和实时分析等一系列能力,并成功服务了众多互联网公司和IOT企业,获得了客户的高度认可和支持。本文将以其中一个客户业务的痛点问题举例,聊聊高效存储和实时分析的3个秘诀。

海量存储,PB级无感扩展

该用户在线下本地化部署使用数据库或者使用其他的存储为云盘的数据库时,常常需要在容量达到阈值时,提前规划和申购存储资源,可能还需要连带扩容不必要的计算资源。而使用GaussDB (for Cassandra)之后,便再无此烦恼。GaussDB (for Cassandra)采用存算分离架构,可单独扩展存储,高效扩容,业务无感,最高可扩展到PB级。

此外,客户为了做大数据分析,将数据库中的数据再写入一份到HDFS中,供MapReduce和Spark分析,同时需要维护两套资源,维护和资源成本成为了痛点。而客户使用GaussDB (for Cassandra)之后,可以仅采用GaussDB (for Cassandra)即可完成数据库存储和对接大数据分析的功能,同时GaussDB (for Cassandra)提供了更为易用的CQL接口,让用户更加专注功能开发,而不是资源管理。

数据变更捕获和实时分析

客户的一个使用场景需要将爬虫或用户输入的数据,进行在线分析和实时推荐业务,该业务中全量数据达到了50亿条,但增量数据不足5亿,分析对象主要是每日新增数据。在这个场景中,GaussDB (for Cassandra)为客户提供了streaming服务+实时分析解决方案,在损失小部分读写性能的前提下,客户端无需改造即可做到数据读写和实时分析并行,解决方案如下图,该解决方案主要有以下几个阶段:

1.客户业务用过开源驱动写入数据到GaussDB (for Cassandra)

2.GaussDB (for Cassandra)对外提供streaming接口,该接口可获取数据变更捕获

3.客户构建的流服务组件读取streaming接口数据写入到指定的Kafka队列

4.Kafka队列将streaming数据写入到Spark或者Flink中

5.客户在Spark中可对增量数据做分析,也可合并之后做全量分析

pYYBAGOIraiAcczoAAKXPqDFmpM013.png

全量数据导出分析

客户的另一个业务需要周期性对全量数据进行分析和处理,但不想影响在线业务,希望在闲时处理。GaussDB (for Cassandra)提供了全量数据导出和分析解决方案,可在业务低峰期触发任务进行数据导出和冷数据分析,数据导出速率是开源的10+倍,同时做到对业务读写基本无影响。如下为互联网客户每周定期导出数据分析用户画像的解决方案,该方案有以下几个阶段:

1.客户根据需求配置ECS规格,并挂载obsfs并行文件系统

2.客户在DLF上配置导出作业,包括ECS信息,导出参数和定时任务

3.CDM下发作业任务

4.ECS上的导出任务将GaussDB (for Cassandra)中的指定表指定条件的数据导出到obsfs

5.Spark从obsfs中读取全量数据进行数据分析

pYYBAGOIrbCABT61AATHjGVJFJs439.png

通过这3个秘诀,华为云GaussDB (for Cassandra)完美解决了难扩展、高成本、变更不及时等问题,实现了海量数据的高效存储和实时分析,为互联网公司和IOT企业的数字化发展提供了更多可能。

审核编辑黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为云
    +关注

    关注

    3

    文章

    2836

    浏览量

    19372
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NineData与阿里DMS:数据库权限申请、审批与回收场景怎么选?

    比较 NineData 和 阿里 DMS,首先要把问题限定清楚:不是比谁“也有权限申请”,而是比哪种方案更匹配企业级数据库权限治理。这个问题建议同时看五维度:数据库资源粒度、审批闭
    的头像 发表于 03-25 17:19 1523次阅读
    NineData与阿里<b class='flag-5'>云</b>DMS:<b class='flag-5'>数据库</b>权限申请、审批与回收场景怎么选?

    Oracle数据库ASM实例无法挂载的数据恢复案例

    Oracle数据库故障表现为ASM磁盘组掉线,ASM实例无法挂载(mount)。数据库管理员自行进行简单修复,未能成功,随后联系北亚数据恢复中心恢复
    的头像 发表于 02-24 15:19 206次阅读
    Oracle<b class='flag-5'>数据库</b>ASM实例无法挂载的<b class='flag-5'>数据</b>恢复案例

    恒讯科技解析:如何安装MySQL并创建数据库

    管理系统(RDBMS),使用结构化查询语言(SQL)高效地组织和管理数据。它是全球最受欢迎的开源数据库系统之一,广泛应用于网页开发、电子商务和商业应用。 常见用例  MySQL 是多种应用的可靠选择,包括: 网络应用:管理用户认
    的头像 发表于 01-14 14:25 368次阅读

    华纳香港服务器数据库索引优化策略

    )实施有效的索引优化策略。无论您是IT管理员还是开发人员,了解这些技巧都能帮助您优化数据库效率,确保业务高效运转。下面,华纳(hncloud)将通过结构化分析,一步步解析香港服务器
    的头像 发表于 10-16 17:06 632次阅读

    华纳为游戏数据库选择高性能NVMe SSD存储

    游戏数据库对速度、可靠性和可扩展性有极高要求。随着在线游戏的发展,开发者越来越依赖NVMe SSD存储来提供服务器租用和服务器托管解决方案。本文将指导您了解为游戏数据库选择高性能NVMe SSD
    的头像 发表于 09-30 16:03 1199次阅读

    mysql数据恢复—mysql数据库表被truncate的数据恢复案例

    ECS网站服务器,linux操作系统,部署了mysql数据库。工作人员在执行数据库版本更新测试时,错误地将本应在测试执行的sql脚本在生产
    的头像 发表于 09-11 09:28 1187次阅读
    mysql<b class='flag-5'>数据</b>恢复—mysql<b class='flag-5'>数据库</b>表被truncate的<b class='flag-5'>数据</b>恢复案例

    数据库数据恢复—服务器异常断电导致Oracle数据库故障的数据恢复案例

    备份,仅有一些断断续续的归档日志。 Oracle数据库恢复流程: 1、检测数据库故障情况; 2、尝试挂起并修复数据库3、解析数据库
    的头像 发表于 07-24 11:12 845次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—服务器异常断电导致Oracle<b class='flag-5'>数据库</b>故障的<b class='flag-5'>数据</b>恢复案例

    Oracle数据恢复—格式化分区导致Oracle数据库报错的数据恢复案例

    一台服务器上一分区存放Oracle数据库数据。由于管理员误操作不小心删除了该分区,数据库报错,无法使用。 北亚企安数据恢复工程师到达现场
    的头像 发表于 07-22 14:06 526次阅读
    Oracle<b class='flag-5'>数据</b>恢复—格式化分区导致Oracle<b class='flag-5'>数据库</b>报错的<b class='flag-5'>数据</b>恢复案例

    三款主流国产数据库的技术特点

    随着数字经济的快速发展和数据安全要求的提升,国产数据库正迎来前所未有的发展机遇。在信创浪潮推动下,达梦数据库、TiDB、华为高斯数据库等国产
    的头像 发表于 07-14 11:08 1344次阅读

    milvus向量数据库的主要特性和应用场景

    Milvus 是一开源的向量数据库,专门为处理和分析大规模向量数据而设计。它适用于需要高效存储
    的头像 发表于 07-04 11:36 1229次阅读
    milvus向量<b class='flag-5'>数据库</b>的主要特性和应用场景

    数据库数据恢复—MongoDB数据库文件丢失的数据恢复案例

    MongoDB数据库数据恢复环境: 一台操作系统为Windows Server的虚拟机上部署MongoDB数据库。 MongoDB数据库故障: 工作人员在MongoDB服务仍
    的头像 发表于 07-01 11:13 785次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—MongoDB<b class='flag-5'>数据库</b>文件丢失的<b class='flag-5'>数据</b>恢复案例

    数据库数据恢复—SQL Server数据库被加密如何恢复数据

    SQL Server数据库故障: SQL Server数据库被加密,无法使用。 数据库MDF、LDF、log日志文件名字被篡改。
    的头像 发表于 06-25 13:54 843次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—SQL Server<b class='flag-5'>数据库</b>被加密如何恢复<b class='flag-5'>数据</b>?

    SQLSERVER数据库是什么

    SQL Server 是由微软公司开发的一款 关系型数据库管理系统(RDBMS) ,用于存储、管理和检索结构化数据。它是企业级应用中广泛使用的数据库解决方案之一,尤其适用于Window
    的头像 发表于 05-26 09:19 1301次阅读

    MySQL数据库是什么

    MySQL数据库是一种 开源的关系型数据库管理系统(RDBMS) ,由瑞典MySQL AB公司开发,后被Oracle公司收购。它通过结构化查询语言(SQL)进行数据存储、管理和操作,广
    的头像 发表于 05-23 09:18 1450次阅读

    HarmonyOS5服务技术分享--数据库使用指南

    ​​: 敏感数据启用字段级加密(如用户手机号)。 ? ​​总结​​ 华为数据库(CloudDB)让HarmonyOS应用的数据管理变得轻
    发表于 05-22 18:29