0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华为云数据创新Lab时序数据存储与管理正式上线对外商用

华为开发者社区 来源:华为开发者社区 作者:华为开发者社区 2021-09-04 11:28 次阅读

据研究机构Forrester预测,物联网所带来的产业价值要比互联网高30倍,到2020年,中国物联网产业将成长为一个超过五万亿规模的巨大市场。

5GAI区块链等新一代信息技术与物联网加速融合。在智能互联的愿景中,物联网系统的机器、设备和传感器收集的数据,通过人工智能技术进行分析与关联,以更有意义的方式服务用户。然而,随着物联网数据量的增长,“时序数据库”成为企业面临的“必答题”。

高性能时序数据库,是物联网的数据存储底座

时序数据库是一种针对时序数据进行垂直优化的数据库,专门用于存储和管理时序数据。向宇举例到,某个酒店在晚上8:00有200个房间被入住,那个8:00时间点上存储的200的数字就是时序数据。

在物联网和运维监控场景下,如服务器CPU和内存使用量、电动汽车的工况数据、或是应用服务的业务指标等等,各种被采集的数据指标项多达千万甚至上亿,甚至一次采集的指标数据就可能超过数10GB,这些数据都必须要在规定时间内全部写入数据库。并且,指标数据通常间隔几秒就会被采集一次,如此海量的时序数据必然要求数据库要具备大并发写入能力和很高的数据压缩效率。

此外,时序业务通常还需要将数据从数据库中检索出来,以近乎实时的可视化方式展现,方便分析和决策,这对数据库的查询性能也有着严格的要求。在这种场景下,传统的关系型数据库最大的问题在于数据缺少压缩,查询效率低下,时序数据库一开始就被设计为高吞吐、低时延、高数据压缩率,以满足物联网和运维监控场景下对性能和储存成本的诉求。也正是因为时序数据库的这些特点,在制造业、银行金融、社交媒体、能源、智慧家居等行业领域都有大量的应用场景。

凝结10多年软硬件技术经验,未来挑战重重

根据IDC的一份白皮书预测,到2025年全球数据总量将达到175ZB,这其中30%为时序数据。时序数据库是在最近10年才真正发展起来,这期间出现了许许多多的时序数据库,光DBEngines网站收录的全球时序数据库就多达有30多种。

向宇谈到,相比关系型数据库,时序数据库略微简单一些,没有复杂的事务支持,也没有针对单条数据的更新和删除操作。但要做好一个时序数据库并非易事,就像造车一样,要造好一辆车,单纯购买零件组装测试是远远不够的,还需要考虑质量、性能、舒适性、功能性、安全性等等,一辆车凝结着人类智慧与文化的结晶。

打造一款时序数据库,需要凝结数十年数据库领域发展的硬件和软件技术和经验,如存储、安全、分布式系统、编译、算法、数据结构、架构设计等等,更要做到系统安全、可靠、稳定、高效和多场景通用。“未来会有越来越多的企业希望利用时序数据库挖掘出更多有价值的信息,时序数据库在海量时间线管理、数据压缩、读写性能等方面正面临着巨大的技术挑战。”向宇讲到。

云原生存算分离架构,华为云数据创新Lab实践

时序数据库,作为整个物联网的数据存储底座,同时也是云厂商基础设施的重要部分。作为全球云服务提供商,华为云的迅速发展,其背后是大量基础设施的扩张,如何能把所有的基础设施和云服务完全监控起来,是摆在运维团队面前不得不去解决的技术问题。现有的开源时序数据库已经不能满足华为云监控数据日益增长的诉求,监控指标数量从数百万迅速增加到数十亿,每秒数据写入量从数亿条迅速增长到数十亿条,迫切需要一款自研的时序数据库可以支撑运维团队的监控系统。

在2018年开始,向宇所在的华为云数据创新Lab开始着眼于未来物联网和运维监控场景下的时序数据存储与管理,自研时序数据库GaussDB(for Influx)。在经过内部场景的验证后,GaussDB(for Influx)于2020年正式上线对外商用。

GaussDB(for Influx)采用云原生存储与计算分离架构,支持分钟级弹性节点扩缩容,做到不迁移数据的同时还把事情给做了;支持亿级时间线,每天万亿条数据写入不是问题;支持数据无损压缩,采用自适应数据压缩算法,将数据压缩比提高到1:20;运用MPP架构、向量化、预聚合等相关技术,相比开源的OpenTSDB、InfluxDB等时序数据库,对于像单时间线条件查询和多维聚合查询这类在时序数据库中较为常见的查询,性能上有很大幅度的提升。

向宇介绍到,华为云的一个业务从Cassandra切换到GaussDB(for Influx)后,计算节点从总共39个(热集群18个,冷集群9个,大数据分析集群 12个)降低到了9个节点,缩减4倍计算节点。存储空间消耗从每天1TB降低到100GB以内,缩减10倍存储空间消耗。

目前华为云时序数据库GaussDB(for Influx)已经服务15+内部和外部客户,已成为华为云基础设施重要组成部分。

研发之路没有现成的参考答案,迎难而上正面“刚”

回想时序数据库GaussDB(for Influx)研发过程的时候,向宇说道,一个系统从诞生到成熟,往往伴随着长期的Bug修复和结合场景的持续优化。因为任何人都无法提前把所有的应用场景都想到并且测试覆盖到,GaussDB(for Influx) 也不例外。

当初研发GaussDB(for Influx)时,向宇团队遇到的第一个问题就是“进程OOM(内存耗尽触发操作系统保护机制)退出”。大家都知道,出现OOM只可能有两个原因,一是内存泄漏,二是内存真实使用过多。

众所周知,数据库里面的数据是存放到磁盘文件,高效率的数据检索往往需要在内存中建立文件索引,方便快速定位数据在文件中的位置。在时序数据库中,当数据在数据库中保留的时间越长,数据文件就会越大,文件数量也就越多。程序重启过程中,需要将每个数据文件的元数据读取到内存组织为索引,这里的元数据主要包括当前文件存放有多少时间线,每个时间线的数据在文件中的偏移量等等。在运维监控的场景下,时间线的数量是呈指数增长,当时序数据库的时间线超过亿级,虚拟机规格不变的情况下,问题出现了,元数据无法全部存放内存再转化为索引,于是程序出现OOM无法重启。

向宇进一步阐述道,时序数据库难就难在这里,因为绝大部分用户或者场景不会达到出现问题的时间线和数据量,面对计算资源有限,而数据量太大的情况,行业中并无行之有效的现成方法,解决这样的问题,往往需要结合技术和经验。举个例子,程序重启过程中加载元数据,为避免在内存积压太多数据,可以选择限流的方式,那么每次处理的数据量阈值应当如何设置就依赖长期的系统开发经验,太大可能问题还会存在,太小又耗时过长。

“有问题不可怕,可怕的是没有问题。当问题发生时,我们的选择是正面‘硬刚’,出现一个消灭一个!”向宇谈到。不难看出,也正是他们的这种不畏艰难,用“匠人”精神开发出华为云基础设施重要组成部分,并且已经服务15+内部和外部客户的华为云时序数据库GaussDB(for Influx)。

原文标题:爆文速递| 华为云专家向宇:工欲善其事必先利其器,才能做数据的“管家”

文章出处:【微信公众号:华为开发者社区】欢迎添加关注!文章转载请注明出处。
责任编辑:pj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    215

    文章

    33644

    浏览量

    247196
  • 物联网
    +关注

    关注

    2870

    文章

    41671

    浏览量

    358593
  • 数据库
    +关注

    关注

    7

    文章

    3592

    浏览量

    63386
  • 智慧家居
    +关注

    关注

    1

    文章

    75

    浏览量

    16215

原文标题:爆文速递| 华为云专家向宇:工欲善其事必先利其器,才能做数据的“管家”

文章出处:【微信号:Huawei_Developer,微信公众号:华为开发者社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    时序数据库是什么?时序数据库的特点

    时序数据库是一种在处理时间序列数据方面具有高效和专门化能力的数据库。它主要用于存储和处理时间序列数据,比如传感器
    的头像 发表于 04-26 16:02 108次阅读

    华为推出全新数据湖解决方案及全闪存新品

    近日,华为数据存储新春新品发布会上,向全球展示了其全新的数据湖解决方案,以及专为商业市场与分销市场设计的全闪存存储新品。这些
    的头像 发表于 02-21 10:35 301次阅读

    从WasmEdge运行环境读写Rust Wasm应用的时序数据

    WebAssembly (Wasm) 正在成为一个广受欢迎的编译目标,帮助开发者构建可迁移平台的应用。最近 Greptime 和 WasmEdge 协作,支持了在 WasmEdge 平台上的 Wasm 应用通过 MySQL 协议读写 GreptimeDB 中的时序数据
    的头像 发表于 12-22 11:03 484次阅读

    AI 时代数据存储管理新挑战分论坛圆满举办

    12 月 16 日,AI 时代数据存储管理新挑战分论坛在无锡成功召开,会上来自蚂蚁集团、SphereEx、平凯星辰、九章云极 DataCanvas、StreamNative、腾讯云和华为
    的头像 发表于 12-22 10:51 214次阅读
    AI 时代<b class='flag-5'>数据</b><b class='flag-5'>存储</b><b class='flag-5'>管理</b>新挑战分论坛圆满举办

    AI时代数据存储管理新挑战分论坛圆满举办

    12月16日,AI时代数据存储管理新挑战分论坛在无锡成功召开,会上来自蚂蚁集团、SphereEx、平凯星辰、九章云极DataCanvas、StreamNative、腾讯云和华为的技术专
    的头像 发表于 12-20 09:40 180次阅读

    Tsmoothie:使用多种平滑技术平滑化时序数据

    除,平滑后的效果如下: 这样的时序数据是不是看起来舒服多了?此外,使用平滑后的时序数据去做聚类或预测或许有令人惊艳的效果,因为它去除了一些偏差值并细化了数据的分布范围。 如果我们自己开发一个这样的平滑工具,会耗费不
    的头像 发表于 10-30 09:28 630次阅读
    Tsmoothie:使用多种平滑技术平滑化<b class='flag-5'>时序数据</b>

    TDengine+OpenVINO+AIxBoard助力时序数据分类

    时间序列数据分析在工业,能源,医疗,交通,金融,零售等多个领域都有广泛应用。其中时间序列数据分类是分析时序数据的常见任务之一。本文将通过一个具体的案例,介绍 Intel 团队
    的头像 发表于 10-27 11:08 350次阅读
    TDengine+OpenVINO+AIxBoard助力<b class='flag-5'>时序数据</b>分类

    可观测平台如何存储时序曲线?滴滴实践全历程分享

    时序数据库的一哥 InfluxDB,是我们最初选择的时序数据库。但随着时序曲线的规模变大,InfluxDB 的局限性也开始暴露了出来。同时社区中关于 InfluxDB OOM 的讨论也日益增多
    的头像 发表于 10-13 16:04 295次阅读
    可观测平台如何<b class='flag-5'>存储</b><b class='flag-5'>时序</b>曲线?滴滴实践全历程分享

    HarmonyOS/OpenHarmony原生应用开发-华为Serverless云端服务支持说明(一)

    华为Serverless服务框架 提供了多种云端服务: 认证服务:助力应用快速构建安全可靠的用户认证系统。 函数:提供Serverless化的代码开发与运行平台。 数据库:提供
    发表于 10-08 10:22

    于辰涛:工业边缘数据管理与分析技术发展

    “边缘数据管理是基于分布式架构的数据管理与高性能存储方案,适应工业边缘高并发、写多读少的时序数据特点,协同计算、分析、
    的头像 发表于 09-26 16:09 344次阅读
    于辰涛:工业边缘<b class='flag-5'>数据管理</b>与分析技术发展

    【福利活动】深度体验OpenHarmony对接华为IoT

    帐号。未注册可单击注册页面完成注册。 · 已完成实名制认证。未完成可在华为上单击实名认证完成认证,否则无法使用设备接入功能。 · 已开通设备接入服务。未开通则访问​​设备接入服务​​,单击“管理
    发表于 07-28 10:55

    涂鸦推出NekoDB时序数据库,助力全球客户实现低成本部署

    随着IoT技术逐渐成熟,众多设备产出的数据呈现指数级增长。企业亟需用行之有效的方式管理海量时序数据。由此,各类时序数据库开始成为市场宠儿。与市场需求相悖的是,
    的头像 发表于 07-24 10:08 1459次阅读
    涂鸦推出NekoDB<b class='flag-5'>时序数据</b>库,助力全球客户实现低成本部署

    存储数据恢复】华为OceanStor存储raid5数据恢复案例

    华为OceanStor某型号存储,十几块FC硬盘组建一组RAID5磁盘阵列,配备了一块热备盘;上层使用EXT3文件系统,配置了oracle数据库。
    的头像 发表于 06-13 15:32 478次阅读
    【<b class='flag-5'>存储</b><b class='flag-5'>数据</b>恢复】<b class='flag-5'>华为</b>OceanStor<b class='flag-5'>存储</b>raid5<b class='flag-5'>数据</b>恢复案例

    华为发布2023奥林帕斯悬红,产学研携手推进数据存储创新

    5月24日,在2023创新数据基础设施论坛(IDI Forum 2023)上,华为发布2023年奥林帕斯难题悬红并公布2022年得主,旨在激励全球数据
    的头像 发表于 05-25 12:10 538次阅读

    如何利用ZWS云平台的自定义统计算法对数据进行统计?

    设备数据上云,解析后的设备数据一般是时序存储,但纯粹的设备时序数据无法给用户带来更大的业务价值,需要根据业务需求进行额外的
    的头像 发表于 05-23 15:09 540次阅读
    如何利用ZWS云平台的自定义统计算法对<b class='flag-5'>数据</b>进行统计?