0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

腾讯云新一代分布式存储系统发布,支持百亿甚至千亿级文件规模存储

牵手一起梦 来源:中国IDC圈 作者:佚名 2020-09-24 16:53 次阅读

刚刚获悉,由腾讯云大数据团队主导的Ozone 1.0.0版本在Apache Hadoop社区正式发布。据了解,经过2年多的社区持续开发和内部1000+节点的实际落地验证,Ozone 1.0.0已经具备了在大规模生产环境下实际部署的能力。

Ozone 是Apache Hadoop社区推出的新一代分布式存储系统,它的出现满足了大量小文件的存储问题,解决了Hadoop分布式文件系统在可扩展性上的缺陷。作为Hadoop生态圈的一款新的对象存储系统,能够支持百亿甚至千亿级文件规模的存储。

腾讯云大数据团队Ozone项目负责人陈怡表示,作为大数据领域的领导厂商,腾讯是国内一线互联网公司中最早加入社区的,目前已经在Ozone项目上已经主导完成了集群网络拓扑感知的开发,以及数据写入Multi-Raft Pipeline功能的开发。同时,主导的StorageContainerManager(SCM) 高可用HA功能也正在开发中。

腾讯云新一代分布式存储系统发布,支持百亿甚至千亿级文件规模存储

Ozone 架构图

以集群网络拓扑感知来说,在传统的大数据构架下,有了网络拓扑结构,计算引擎的调度器可以将任务调度到离数据最近的节点来获取“数据的局部性”。即便是新兴的计算存储分离构架,同样也需要集群网络拓扑信息,来保证数据的故障容错能力和高可用性。

陈怡进一步介绍说,在Ozone 的Alpha 发布后,腾讯内部的大数据平台上线了Ozone生产集群,承接了一部分业务的数据存储。随着数据服务体量的增加,逐渐发现Ozone写入性能显现出了一定的波动和瓶颈。基于这个发现,腾讯Ozone项目组设计并开发了数据写入Multi-Raft Pipeline功能,显著的提升了Ozone的写入吞吐量和性能。

此外,为了测试Ozone整体的稳定性和性能,作为部署应用的先锋小队,腾讯内部部署了一个1000个数据节点的集群。进行了长达几个月的稳定性和压力测试。期间团队遇到并解决了各种OOM、节点Crash、性能低于预期等问题。经过全面的优化之后,单集群1000个节点现已能长时间稳定运行,并且所有的数据都校验确认正确无误。

除了1000个节点集群的测试,1.0.0版本还进行10亿个元数据对象的测试和优化,进一步解决长期困扰HDFS的大量小文件问题。目前Ozone 1.0.0能够轻松支持10亿个10KB小对象的写入,同时元数据节点内存使用不超过64GB。

为了确保Ozone和Hive、Spark、Impala等计算框架的无缝对接,Ozone 1.0.0进行了和Hive LLAP、Spark以及Impala的集成测试。TPC-DS的测试表明,在100GB和1TB两种数据量大小下,Ozone总体比HDFS有3.5%的优势。

经过不断的测试和优化,升级后的Ozone 1.0.0在版本功能上有了质的跨越。除了支持 Hadoop Compatible FileSystem、Hadoop 2.x以及 Hadoop3.x环境,Ozone 1.0.0还兼容Hadoop生态的Kerberos认证体系,支持数据的用户无感知加密存放和Ranger授权集成、GDPR “Right to Erasure”以及网络构架感知。

未来,腾讯云大数据还将发挥自身技术优势和积累,在Ozone的基础上开发基于SCM的新一代高性能分布式文件系统,并持续推进Ozone在更多腾讯内外部业务的实践落地,部署更大规模的生产集群。同时,进一步拥抱开源,深度参与Hadoop社区,提高Ozone的可靠性、稳定性和性能,将其打造成新一代大数据文件和对象混合存储系统。

值得一提的是,腾讯大数据团队除了在Ozone 项目上的贡献之外,近年来在开源领域的贡献正在逐步加速,目前已完成了大数据核心能力全开源。同时,还结合实际业务场景推动开源技术加速落地,通过技术实践和创新持续回馈社区贡献开源。在Apache基金会的大数据项目上,腾讯已经为主流的Hadoop、Spark、Flink等项目贡献了大量的特性和patch。

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储
    +关注

    关注

    12

    文章

    3854

    浏览量

    84646
  • 互联网
    +关注

    关注

    54

    文章

    10896

    浏览量

    100716
  • 大数据
    +关注

    关注

    64

    文章

    8641

    浏览量

    136578
收藏 人收藏

    评论

    相关推荐

    大数据时代的存储革命:理解分布式存储系统

    数据管理的效率极低。因此,分布式存储系统应运而生。 分布式存储就是将数据存储在众多的服务器或网络节点上,而不是集中在单个位置。这种方式的好处
    的头像 发表于 03-07 15:40 142次阅读

    【Vsan数据恢复】Vsan分布式存储虚拟磁盘文件丢失的数据恢复案例

    一套vsan分布式存储架构有数台服务器节点,该vsan分布式存储架构配置了固态硬盘和机械硬盘,固态硬盘作为缓存盘使用,机械硬盘作为容量盘使用。 机房供电异常导致服务器异常关机,工作人
    的头像 发表于 01-03 16:39 273次阅读

    一图读懂《分布式融合存储研究报告(2023)》

    转自:存储产业技术创新战略联盟 2023年11月30日, 存 储产业技术创新战略联盟、中国电子技术标准化研究院联合发布分布式融合存储研究报告(2023)》,详细阐释
    的头像 发表于 12-21 18:05 304次阅读
    一图读懂《<b class='flag-5'>分布式</b>融合<b class='flag-5'>存储</b>研究报告(2023)》

    分布式系统硬件资源池原理和接入实践

    体验。 2.1 消费者场景 在消费者层面,华为分布式硬件支持智慧办公,智慧出行等多种创新场景。例如智慧办公场景中,使用套 PC 键鼠即可和周边平板等设备跨设备操作,使用到键鼠外设的跨设备操控能力;多
    发表于 12-06 10:02

    百度搜索内容HTAP表格存储系统

    整套存储设计需要解决的核心问题是——如何在OLTP存储系统支持OLAP workflow?OLAP workflow在OLTP存储系统上带来的两个最主要的问题是:严重的IO放大率、存
    的头像 发表于 12-05 16:00 237次阅读
    百度搜索内容HTAP表格<b class='flag-5'>存储系统</b>

    星辰天合发布新一代全闪分布式存储,英特尔® QAT及英特尔® DSA助其提供非凡性能

    )”及全闪统一存储“星飞 XINFINI 9000”。英特尔与星辰天合联合创新,将第四代英特尔 至强 可扩展处理器与星辰天合全新一代星飞全闪分布式存储系统强强整合,为用户提供了非凡的性
    的头像 发表于 11-24 20:00 460次阅读
    星辰天合<b class='flag-5'>发布</b>全<b class='flag-5'>新一代</b>全闪<b class='flag-5'>分布式</b><b class='flag-5'>存储</b>,英特尔® QAT及英特尔® DSA助其提供非凡性能

    分布式数据恢复-hbase+hive分布式存储误删除文件的数据恢复方案

    。 hbase+hive分布式存储故障&初检: 数据库文件被误删除,数据库无法使用。 通过现场对该分布式环境的初步检测,发现虚拟机还可以正常启动,虚拟机里面的数据库块
    的头像 发表于 11-24 15:55 200次阅读

    HarmonyOS分布式文件系统开发指导

    各个设备结点提供个全局致的访问视图,支持开发者通过基础文件系统接口进行读写访问,具有高性能、低延时等优点。 分布式
    发表于 11-14 17:14

    曙光推出ParaStor分布式存储系统解决方案

    。在数据建模分析中,数据存储的压力会随之增长,存储系统往往需具备PB级的扩展能力和极高的读写性能,这对存储系统稳定性、可靠性和访问带宽都提出了严苛要求。 为应对石油勘探面临的挑战,中科曙光推出石油私有云方案。通过
    的头像 发表于 10-21 09:25 614次阅读

    分布式文件系统的设计原理是什么?

    什么是分布式文件系统分布式文件系统(DFS)是一种计算机文件系统,使用户能够从多个分布式位置
    的头像 发表于 10-17 17:35 407次阅读

    高效管理海量数据!忆联 SSD 为分布式存储提供极致性能

    近年来,为满足大规模存储应用需求,分布式存储成为云环境下存储底座构建的重要选择,相较于传统集中式存储
    的头像 发表于 10-13 15:55 326次阅读
    高效管理海量数据!忆联 SSD 为<b class='flag-5'>分布式</b>块<b class='flag-5'>存储</b>提供极致性能

    分布式存储的7个特征

    什么是分布式存储呢?如果一个存储系统,不管是对象、块、文件、kv、log、olap、oltp,只要对所管理的数据做了Partitioning&Replication,不管姿势对不对,其
    发表于 07-18 14:17 628次阅读

    分布式存储架构面临的挑战

    需按照其生命周期策略(例如 8~10 年)进行保存。 2.性能可靠与资源利用率难以兼得。支撑业务的分布式存储系统大致可以分为性能型存储和容量型存储,它们均无法同时实现高性能可靠与高资源
    的头像 发表于 07-05 10:44 937次阅读
    <b class='flag-5'>分布式</b><b class='flag-5'>存储</b>架构面临的挑战

    分布式存储的分类和典型应用场景

    分布式对象存储:指各存储节点由标识符、数据和元数据的对象数据构成。其中标识符在该存储系统中唯一,用于区分不同存储区域;元数据将提取数据特征,
    发表于 06-12 14:38 2956次阅读
    <b class='flag-5'>分布式</b><b class='flag-5'>存储</b>的分类和典型应用场景

    如何使用分布式存储系统促进AI模型训练

    这凸显了分布式存储在人工智能(AI)领域的重要性。JuiceFS 是一个开源、高性能的分布式文件系统,为这个问题提供了解决方案。
    发表于 06-12 09:28 343次阅读
    如何使用<b class='flag-5'>分布式</b><b class='flag-5'>存储系统</b>促进AI模型训练