0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

腾讯云新一代分布式存储系统发布,支持百亿甚至千亿级文件规模存储

牵手一起梦 来源:中国IDC圈 作者:佚名 2020-09-24 16:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

刚刚获悉,由腾讯云大数据团队主导的Ozone 1.0.0版本在Apache Hadoop社区正式发布。据了解,经过2年多的社区持续开发和内部1000+节点的实际落地验证,Ozone 1.0.0已经具备了在大规模生产环境下实际部署的能力。

Ozone 是Apache Hadoop社区推出的新一代分布式存储系统,它的出现满足了大量小文件的存储问题,解决了Hadoop分布式文件系统在可扩展性上的缺陷。作为Hadoop生态圈的一款新的对象存储系统,能够支持百亿甚至千亿级文件规模的存储。

腾讯云大数据团队Ozone项目负责人陈怡表示,作为大数据领域的领导厂商,腾讯是国内一线互联网公司中最早加入社区的,目前已经在Ozone项目上已经主导完成了集群网络拓扑感知的开发,以及数据写入Multi-Raft Pipeline功能的开发。同时,主导的StorageContainerManager(SCM) 高可用HA功能也正在开发中。

腾讯云新一代分布式存储系统发布,支持百亿甚至千亿级文件规模存储

Ozone 架构图

以集群网络拓扑感知来说,在传统的大数据构架下,有了网络拓扑结构,计算引擎的调度器可以将任务调度到离数据最近的节点来获取“数据的局部性”。即便是新兴的计算存储分离构架,同样也需要集群网络拓扑信息,来保证数据的故障容错能力和高可用性。

陈怡进一步介绍说,在Ozone 的Alpha 发布后,腾讯内部的大数据平台上线了Ozone生产集群,承接了一部分业务的数据存储。随着数据服务体量的增加,逐渐发现Ozone写入性能显现出了一定的波动和瓶颈。基于这个发现,腾讯Ozone项目组设计并开发了数据写入Multi-Raft Pipeline功能,显著的提升了Ozone的写入吞吐量和性能。

此外,为了测试Ozone整体的稳定性和性能,作为部署应用的先锋小队,腾讯内部部署了一个1000个数据节点的集群。进行了长达几个月的稳定性和压力测试。期间团队遇到并解决了各种OOM、节点Crash、性能低于预期等问题。经过全面的优化之后,单集群1000个节点现已能长时间稳定运行,并且所有的数据都校验确认正确无误。

除了1000个节点集群的测试,1.0.0版本还进行10亿个元数据对象的测试和优化,进一步解决长期困扰HDFS的大量小文件问题。目前Ozone 1.0.0能够轻松支持10亿个10KB小对象的写入,同时元数据节点内存使用不超过64GB。

为了确保Ozone和Hive、Spark、Impala等计算框架的无缝对接,Ozone 1.0.0进行了和Hive LLAP、Spark以及Impala的集成测试。TPC-DS的测试表明,在100GB和1TB两种数据量大小下,Ozone总体比HDFS有3.5%的优势。

经过不断的测试和优化,升级后的Ozone 1.0.0在版本功能上有了质的跨越。除了支持 Hadoop Compatible FileSystem、Hadoop 2.x以及 Hadoop3.x环境,Ozone 1.0.0还兼容Hadoop生态的Kerberos认证体系,支持数据的用户无感知加密存放和Ranger授权集成、GDPR “Right to Erasure”以及网络构架感知。

未来,腾讯云大数据还将发挥自身技术优势和积累,在Ozone的基础上开发基于SCM的新一代高性能分布式文件系统,并持续推进Ozone在更多腾讯内外部业务的实践落地,部署更大规模的生产集群。同时,进一步拥抱开源,深度参与Hadoop社区,提高Ozone的可靠性、稳定性和性能,将其打造成新一代大数据文件和对象混合存储系统。

值得一提的是,腾讯大数据团队除了在Ozone 项目上的贡献之外,近年来在开源领域的贡献正在逐步加速,目前已完成了大数据核心能力全开源。同时,还结合实际业务场景推动开源技术加速落地,通过技术实践和创新持续回馈社区贡献开源。在Apache基金会的大数据项目上,腾讯已经为主流的Hadoop、Spark、Flink等项目贡献了大量的特性和patch。

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储
    +关注

    关注

    13

    文章

    4935

    浏览量

    90397
  • 互联网
    +关注

    关注

    55

    文章

    11357

    浏览量

    110732
  • 大数据
    +关注

    关注

    64

    文章

    9114

    浏览量

    144176
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    IBM CAS存储方案实现单机承载千亿向量数据库

    最近,IBM 研究院与英伟达(NVIDIA)、三星共同展示了项内容感知存储系统(content awareness storage)。该系统在单台服务器上成功支持
    的头像 发表于 05-21 14:11 1185次阅读
    IBM CAS<b class='flag-5'>存储</b>方案实现单机承载<b class='flag-5'>千亿</b><b class='flag-5'>级</b>向量数据库

    AI Ceph 分布式存储教程资料大模型学习资料2026

    了成本与性能的最佳平衡,为大规模在线推理服务提供了坚实的支撑。 结语 解锁大模型基建能力,核心在于构建与之匹配的分布式存储系统。这不仅仅是硬盘的堆叠,而是场涉及架构设计、数据算法、网
    发表于 05-01 17:35

    佰维发布TAU208新一代车规UFS 3.1存储解决方案

    为顺应AI大模型技术全面上车趋势,应对8K座舱娱乐、实时高精地图渲染、多模态AI交互及L3+自动驾驶感知数据并发冲击等汽车应用对存储性能、可靠性的更高要求,佰维存储在2026北京国际汽车展览会首日重磅发布
    的头像 发表于 04-28 14:36 1694次阅读

    NetApp与Google Cloud深化合作:重构分布式数据基础设施的“安全主权”新范式

    NetApp与Google Cloud签署四年期企业协议,通过NetApp存储解决方案与Google Distributed Cloud(GDC)的深度集成,为全球企业构建“全栈物理隔离+内建安全”的分布式
    的头像 发表于 04-27 11:04 1368次阅读

    2022全新版!Java分布式架构设计与开发实战(完结)

    2022全新版!Java分布式架构设计与开发实战(完结) 分库分表实战:Java海量数据存储架构设计 在现代互联网应用中,随着业务规模的指数增长,数据库性能瓶颈已成为制约
    发表于 03-30 15:20

    分布式存储系统功率链路优化:基于冗余电源、散热管理与背板供电的MOSFET精准选型方案

    前言:构筑数据存力的“能量基石”——论功率器件选型的系统思维 在数据存力成为核心竞争力的今天,套卓越的分布式存储系统,不仅是控制器、协议与闪存的集成,更是
    的头像 发表于 03-25 09:40 386次阅读
    <b class='flag-5'>分布式</b>块<b class='flag-5'>存储系统</b>功率链路优化:基于冗余电源、散热管理与背板供电的MOSFET精准选型方案

    分布式数据恢复—Ceph+TiDB数据恢复报告

    故障情况:客户设备为Ceph分布式存储系统,采用RBD(RADOS Block Device)作为块存储服务。Ceph集群由多个OSD(Object Storage Daemon)节点组成,数据通
    的头像 发表于 02-03 17:22 323次阅读
    <b class='flag-5'>分布式</b>数据恢复—Ceph+TiDB数据恢复报告

    国内分布式AI存储方案商港股IPO!

    解决方案,即AI数据湖存储与AI训推存储解决方案,实现AI存储在企业客户业务运营中的无缝部署及实施,解决企业在AI转型过程中的关键存储需求。   根据灼识咨询的资料,按2024年装机量
    的头像 发表于 01-29 13:44 9015次阅读
    国内<b class='flag-5'>分布式</b>AI<b class='flag-5'>存储</b>方案商港股IPO!

    阳台微储及户用混合储能等分布式能源存储系统的架构演进

    阳台微储及户用混合储能等分布式能源存储系统的架构演进与碳化硅功率器件的技术变革 倾佳电子(Changer Tech)是家专注于功率半导体和新能源汽车连接器的分销商。主要服务于中国工业电源、电力
    的头像 发表于 01-09 09:12 385次阅读
    阳台微储及户用混合储能等<b class='flag-5'>分布式</b>能源<b class='flag-5'>存储系统</b>的架构演进

    腾讯发布新一代智能驾驶地图9.0

    9月16-17日,2025腾讯全球数字生态大会在深圳举行。会议期间,腾讯正式发布新一代智能驾驶地图9.0。
    的头像 发表于 09-18 10:23 1825次阅读

    曙光存储支持西湖大学高性能计算中心部署完成全新存储系统

    近日,曙光存储支持西湖大学高性能计算中心部署完成全新存储系统,为AI研发、科学计算和信息化平台等提供存力支持。性能实测显示,该系统单节点带宽
    的头像 发表于 08-25 11:48 1562次阅读

    科技银河存储:重构AI时代的存储新范式

    在人工智能与高性能计算需求呈指数增长的今天,数据存储的效率与可靠性已成为算力释放的关键支撑。上海霄信息科技有限公司正式推出全新一代AI存储
    的头像 发表于 08-21 10:36 1152次阅读
    霄<b class='flag-5'>云</b>科技银河<b class='flag-5'>存储</b>:重构AI时代的<b class='flag-5'>存储</b>新范式

    键部署无损网络:EasyRoCE助力分布式存储效能革命

    分布式存储的性能瓶颈往往在于网络。如何构建个高带宽、超低时延、零丢包的无损网络,是释放分布式存储全部潜力、赋能企业关键业务(如实时数据库、
    的头像 发表于 08-04 11:34 1920次阅读
    <b class='flag-5'>一</b>键部署无损网络:EasyRoCE助力<b class='flag-5'>分布式</b><b class='flag-5'>存储</b>效能革命

    Ceph分布式存储系统解析

    在当今数据爆炸的时代,企业对存储系统的需求日益增长,传统的集中式存储已经无法满足大规模数据处理的要求。分布式存储系统应运而生,而Ceph作为
    的头像 发表于 07-14 11:15 1342次阅读

    华为分布式存储荣膺2025年Gartner“客户之选”

    近日,全球权威咨询与分析机构Gartner发布《2025年Gartner Peer Insights文件与对象存储平台“客户之声”》报告,华为OceanStor分布式
    的头像 发表于 06-07 09:13 1688次阅读