0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百亿级数据分表后 怎样才能分页查询

数据分析与开发 来源:数据分析与开发 作者:科技缪缪 2020-11-19 15:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

当业务规模达到一定规模之后,像淘宝日订单量在5000万单以上,美团3000万单以上。数据库面对海量的数据压力,分库分表就是必须进行的操作了。而分库分表之后一些常规的查询可能都会产生问题,最常见的就是比如分页查询的问题。一般我们把分表的字段称作shardingkey,比如订单表按照用户ID作为shardingkey,那么如果查询条件中不带用户ID查询怎么做分页?又比如更多的多维度的查询都没有shardingkey又怎么查询?

唯一主键

一般我们数据库的主键都是自增的,那么分表之后主键冲突的问题就是一个无法避免的问题,最简单的办法就是以一个唯一的业务字段作为唯一的主键,比如订单表的订单号肯定是全局唯一的。 常见的分布式生成唯一ID的方式很多,最常见的雪花算法Snowflake、滴滴Tinyid、美团Leaf。以雪花算法举例来说,一毫秒可以生成4194304多个ID。第一位不使用,默认都是0,41位时间戳精确到毫秒,可以容纳69年的时间,10位工作机器ID高5位是数据中心ID,低5位是节点ID,12位序列号每个节点每毫秒累加,累计可以达到2^12 4096个ID。

分表

第一步,分表后要怎么保证订单号的唯一搞定了,现在考虑下分表的问题。首先根据自身的业务量和增量来考虑分表的大小。 举个例子,现在我们日单量是10万单,预估一年后可以达到日100万单,根据业务属性,一般我们就支持查询半年内的订单,超过半年的订单需要做归档处理。 那么以日订单100万半年的数量级来看,不分表的话我们订单量将达到100万X180=1.8亿,以这个数据量级部分表的话肯定单表是扛不住的,就算你能扛RT的时间你也根本无法接受吧。根据经验单表几百万的数量对于数据库是没什么压力的,那么只要分256张表就足够了,1.8亿/256≈70万,如果为了保险起见,也可以分到512张表。那么考虑一下,如果业务量再增长10倍达到1000万单每天,分表1024就是比较合适的选择。 通过分表加上超过半年的数据归档之后,单表70万的数据就足以应对大部分场景了。接下来对订单号hash,然后对256取模的就可以落到具体的哪张表了。

那么,因为唯一主键都是以订单号作为依据,以前你写的那些根据主键ID做查询的就不能用了,这就涉及到了历史一些查询功能的修改。不过这都不是事儿对吧,都改成以订单号来查就行了。这都不是问题,问题在我们的标题说的点上。

C端查询

说了半天,总算到了正题了,那么分表之后查询和分页查询的问题怎么解决? 首先说带shardingkey的查询,比如就通过订单号查询,不管你分页还是怎么样都是能直接定位到具体的表来查询的,显然查询是不会有什么问题的。 如果不是shardingkey的话,上面举例说的以订单号作为shardingkey的话,像APP、小程序这种一般都是通过用户ID查询,那这时候我们通过订单号做的sharding怎么办?很多公司订单表直接用用户ID做shardingkey,那么很简单,直接查就完了。那么订单号怎么办,一个很简单的办法就是在订单号上带上用户ID的属性。举个很简单的例子,原本41位的时间戳你觉得用不完,用户ID是10位的,订单号的生成规则带上用户ID,落具体表的时候根据订单号中10位用户ID hash取模,这样无论根据订单号还是用户ID查询效果都是一样的。 当然,这种方式只是举例,具体的订单号生成的规则,多少位,包含哪些因素根据自己的业务和实现机制来决定。

好,那么无论你是订单号还是用户ID作为shardingkey,按照以上的两种方式都可以解决问题了。那么还有一个问题就是如果既不是订单号又不是用户ID查询怎么办?最直观的例子就是来自商户端或者后台的查询,商户端都是以商户或者说卖家的ID作为查询条件来查的,后台的查询条件可能就更复杂了,像我碰到的有些后台查询条件能有几十个,这怎么查???别急,接下来分开说B端和后台的复杂查询。 现实中真正的流量大头都是来自于用户端C端,所以本质上解决了用户端的问题,这个问题就解了大半,剩下来自商户卖家端B端、后台支持运营业务的查询流量并不会很大,这个问题就好解。

其他端查询

针对B端的非shardingkey的查询有两个办法解决。双写,双写就是下单的数据落两份,C端和B端的各自保存一份,C端用你可以用单号、用户ID做shardingkey都行,B端就用商家卖家的ID作为shardingkey就好了。有些同学会说了,你双写不影响性能吗?因为对于B端来说轻微的延迟是可以接受的,所以可以采取异步的方式去落B端订单。你想想你去淘宝买个东西下单了,卖家稍微延迟个一两秒收到这个订单的消息有什么关系吗?你点个外卖商户晚一两秒收到这个订单有什么太大影响吗?

这是一个解决方案,另外一个方案就是走离线数仓或者ES查询,订单数据落库之后,不管你通过binlog还是MQ消息的都形式,把数据同步到数仓或者ES,他们支持的数量级对于这种查询条件来说就很简单了。同样这种方式肯定是稍微有延迟的,但是这种可控范围的延迟是可以接受的。

而针对管理后台的查询,比如运营、业务、产品需要看数据,他们天然需要复杂的查询条件,同样走ES或者数仓都可以做得到。如果不用这个方案,又要不带shardingkey的分页查询,兄弟,这就只能扫全表查询聚合数据,然后手动做分页了,但是这样查出来的结果是有限制的。 比如你256个片,查询的时候循环扫描所有的分片,每个片取20条数据,最后聚合数据手工分页,那必然是不可能查到全量的数据的。

总结

分库分表后的查询问题,对于有经验的同学来说其实这个问题都知道,但是我相信其实大部分同学做的业务可能都没来到这个数量级,分库分表可能都停留在概念阶段,面试被问到后就手足无措了,因为没有经验不知道怎么办。 分库分表首先是基于现有的业务量和未来的增量做出判断,比如拼多多这种日单量5000万的,半年数据得有百亿级别了,那都得分到4096张表了对吧,但是实际的操作是一样的,对于你们的业务分4096那就没有必要了,根据业务做出合理的选择。 对于基于shardingkey的查询我们可以很简单的解决,对于非shardingkey的查询可以通过落双份数据和数仓、ES的方案来解决,当然,如果分表后数据量很小的话,建好索引,扫全表查询其实也不是什么问题。

责任编辑:xj

原文标题:百亿级数据分表后,该怎么分页查询?

文章出处:【微信公众号:数据分析与开发】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7363

    浏览量

    95158
  • 数据分析
    +关注

    关注

    2

    文章

    1525

    浏览量

    36415

原文标题:百亿级数据分表后,该怎么分页查询?

文章出处:【微信号:DBDevs,微信公众号:数据分析与开发】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    新版架构师系列-ShardingJDBC分库mysql数据库实战

    搞定海量数据存储,MySQL 分库进阶教程 2026年,中国互联网的数据量已经突破1800EB。每一天,仅短视频平台就新增超过500TB数据
    发表于 05-18 17:01

    更改应用程序密钥NTAG424 DNA 问题解答

    我无法在 NTAG作上进行身份验证。错误为 91Ae。 我无法更改任何文件设置。我尝试格式化 NDEF,但没有任何变化。 我怎样才能恢复这种情况?这个错误是什么意思? 在其他一些卡上,当我尝试更改某些内容时报告的错误是 6982。我
    发表于 04-29 06:21

    MySQL数据库慢查询的排查思路和最佳实践

    数据库慢查询是导致应用响应缓慢最常见的原因之一。当业务人员反馈“页面加载慢”、“查询超时”、“系统卡顿”时,很多运维人员的第一反应是让开发人员“加个索引”。但加索引只是优化查询的众多手
    的头像 发表于 04-24 14:40 220次阅读

    MySQL数据库慢查询分析与优化实战

    在讨论MySQL慢查询之前,需要先明确一个关键前提:什么是慢查询? 不同业务场景下,慢查询的定义差异巨大。一个数据报表后台的SQL执行30秒可能属于正常范围,但一个订单创建的
    的头像 发表于 04-02 09:38 292次阅读

    Debian 69未检测到Intenso NVME,怎样才能让它工作?

    嘿。我刚刚设法更新到 2.5.0 并启动了 Debian 版本 69。 但未检测到我的新 NVME SSD它在闪烁,但也许我必须做其他事情然后将其内置? 我怎样才能让它工作? 谢谢
    发表于 03-25 06:38

    TB级数据手工校验要多久?用NineData仅需小时级别

    TB级数据手工校验要多久?用NineData仅需小时级别
    的头像 发表于 03-16 10:48 542次阅读
    TB<b class='flag-5'>级数据</b>手工校验要多久?用NineData仅需小时级别

    电机如何区分级数

    电机级数是电机设计中的重要参数,直接关系到电机的转速、扭矩和功率特性。理解电机级数的区分方法,不仅有助于正确选型,还能为设备匹配和故障诊断提供依据。本文将从原理、识别方法和应用场景三个维度系统解析电机级数的核心知识。
    的头像 发表于 03-12 16:47 654次阅读
    电机如何区分<b class='flag-5'>级数</b>

    储能EMS控制器(7) — 如何快捷验证储能柜内设备接入的正确性?

    储能柜项目,初期要接入集成设备(PCS、BMS、电表等)进行调试,设备调试过程比较繁琐又容易出错,怎样才能便捷地验证储能柜内设备接入的正确性?简介储能柜项目,初期要接入集成设备(PCS、BMS、电表
    的头像 发表于 01-23 11:40 360次阅读
    储能EMS控制器(7) — 如何快捷验证储能柜内设备接入的正确性?

    快问快答:产品气密性检测NG了?1钟精准定位泄漏点的实战方法

    成本,还会严重干扰质量判断。精诚工科真水测试仪,漏点定位一步到位那么,当气密测试出现泄漏不良时,到底怎样才能高效、准确地找到漏点呢?时间就是金钱。产线每停滞一钟,
    的头像 发表于 12-10 17:34 1362次阅读
    快问快答:产品气密性检测NG了?1<b class='flag-5'>分</b>钟精准定位泄漏点的实战方法

    不用编程不用联网,实现倍福(BECKHOFF)PLC对接SQL数据库,上报和查询数据的案例

    ​IGT-DSER智能网关模块,支持各种PLC、智能仪表、远程IO与数据库之间双向通讯,既可以读取设备的数据上报到SQL数据库,也可以从数据查询
    发表于 10-10 11:14

    别踩分页坑!京东商品详情接口实战指南:从并发优化到数据完整性闭环

    京东商品详情接口(jingdong.ware.get)是电商数据开发的核心难点,本文详解其权限申请、分页优化、多规格递归解析与完整性校验等实战方案,结合代码示例与性能调优参数,助你高效稳定对接,提升数据获取效率2.5倍以上,适用
    的头像 发表于 09-30 15:50 1244次阅读

    CYT2B93CAE怎样才能接收特定 ID 的中断?

    你好,我正在使用 CYT2B93CAE 使用设备配置器 5.3,我选择 RX 缓冲区来接受特定的 ID(例如,0x020)。然而,问题是我在总线上的所有帧上都收到了中断,而不仅仅是专用 ID。 当其他所有 ID 均未发生中断时,我怎样才能接收特定 ID 的中断?
    发表于 07-15 07:09

    WICED IDE 6.6.1.1怎样才能连接到自定义硬件?

    设备? 我们怎样才能指示 WICED-IDE 使用我们的 4 通道 UART2USB 转换器提供的 “普通” VCOM COM 端口之一? 有人能给我一些关于如何连接我们的定制硬件并验证基本功能的说明和见解吗。 任何帮助将不胜感激
    发表于 07-09 07:01

    将CYW20706基于硅的蓝牙模块(CYBT-343151-02)连接到定制板上的MCU,怎样才能将链接配置为未确认数据模式?

    我将 CYW20706 基于硅的蓝牙模块(CYBT-343151-02)连接到定制板上的 MCU。 它在确认数据模式下工作,没有问题 但是我怎样才能将链接配置为未确认数据模式
    发表于 06-27 08:23

    怎样才能安全地按住ctrc +c日志阅读器然后才能停止并重新启动日志?

    的读取过程,我将无法在 FX3 中操作任何东西,所有命令都不起作用,所有控件写入/读取都将不起作用 以下是两个函数 我怎样才能安全地按住 ctrc +c 我的日志阅读器然后才能停止并重新启动日志
    发表于 05-27 07:11