0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通过SQL计算同时在线问题

数据分析与开发 来源:CSDN博客 作者:石榴公子YYDS 2021-09-30 14:22 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文是通过 SQL 计算同时在线问题,即求最高在线人数以及最高峰时间段。

0 需求分析

数据为主播ID,stt表示开播时间,edt表示下播时间。

idsttedt

10012021-06-14 12122021-06-14 1812

10032021-06-14 13122021-06-14 1612

10042021-06-14 13122021-06-14 2012

10022021-06-14 15122021-06-14 1612

10052021-06-14 15122021-06-14 2012

10012021-06-14 20122021-06-14 2312

10062021-06-14 21122021-06-14 2312

10072021-06-14 22122021-06-14 2312

求:

(1)该平台某一天主播同时在线人数最高为多少?

(2)出现最高峰的时间段是哪个时间?

1 数据准备

(1)数据

vim play.txt

idstt edt

10012021-06-14 1212 2021-06-14 1812

10032021-06-14 13122021-06-14 1612

10042021-06-14 13122021-06-14 2012

10022021-06-14 15122021-06-14 1612

10052021-06-14 15122021-06-14 2012

10012021-06-14 20122021-06-14 2312

10062021-06-14 21122021-06-14 2312

10072021-06-14 22122021-06-14 2312

(2) 建表

create table if not exists play(

id string,

stt string,

edt string

row format delimitedfields terminated by ‘ ’

;

(3 )加载数据

load data local inpath “/home/centos/dan_test/play.txt” into table play;

(4) 查询数据

hive》 select * from play;

OK

1001 2021-06-14 12:12:12 2021-06-14 18:12:121003 2021-06-14 13:12:12 2021-06-14 16:12:121004 2021-06-14 13:15:12 2021-06-14 20:12:121002 2021-06-14 15:12:12 2021-06-14 16:12:121005 2021-06-14 15:18:12 2021-06-14 20:12:121001 2021-06-14 20:12:12 2021-06-14 23:12:121006 2021-06-14 21:12:12 2021-06-14 23:15:121007 2021-06-14 22:12:12 2021-06-14 23:10:12

Time taken: 0.087 seconds, Fetched: 8 row(s)

2 数据分析

问题1分析:

本题如果直接从SQL本身很难下手,无从做起,不妨我们换个思路,假定我们拿到的是一条数据,现在用java程序怎么做?其实就是一个累加器的思想(如SPARK的累加器)。首先我们需要将这样一条记录进行拆分,分成不同的记录或数据流进入累加器,然后给每条记录进行标记,如果开播的话该条记录记为1,下播的话记为-1,此时的数据流按照时间顺序依次进入累加器,然后在累加器中进行叠加,其中累计的结果最大时候就是所求的结果。其实本质是利用累加器思想,但进入累加器的数据是按时间排好序的时序流数据(数据进入按时间先后顺序进入)。

上述思路总结如下:

(1)将数据切分(按起始时间和结束时间)

(2)数据进行标签,开播的记录为记为1,下播的记录记为-1用于累加

(2)将数据按时间进行排序

(3)数据进入累加器进行累加

(4)获取累加器中当前累加值最大的数值

有了以上思路后,我们将其转换为SQL求解思路。

(1)将数据切分:实际上就是将开播时间和下播时间转换成一条条记录。也就是列转行,我们用熟悉的UNION操作,进行转换。

select id,stt dt from play

unionselect id,edt dt from play

--------------------------------------------------------------------------------

OK

1001 2021-06-14 12:12:121001 2021-06-14 18:12:121001 2021-06-14 20:12:121001 2021-06-14 23:12:121002 2021-06-14 15:12:121002 2021-06-14 16:12:121003 2021-06-14 13:12:121003 2021-06-14 16:12:121004 2021-06-14 13:15:121004 2021-06-14 20:12:121005 2021-06-14 15:18:121005 2021-06-14 20:12:121006 2021-06-14 21:12:121006 2021-06-14 23:15:121007 2021-06-14 22:12:121007 2021-06-14 23:10:12

Time taken: 20.502 seconds, Fetched: 16 row(s)

(2) 数据标记。在上述SQL基础上直接进行标记即可。如果数据本来就是分开的则用case when进行标记。

select id,stt dt , 1 flag from play

unionselect id,edt dt ,-1 flag from play

--------------------------------------------------------------------------------

OK

1001 2021-06-14 12:12:12 11001 2021-06-14 18:12:12 -11001 2021-06-14 20:12:12 11001 2021-06-14 23:12:12 -11002 2021-06-14 15:12:12 11002 2021-06-14 16:12:12 -11003 2021-06-14 13:12:12 11003 2021-06-14 16:12:12 -11004 2021-06-14 13:15:12 11004 2021-06-14 20:12:12 -11005 2021-06-14 15:18:12 11005 2021-06-14 20:12:12 -11006 2021-06-14 21:12:12 11006 2021-06-14 23:15:12 -11007 2021-06-14 22:12:12 11007 2021-06-14 23:10:12 -1

Time taken: 7.408 seconds, Fetched: 16 row(s)

(3)数据按照时间排序,进入累加器进行累加(按时间排序是累加的关键)

select id

,dt

,sum(flag) over(order by dt) as cur_cnt

from(

select id,stt dt , 1 flag from play

union

select id,edt dt ,-1 flag from play

) t

--------------------------------------------------------------------------------

OK

1001 2021-06-14 12:12:12 11003 2021-06-14 13:12:12 21004 2021-06-14 13:15:12 31002 2021-06-14 15:12:12 41005 2021-06-14 15:18:12 51002 2021-06-14 16:12:12 31003 2021-06-14 16:12:12 31001 2021-06-14 18:12:12 21001 2021-06-14 20:12:12 11004 2021-06-14 20:12:12 11005 2021-06-14 20:12:12 11006 2021-06-14 21:12:12 21007 2021-06-14 22:12:12 31007 2021-06-14 23:10:12 21001 2021-06-14 23:12:12 11006 2021-06-14 23:15:12 0

Time taken: 8.133 seconds, Fetched: 16 row(s)

(4) 获取累加器中当前时刻累加的最大值,即为同时开播最多的人数

select max(cur_cnt)

from(

select id

,dt

,sum(flag) over(order by dt) as cur_cnt

from(

select id,stt dt , 1 flag from play

union

select id,edt dt ,-1 flag from play

) t

) m

--------------------------------------------------------------------------------

OK

5

Time taken: 13.087 seconds, Fetched: 1 row(s)

问题2分析:

第二问求的是出现高峰时的时间段,也就是高峰时间的起始时间及结束时间,或持续时长。

借鉴第一问的结果进行分析:

select *,max(cur_cnt) over()

from(

select id

,dt

,sum(flag) over(order by dt) as cur_cnt

from(

select id,stt dt , 1 flag from play

union

select id,edt dt ,-1 flag from play

) t

) m

通过上图我们可以看出当由峰值出的记录时间到下一条记录人数减少的时候这一段时间即为峰值持续的时间,或高峰的时间段,也就是求出峰值的下一条记录的时间与峰值对应记录的时间即为高峰时间段,因此利用lead()函数很容易求出问题的答案。SQL如下:

select max_cur_cnt

,dt as start_time

,lead_dt as end_time

from(

select *

,lead(dt,1,dt) over(order by dt) lead_dt

from(

select *,max(cur_cnt) over() as max_cur_cnt

from(

select id

,dt

,flag

,sum(flag) over(order by dt) as cur_cnt

from(

select id,stt dt , 1 flag from play

union

select id,edt dt ,-1 flag from play

) t

) m

) n

) p

where cur_cnt=max_cur_cnt

计算结果如下:

--------------------------------------------------------------------------------

OK

5 2021-06-14 15:18:12 2021-06-14 16:12:12

Time taken: 17.513 seconds, Fetched: 1 row(s)

3 小结

本文针对SQL统计同时在线人数问题进行了分析,利用累加器思想对该问题进行求解,最终划归为时序数据,进行时序数据分析(常用技巧:打标签,形成序列,多序列进行分析),最后利用sum() over()对标签进行累加求出当前在线人数本题最关键的点在于转换为时序数据及累加器的思想,望读者能够掌握。

事实上该问题的分析在业务上具有重要的意义,我们能够实时跟踪随着时间变化的在线人数,了解服务器的负载变化情况,服务器的实时并发数等。该问题在不同业务场景下,有不同意义,比如某个游戏的同时在线人数,比如某个服务器的实时并发数,比如某个仓库的货物积压数量,某一段时间内的同时处于服务过程中的最大订单量等。实际上求最大在线人数和求实时在线人数是一回事,最大人数依赖于当前在线人数表,只有先求出当前在线人数表,才能求出最大同时在线人数。

不谋全局者,不足以谋一域。

不谋万世者,不足以谋一时。

作者: 石榴公子YYDS

https://blog.csdn.net/godlovedaniel/article/details/118651811

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7315

    浏览量

    93988
  • SQL
    SQL
    +关注

    关注

    1

    文章

    789

    浏览量

    46371

原文标题:3 小结

文章出处:【微信号:DBDevs,微信公众号:数据分析与开发】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何计算适合电能质量在线监测装置的外部UPS容量?

    计算适合电能质量在线监测装置的外部 UPS 容量,核心逻辑是 **“覆盖总功率需求 + 预留冗余”**,需通过 “确定总功率→引入功率因数→叠加冗余→匹配标准规格” 四步完成,关键是不能仅计算
    的头像 发表于 11-05 11:11 411次阅读

    电缆隧道在线监测的技术及其应用难点

    电缆隧道在线监测是保障电缆隧道运行安全的一种有效方法,其通过集成应用多种技术(如物联网、云计算及智能分析、传感器等),在实现故障预防与快速定位的同时,提升运维效率,保障安全。此外也在很
    的头像 发表于 10-24 11:14 130次阅读
    电缆隧道<b class='flag-5'>在线</b>监测的技术及其应用难点

    不用编程不用联网,实现倍福(BECKHOFF)PLC对接SQL数据库,上报和查询数据的案例

    的数值;查看过程数据(工具->网关数据监控):显示当前任务组对应的过程数据, 即SQL语句。 倍福PLC内需要添加智能网关的IP地址,同时要确认PLC的AMS ID,AMS网络端口等参数
    发表于 10-10 11:14

    SQL 通用数据类型

    SQL 通用数据类型 数据库表中的每个列都要求有名称和数据类型。Each column in a database table is required to have a name and a
    的头像 发表于 08-18 09:46 576次阅读

    Text2SQL准确率暴涨22.6%!3大维度全拆

    基于 BIRD 数据集展开。 方法:提出 J-Schema 呈现数据库结构并合理提供示例值,结合思维链引导模型推理。采用 Iterative DPO 迭代训练,多轮迭代提升性能。用自洽性方法,通过硬 / 软投票从多个候选答案中选最优,软投票更优。 结果:解决 Text2SQL
    的头像 发表于 08-14 11:17 546次阅读
    Text2<b class='flag-5'>SQL</b>准确率暴涨22.6%!3大维度全拆

    不用编程序无需联外网,将Rockwell罗克韦尔(AB)PLC的标签数据存入SQL数据库

    IGT-DSER网关的网口1,先配置网络参数(默认IP:192.168.1.244,确认PC的网口与网关默认IP同网段),通过‘工具’->‘搜索在线网关’,搜索到网关后,修改IP地址等参数
    发表于 07-31 10:33

    数据库数据恢复—SQL Server数据库被加密如何恢复数据?

    SQL Server数据库故障: SQL Server数据库被加密,无法使用。 数据库MDF、LDF、log日志文件名字被篡改。
    的头像 发表于 06-25 13:54 509次阅读
    数据库数据恢复—<b class='flag-5'>SQL</b> Server数据库被加密如何恢复数据?

    达梦数据库常用管理SQL命令详解

    达梦数据库常用管理SQL命令详解
    的头像 发表于 06-17 15:12 6576次阅读
    达梦数据库常用管理<b class='flag-5'>SQL</b>命令详解

    大促数据库压力激增,如何一眼定位 SQL 执行来源?

    你是否曾经遇到过这样的情况:在大促活动期间,用户访问量骤增,数据库的压力陡然加大,导致响应变慢甚至服务中断?更让人头疼的是,当你试图快速定位问题所在时,却发现难以确定究竟是哪个业务逻辑中的 SQL
    的头像 发表于 06-10 11:32 415次阅读
    大促数据库压力激增,如何一眼定位 <b class='flag-5'>SQL</b> 执行来源?

    如何一眼定位SQL的代码来源:一款SQL染色标记的简易MyBatis插件

    侵入,接入简单,支持SELECT、INSERT、UPDATE、DELETE等语句,同时也支持无WHERE条件SQL的标记增强。该SQL染色插件并不改变SQL指纹,染色信息内置了stat
    的头像 发表于 03-05 11:36 736次阅读
    如何一眼定位<b class='flag-5'>SQL</b>的代码来源:一款<b class='flag-5'>SQL</b>染色标记的简易MyBatis插件

    Devart: dbForge Compare Bundle for SQL Server—比较SQL数据库最简单、最准确的方法

    、备份和脚本文件夹中的数据差异。它可以同步任意数量数据库中的数据,只需点击几下即可恢复损坏或丢失的数据。 dbForge模式比较 帮助比较数据库模式,分析差异,并通过SQL脚本同步差异。它适用于所有
    的头像 发表于 01-17 11:35 868次阅读

    dbForge Studio For SQL Server:用于有效开发的最佳SQL Server集成开发环境

    dbForge Studio For SQL Server:用于有效开发的最佳SQL Server集成开发环境 SQL编码助手 SQL代码分析 查询分析器 可视化查询生成器 数据和模式
    的头像 发表于 01-16 10:36 1084次阅读

    Devart::dbForge SQL Complete让生产力上一个台阶

    SQL编码助手,适用于SSMS 和VS 该工具提供上下文感知的代码补全,使SQL开发人员和数据库管理员能够更快地编写代码。 SQL Complet包含许多实用的功能,这些功能是专门为提高开发团队
    的头像 发表于 01-14 11:09 948次阅读
    Devart::dbForge <b class='flag-5'>SQL</b> Complete让生产力上一个台阶

    通过Skyvia Connect SQL终端节点访问任何数据

    通过 Skyvia Connect SQL 终端节点访问任何数据   通过 Skyvia Connect SQL 终端节点访问任何数据ADO.NET 数据网关 使用 Skyvia Co
    的头像 发表于 01-02 09:31 596次阅读
    <b class='flag-5'>通过</b>Skyvia Connect <b class='flag-5'>SQL</b>终端节点访问任何数据

    浅谈SQL优化小技巧

    存储在缓存中的数据; (3)未命中缓存后,MySQL通过关键字将SQL语句进行解析,并生成一颗对应的解析树,MySQL解析器将使用MySQL语法进行验证和解析。 例如,验证是否使用了错误的关键字,或者关键字的使用是否正确; (4)预处理是根据一些MySQL规则检查解析树
    的头像 发表于 12-25 09:59 1124次阅读