分享一个高性能的实时分析型数据库Apache Durid-电子发烧友网

概览

Apache Druid 是一个高性能的实时分析型数据库。

一个现代化的云原生，流原生，分析型数据库

Druid 是为快速查询和快速摄入数据的工作流而设计的。Druid 强在有强大的 UI，运行时可操作查询，和高性能并发处理。Druid 可以被视为一个满足多样化用户场景的数据仓库的开源替代品。

轻松与现有的数据管道集成

Druid 可以从消息总线流式获取数据（如 Kafka，Amazon Kinesis），或从数据湖批量加载文件（如 HDFS，Amazon S3 和其他同类数据源）。

比传统方案快 100 倍的性能

Druid 对数据摄入和数据查询的基准性能测试大大超过了传统解决方案。

Druid 的架构融合了数据仓库，时间序列数据库和检索系统最好的特性。

解锁新的工作流

Druid 为 Clickstream，APM(应用性能管理系统)，supply chain(供应链)，网络遥测，数字营销和其他事件驱动形式的场景解锁了新的查询方式和工作流。Druid 专为实时和历史数据的快速临时查询而构建。

部署在 AWS/GCP/Azure，混合云，k8s 和租用服务器上

Druid 可以部署在任何*NIX 环境中。无论是内部环境还是云环境。部署 Druid 是非常 easy 的：通过添加或删减服务来扩容缩容。

使用场景

Apache Druid 适用于对实时数据提取，高性能查询和高可用要求较高的场景。因此，Druid 通常被作为一个具有丰富 GUI 的分析系统，或者作为一个需要快速聚合的高并发 API 的后台。Druid 更适合面向事件数据。

比较常见的使用场景：

点击流分析（web 和 mobile 分析）

风控分析

网路遥测分析（网络性能监控）

服务器指标存储

供应链分析（制造业指标）

应用性能指标

商业智能/实时在线分析系统 OLAP

下面将详细分析这些使用场景：

用户活动和行为

Druid 经常用在点击流，访问流，和活动流数据上。具体场景包括：衡量用户参与度，为产品发布追踪 A/B 测试数据，并了解用户使用方式。Druid 可以做到精确和近似计算用户指标，例如不重复计数指标。这意味着，如日活用户指标可以在一秒钟计算出近似值(平均精度 98%)，以查看总体趋势，或精确计算以展示给利益相关者。Druid 可以用来做“漏斗分析”，去测量有多少用户做了某种操作，而没有做另一个操作。这对产品追踪用户注册十分有用。

网络流

Druid 常常用来收集和分析网络流数据。Druid 被用于管理以任意属性切分组合的流数据。Druid 能够提取大量网络流记录，并且能够在查询时快速对数十个属性组合和排序，这有助于网络流分析。这些属性包括一些核心属性，如 IP 和端口号，也包括一些额外添加的强化属性，如地理位置，服务，应用，设备和 ASN。Druid 能够处理非固定模式，这意味着你可以添加任何你想要的属性。

数字营销

Druid 常常用来存储和查询在线广告数据。这些数据通常来自广告服务商，它对衡量和理解广告活动效果，点击穿透率，转换率（消耗率）等指标至关重要。

Druid 最初就是被设计成一个面向广告数据的强大的面向用户的分析型应用程序。在存储广告数据方面，Druid 已经有大量生产实践，全世界有大量用户在上千台服务器上存储了 PB 级数据。

应用性能管理

Druid 常常用于追踪应用程序生成的可运营数据。和用户活动使用场景类似，这些数据可以是关于用户怎样和应用程序交互的，它可以是应用程序自身上报的指标数据。Druid 可用于下钻发现应用程序不同组件的性能如何，定位瓶颈，和发现问题。

不像许多传统解决方案，Druid 具有更小存储容量，更小复杂度，更大数据吞吐的特点。它可以快速分析数以千计属性的应用事件，并计算复杂的加载，性能，利用率指标。比如，基于百分之 95 查询延迟的 API 终端。我们可以以任何临时属性组织和切分数据，如以天为时间切分数据，如以用户画像统计，如按数据中心位置统计。

物联网和设备指标

Driud 可以作为时间序列数据库解决方案，来存储处理服务器和设备的指标数据。收集机器生成的实时数据，执行快速临时的分析，去估量性能，优化硬件资源，和定位问题。

和许多传统时间序列数据库不同，Druid 本质上是一个分析引擎。Druid 融合了时间序列数据库，列式分析数据库，和检索系统的理念。它在单个系统中支持了基于时间分区，列式存储，和搜索索引。这意味着基于时间的查询，数字聚合，和检索过滤查询都会特别快。

你可以在你的指标中包括百万唯一维度值，并随意按任何维度组合 group 和 filter(Druid 中的 dimension 维度类似于时间序列数据库中的 tag)。你可以基于 tag group 和 rank，并计算大量复杂的指标。而且你在 tag 上检索和过滤会比传统时间序列数据库更快。

OLAP 和商业智能

Druid 经常用于商业智能场景。公司部署 Druid 去加速查询和增强应用。和基于 Hadoop 的 SQL 引擎(如 Presto 或 Hive)不同，Druid 为高并发和亚秒级查询而设计，通过 UI 强化交互式数据查询。这使得 Druid 更适合做真实的可视化交互分析。

技术

Apache Druid 是一个开源的分布式数据存储引擎。Druid 的核心设计融合了 OLAP/analytic databases，timeseries database，和 search systems 的理念，以创造一个适用广泛用例的统一系统。Druid 将这三种系统的主要特性融合进 Druid 的 ingestion layer(数据摄入层)，storage format(存储格式化层)，querying layer(查询层)，和 core architecture(核心架构)中。