0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Spark结构化流中的加水位线方法

汽车玩家 来源:今日头条 作者:闻数起舞 2020-05-03 17:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

对于流处理引擎来说,处理延迟到达的事件是至关重要的功能。 解决这个问题的方法是加水位线的概念。 从Spark 2.1开始,结构化流API就支持它。

什么是水位线?

加水位线是一种有用的方法,可帮助流处理引擎处理延迟。 基本上,水印是一个阈值,用于指定系统等待延迟事件的时间。 如果到达事件位于水位线之内,它将用于更新查询。 否则,如果它早于水位线,它将被丢弃,并且流引擎不会对其进行进一步处理。

> Flooding watermarks

如何使用它?

自Spark 2.1起,水位线被引入到结构化流API中。 您可以通过将withWatermark-Operator添加到查询中来启用它:

withWatermark(eventTime:String,delayThreshold:String):数据集[T]

它需要两个参数,a)一个事件时间列(必须与聚合正在处理的列相同)和b)一个阈值,用于指定应处理多长时间的延迟数据(以事件时间为单位)。 然后,Spark将维持聚合状态,直到max eventTime — delayThreshold> T,其中max eventTime是引擎看到的最新事件时间,T是窗口的开始时间。 如果后期数据落入此阈值之内,则查询将最终得到更新(下图中的右图)。 否则,它将被丢弃,并且不会触发任何重新处理(下图中的左图)。

Spark结构化流中的加水位线方法

Spark结构化流中的加水位线方法

> Late donkey in structured word count: event dropped (left), event within watermark updates Window

值得一提的是,查询的输出模式必须设置为"追加"(默认)或"更新"。完全模式不能与设计中的水印结合使用,因为它需要所有 要保存的数据,用于将整个结果表输出到接收器

可以在这里找到如何在简单的Spark结构化流应用程序中使用该概念的快速演示-它是字数统计(对NLP进行了一些小的增强),还有其他:D

但是,为什么我要关心?

在分布式和联网的系统中,总会有中断的机会-节点故障,传感器丢失连接等等。 因此,不能保证数据将按创建顺序到达流处理引擎。 为了容错,因此有必要处理此类乱序数据。

为了解决此问题,必须保留聚合状态。 如果发生延迟事件,则可以重新处理查询。 但这意味着所有聚合的状态必须无限期地保持,这也导致内存使用量也无限期地增长。 除非系统具有无限的资源(即无限的预算),否则在现实世界中这是不切实际的。 因此,加水位线是一个有用的概念,可以通过设计约束系统并防止其在运行时爆炸。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • API
    API
    +关注

    关注

    2

    文章

    2523

    浏览量

    67293
  • SPARK
    +关注

    关注

    1

    文章

    108

    浏览量

    21357
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    2026实测教程:系统指令调优Gemini 3.1 Pro镜像站,稳定输出结构化内容

    ( www.rsk.cn ) 免费使用Gemini 3.1 Pro、GPT-4o、Claude 3.5等模型,本教程所有实测均在该平台完成,结果可复现。 为什么你的结构化Prompt经常“抽风”? 答案胶囊
    的头像 发表于 05-07 10:08 526次阅读

    投入式水位计微型设计如何实现大范围水位监测?

    微型设计如何实现大范围水位监测?这是一个在工程安全监测领域备受关注的问题。投入式水位计作为该领域的关键设备,其小型化外形与宽范围、高可靠的监测能力,正是这一问题的典型解答。传统水位
    的头像 发表于 04-02 15:21 238次阅读
    投入式<b class='flag-5'>水位</b>计微型<b class='flag-5'>化</b>设计如何实现大范围<b class='flag-5'>水位</b>监测?

    奥迪威高水位雾化加湿方案:以结构创新重塑小型加湿器续航体验

    奥迪威高水位雾化加湿方案以结构创新为核心,突破了传统超声波雾化技术在高水位应用的物理限制,使小型加湿器在紧凑机身实现更长的连续运行时间,
    的头像 发表于 03-27 10:43 187次阅读
    奥迪威高<b class='flag-5'>水位</b>雾化加湿方案:以<b class='flag-5'>结构</b>创新重塑小型加湿器续航体验

    线性编程与结构化编程的不同点

    线性编程是将整个用户程序连续放置在一个循环程序块(OB1),按顺序执行的编程范式。这种结构与PLC所代替的硬接线继电器控制类似,CPU逐条地处理指令,体现了早期PLC编程的简单性和直观性。说白了就是一条路走到黑,所有功能从上
    的头像 发表于 03-16 16:58 698次阅读
    线性<b class='flag-5'>化</b>编程与<b class='flag-5'>结构化</b>编程的不同点

    锂离子电池高性能负极结构化复合集流体综述

    结构化集流体通过精心的表面与体相结构设计,为上述问题提供了系统性解决方案。Flexfilm探针式台阶仪可以实现表面微观特征的精准表征与关键参数的定量测量,精确测
    的头像 发表于 02-04 18:03 2877次阅读
    锂离子电池高性能负极<b class='flag-5'>结构化</b>复合集流体综述

    高压放大器ATA-2031在声空控器件的应用

    实验名称:高压放大器ATA-2031在声空控器件的应用实验方向:声空控混合实验设备:ATA-2031高压放大器、信号发生器、微
    的头像 发表于 01-29 18:34 1140次阅读
    高压放大器ATA-2031在声空<b class='flag-5'>化</b>微<b class='flag-5'>流</b>控器件<b class='flag-5'>中</b>的应用

    如何在DGX Spark上运行NVIDIA Omniverse

    首先感谢 Vigor 同学第一时间的分享,以下是具体如何在 DGX Spark 上运行 Omniverse 的方法
    的头像 发表于 12-17 10:13 1090次阅读
    如何在DGX <b class='flag-5'>Spark</b>上运行NVIDIA Omniverse

    结构化布线中使用电缆标签的4个主要优势

    在现代通信和网络基础设施建设结构化布线系统扮演着至关重要的角色。它不仅确保了网络的高效传输和稳定运行,还为未来的扩展和维护提供了便利。而在结构化布线,电缆标签的使用虽看似是一个小
    的头像 发表于 11-24 10:34 471次阅读

    NVIDIA DGX Spark快速入门指南

    NVIDIA DGX Spark 已正式向 AI 开发者交付,对于刚入手的全新 DGX Spark,该如何进行初始设置?本篇文章将引导您完成 DGX Spark 首次设置。在初始设置
    的头像 发表于 11-17 14:11 7624次阅读
    NVIDIA DGX <b class='flag-5'>Spark</b>快速入门指南

    压力式水位计在水文与市政监测的技术应用

    在水文监测、市政管网运维及水利工程管理领域,水位数据的精准采集是保障系统安全运行的基础环节。压力式水位计凭借结构简洁、适应复杂环境的特性,已成为各类水位监测场景
    的头像 发表于 10-27 12:14 627次阅读
    压力式<b class='flag-5'>水位</b>计在水文与市政监测<b class='flag-5'>中</b>的技术应用

    压力式水位计在多场景水位监测的技术应用与实践

    水位监测是水资源管理、水利工程运维及民生保障的关键环节,压力式水位计凭借结构简洁、测量稳定的技术特性,已广泛应用于水井、水箱、水库等不同场景的水位数据采集工作。该设备基于流体静力学原理
    的头像 发表于 10-25 11:41 499次阅读
    压力式<b class='flag-5'>水位</b>计在多场景<b class='flag-5'>水位</b>监测<b class='flag-5'>中</b>的技术应用与实践

    雷达水位监测仪:金叶仪器助力水位监测智能升级

    水位监测在水利管理、城市防洪、环保监测等领域扮演着关键角色,但传统方法常常让管理者头疼不已。比如,机械式水位计易受漂浮物干扰,超声波设备在恶劣天气下精度骤降,人工巡检又费时费力。如何实现高效、精准且
    的头像 发表于 09-25 10:52 869次阅读
    雷达<b class='flag-5'>水位</b>监测仪:金叶仪器助力<b class='flag-5'>水位</b>监测智能<b class='flag-5'>化</b>升级

    智能体AI面临非结构化数据难题:IBM推出解决方案

    ,同时提供一个开放的混合数据基础架构和企业级的结构化和非结构化数据管理。 智能体AI面临非结构化数据难题:IBM推出解决方案 测试结果显示,与传统RAG相比,IBM watsonx.data的AI准确性
    的头像 发表于 07-02 09:40 756次阅读

    DDN携手NVIDIA释放非结构化数据的AI价值

    DDN 通过与 NVIDIA AI 数据平台的合作,推出联合解决方案,简化了企业对非结构化数据的存储、访问和激活方式,助力客户释放生成式 AI 的巨大商业潜能。DDN 全球合作伙伴负责人
    的头像 发表于 06-10 10:31 1139次阅读

    雷达水位站:水位雨量监测一体设备

    在恶劣天气频发、水旱灾害风险加剧的背景下,精准、高效的水文监测成为防汛抗旱、水资源管理的核心需求。雷达水位站通过集成非接触式水位测量与高精度雨量监测功能,打造了一体智慧设备,实现“水位
    的头像 发表于 06-09 14:38 883次阅读