0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

冰上的大数据

星星科技指导员 来源:嵌入式计算设计 作者:Brandon Lewis 2022-08-17 09:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

波音喷气发动机每运行 30 分钟,就会产生 10 TB 的数据。那是 1 万亿字节,或相当于美国国会图书馆整个印刷馆藏的数字化等价物。将其乘以每天在美国上空推动超过 87,000 次航班的喷气发动机数量,您就会获得大量数据。

尽管一些人猜测大数据不会转化为分析疗法,但它仍然与物联网IoT) 密不可分。如果思科等公司的预测是正确的,那么到 2020 年,我们将有大约 500 亿个支持互联网的“事物”不断地啁啾,虽然它们可能不会都在喷气发动机剪辑上生成数据,但这绝对构成了数据海啸。

那么,我们将如何处理所有这些数据?收获的信息必须在某种程度上具有价值,否则它一开始就不会被收获。另一方面,并​​非所有数据都是平等的。收集到的绝大多数数据可能会被存档和遗忘,直到偶尔报告需要它,访问一次或两次,然后再次被遗忘。根据 Enterprise Strategy Group 的研究,这种“不经常访问”的信息(也称为第 3 层或“冷”数据)占记录数据的 80%。而且,尽管这些年来内存的平均成本急剧下降,但在大数据规模上,每 GB 几美分的成本可以很快加起来。

这种信息过载的明显答案是冷数据存储替代方案,它们比用于定期访问的数据更便宜且容量更大。因此,公司通常选择以下两种解决方案之一:历史悠久的磁带库,或者最近的云。

磁带库已经使用了几十年,非常适合以极低的成本存储大量数据。它们也可以被认为是“绿色的”,因为磁带驱动器仅在使用时旋转(这可以节省电力),并且位于内部可以相对快速地访问冷数据。然而,磁带库也有一些缺点,包括大中型存储系统的前期费用高昂、远程访问困难、磁带退化的可能性以及在单个现场位置维护档案的漏洞。而不是“数据海啸”想想“数据”和“海啸”)。

公司探索云存储的可能性,通过提供无限的存储空间、低成本以及防止盗窃、自然灾害等的远程容量,弥补了磁带库的一些疑虑。然而,云解决方案的主要特点是检索数据通常非常耗时,并且可能会变得昂贵,具体取决于检索的数据量。例如,Amazon Glacier 之类的服务至少需要 3-5 小时来检索数据集(可在 24 小时内下载),如果在给定的数据中检索到超过 5% 的数据,则按千兆字节收费月。

两者的交叉点似乎会有所改进,并包含优化访问的硬件和软件元素,同时确保每 GB 存储的成本尽可能低。

冷藏:冰上的大数据

软件定义存储 (SDS) 是一个新术语,但从技术角度来看,它类似于软件定义网络 (SDN),因为硬件逻辑被抽象为管理存储基础设施的软件层。从本质上讲,这意味着可以虚拟化存储功能或服务(如重复数据删除、复制、快照和精简配置),从而实现在商用硬件上运行的融合存储架构。因此,可以实施具有成本效益的存储策略,将磁带库的可访问性和效率与云的可扩展性和远程功能相结合。

例如,由 Storiant 提供支持的 RGS Cold Storage 是针对第 3 层数据的本地存储解决方案,它基于 Avnet, Inc. 的业务部门 RGS 的现成硬件。机柜级设备与 60 个提供 PB 级容量的 HDD 托架完全集成,并利用基于 OpenZFS 的 Storiant 软件(以前称为 SageCloud)与私有云接口。Storiant 数据管理软件还提高了访问性能,将处于停滞状态的数据的检索时间缩短至 30 秒,同时允许 HDD 在不使用时减速以显着降低功耗。可扩展的 RGS 冷存储架构每月每 GB 存储 0.01 美元,针对大多数大数据部署进行了成本优化。

虽然 SDS 等存储管理技术有助于为有价值的业务分析奠定基础,但它们还确保财务和计算资源可用于定期执行的“第 1 层”数据。在一个过多的信息实际上会变成一件坏事的环境中,将其中的一些信息保持在深度冻结状态是很重要的。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 发动机
    +关注

    关注

    33

    文章

    2638

    浏览量

    72238
  • 物联网
    +关注

    关注

    2939

    文章

    47315

    浏览量

    407594
  • SDS
    SDS
    +关注

    关注

    0

    文章

    50

    浏览量

    16263
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    湖北大数据集团到访维智科技参观交流

    近日,湖北大数据集团有限公司党委书记、董事长汪小波率队到访维智科技。双方围绕时空数据融合、公共数据授权运营及行业应用场景开发等议题展开深入探讨。
    的头像 发表于 11-03 10:02 390次阅读

    东软集团领跑中国医疗大数据解决方案市场

    近日,国际数据公司(IDC)权威发布《中国医疗大数据解决方案市场份额,2024:全域数据支撑》(Doc#CHC53739825,2025年9月)报告。报告显示,在中国医疗大数据解决方案
    的头像 发表于 10-30 17:09 477次阅读

    组态大数据平台是什么?有什么功能?

    组态大数据平台是融合 组态技术 与 大数据处理能力 的综合性平台,通过图形化、可配置的方式实现数据采集、存储、分析、可视化及远程控制,适用于工业自动化、能源管理、楼宇监控等领域。其核心价值在于降低
    的头像 发表于 10-30 11:29 88次阅读
    组态<b class='flag-5'>大数据</b>平台是什么?有什么功能?

    御控工业物联网大数据解决方案:排水设备远程监控与大数据统计系统

    御控工业物联网推出排水设备远程监控与大数据统计系统,通过物联网、大数据、云计算等技术构建“感知-传输-分析-决策”闭环管理体系,助力排水行业数字化转型。
    的头像 发表于 09-12 10:04 478次阅读

    在EZ串行的BLE“无响应写入”中, CAN一次通信中接收的最大数据包大小是多少?

    :所有数据都显示在与 ez-Serial 和 PUART 连接的 TeraTerm 上 [问题] (1)在 EZ 串行的 BLE“无响应写入”中, CAN 一次通信中接收的最大数据包大小是多少? (2
    发表于 07-07 07:33

    更改最大数据包大小时无法识别USB设备如何解决?

    将生产者 EP 端点描述符中的最大数据包大小从 1024 字节更改为 512 字节时,无法识别 USB 设备。 请告知如何解决这个问题。
    发表于 05-20 08:13

    深开鸿成为中国物流与采购联合会大数据分会“副会长单位”

    近日,深开鸿与中国物流与采购联合会规划院、中国物流与采购联合会大数据分会在北京举行合作会谈。双方围绕数据资产入表、物流规划和行业发展等相关内容进行了沟通,并达成多项合作共识。会上,李锦莹会长代表中国
    的头像 发表于 05-19 19:06 611次阅读
    深开鸿成为中国物流与采购联合会<b class='flag-5'>大数据</b>分会“副会长单位”

    安徽京准:GPS北斗卫星校时服务器助力大数据云计算

    安徽京准:GPS北斗卫星校时服务器助力大数据云计算
    的头像 发表于 04-02 09:27 550次阅读

    大数据与云计算是干嘛的?

    大数据与云计算是支撑现代数字化技术的两大核心。大数据专注于海量数据的采集、存储、分析与价值挖掘;云计算通过虚拟化资源池提供弹性计算、存储及服务能力。两者结合,共同赋能企业决策、业务创新和效率提升。下面UU云小编将详细剖析
    的头像 发表于 02-20 14:48 1264次阅读

    大数据云计算都需要考什么证书?

    大数据和云计算领域包含多种专业证书,其中大数据领域涵盖数据分析类证书、大数据工程类证书、数据治理类证书。云计算领域领域涵盖云计算技术类证书、
    的头像 发表于 02-19 11:05 1188次阅读

    工程大数据平台

    由于无人驾驶系统开发需要长期迭代优化,其过程需要大量的路试数据支撑,经纬恒润针对无人驾驶系统持续运营和持续迭代的需求,开发并在云端部署了车路云工程大数据平台,依托5G网络,具有远程数据采集、压缩、传输、解析、回放与算法无缝衔接等
    的头像 发表于 01-10 17:00 936次阅读
    工程<b class='flag-5'>大数据</b>平台

    DAC39J84最大数据速率指的是数字信号的输入上限吗?超过1.25GSPS的数字输入就无法处理啦?

    本人才买的DAC39J84,发现datasheet上有两个和速率相关的参数,最大采样率2.8GSPS,和最大输入数据速率1.25GSPS。 是不是最大数据速率指的是是数字信号的输入上限,超过1.25GSPS的数字输入就无法处理, 而最大采样率是不是指输出时,插值后的模拟
    发表于 12-31 08:24

    缓存对大数据处理的影响分析

    缓存对大数据处理的影响显著且重要,主要体现在以下几个方面: 一、提高数据访问速度 在大数据环境中,数据存储通常采用分布式存储系统,数据量庞大
    的头像 发表于 12-18 09:45 1103次阅读

    使用ads131a04过程中,实际采集得到的最大数据约为理论的1.8倍,为什么?

    长度,所以理论采集数据最大输出为32768/2.5*0.7=9175,但是实际采集得到的最大数据为16832,约为理论的1.8倍,adc时钟为16.384M,a_sys_cfg=x\"0b60
    发表于 12-17 08:07

    大数据的3V、4V、7V,到底是什么意思?

    大数据,顾名思义,就是大量的数据。更专业来说,大数据,是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据软件工具能力范围的数据集合
    的头像 发表于 12-06 01:01 2247次阅读
    <b class='flag-5'>大数据</b>的3V、4V、7V,到底是什么意思?