0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

作为一个快速简便的数据仓库,Snowflake可以动态扩展

存储D1net 来源:lq 2019-09-22 09:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作为一个快速简便的数据仓库,Snowflake可以动态扩展,以便在企业需要时为其提供所需的性能。

数据仓库,也称为企业数据仓库(EDW),是用于分析的高度并行的SQL或NoSQL数据库。它们允许企业从多个源导入数据,并从数PB的数据中快速生成复杂的报告。

数据仓库和数据集市之间的区别在于,数据集市通常仅限于单个主题和单个部门。数据仓库和数据湖之间的区别在于数据湖以其自然格式(通常是blob或文件)存储数据,而数据仓库将数据存储为数据库。

Snowflake简介

Snowflake是一个完全关联的ANSI SQL数据仓库,它是从头开始为云计算而构建的。它的架构将计算与存储分开,这样即使在查询运行时,用户也可以在不延迟或中断的情况下动态地扩展。当用户需要的时候,就能得到其所需要的性能,而且只需要为其所使用的计算资源支付费用。Snowflake目前运行在亚马逊网络服务和微软Azure云平台上。

Snowflake是一个具有矢量化执行的全列数据库,使它能够处理最苛刻的分析工作负载。Snowflake的自适应优化可以确保查询自动获得最佳性能,而无需管理索引、分发键或优化参数。

Snowflake凭借其独特的多集群共享数据架构可以支持无限制的并发性。这允许多个计算集群在同一数据上同时运行,而不会降低性能。Snowflake甚至可以自动扩展以通过其多集群虚拟仓库功能处理不同的并发需求,在峰值负载期间透明地添加计算资源,并在负载减少时缩小规模。

Snowflake的竞争对手

Snowflake在云端的竞争对手包括Amazon Redshif、Google BigQuery和Microsoft Azure SQL数据仓库。其他主要竞争对手,如Teradata、Oracle Exadata,MarkLogic和SAP BW/4HANA,可以安装在云端、内部部署和设备上。

Amazon Redshift

Amazon Redshift是一个快速可扩展的数据仓库,可让用户分析数据仓库和Amazon S3数据湖中的所有数据。用户使用SQL查询Redshift。Redshift数据仓库是一个可以使用并发查询负载自动部署和删除容量的集群。但是,所有集群节点都在同一可用区中进行配置。

Microsoft Azure SQL数据仓库

Microsoft Azure SQL数据仓库是一个基于云计算的数据仓库,它使用Microsoft SQL引擎和MPP(大规模并行处理)快速运行跨PB数据的复杂查询。通过使用简单的PolyBase T-SQL查询将大数据导入SQL数据仓库,然后使用大规模并行处理(MPP)的强大功能运行高性能分析,用户可以将Azure SQL数据仓库用作大数据解决方案的关键组件。

Azure SQL数据仓库在全球40个Azure云区域中可用,但给定的仓库服务器仅存在于单个云区域中。用户可以按需扩展数据仓库性能,但任何正在运行的查询都将被取消并回滚。

Google BigQuery

Google BigQuery是一个无服务器,高度可扩展且经济高效的云计算数据仓库,内置GIS查询、内置BI引擎和内置的机器学习功能。BigQuery可以快速运行数PB的SQL查询,并且可以直接加入公共或包含数据的商业数据集。

用户只能在创建时设置BigQuery数据集的地理位置。查询中引用的所有表必须存储在同一位置的数据集中。这也适用于外部数据集和存储桶。外部Google Cloud Bigtable数据的位置还有其他限制。在默认情况下,查询与数据在同一区域中运行。

其运行的地点可以是特定的地方,如弗吉尼亚州北部,也可以是更大的地理区域,如欧盟或美国。要将BigQuery数据集从一个区域移动到另一个区域,用户必须将其导出到与数据集位于同一位置的Google云存储桶,将存储桶复制到新位置,然后将其加载到新位置的BigQuery中。

Snowflake架构

Snowflake使用虚拟计算实例来满足其计算需求,并使用存储服务来持久存储数据。 Snowflake无法在私有云基础设施(内部部署或托管)上运行。

没有要执行的安装,也没有配置。所有维护和调整均由Snowflake处理。

Snowflake使用中央数据存储库来存储可从数据仓库中的所有计算节点访问的持久数据。同时,Snowflake使用大规模并行处理(MPP)计算集群处理查询,其中集群中的每个节点在本地存储整个数据集的一部分。

当数据加载到Snowflake中时,Snowflake会将该数据重新组织为其内部压缩的列式格式。内部数据对象只能通过SQL查询访问。用户可以通过其Web UI、CLI(SnowSQL),来自Tableau等应用程序的ODBC和JDBC驱动程序,通过编程语言的本机连接器以及BI和ETL工具的第三方连接器连接到Snowflake。

Snowflake架构图。需要注意,虚拟仓库的CPU资源可以独立于数据库存储进行扩展。

Snowflake功能

安全和数据保护。Snowflake提供的安全功能因版本而异。甚至标准版也提供所有数据的自动加密功能,并支持多因素身份验证和单点登录。企业版增加了加密数据的定期重新密钥,企业版增加了对HIPAA和PCI DSS的支持。用户可以选择数据的存储位置,这有助于符合欧盟GDPR法规。

标准和扩展SQL支持。Snowflake支持SQL:1999中定义的大多数DDL和DML,以及事务,一些高级SQL功能以及SQL:2003分析扩展(窗口函数和分组集)的部分内容。它还支持横向和物化视图、聚合函数、存储过程和用户定义的函数。

工具和接口。值得注意的是,Snowflake允许用户从GUI或命令行控制虚拟仓库。这包括创建、调整大小(零停机时间)、暂停和删除仓库。在查询运行时调整仓库大小非常方便,尤其是当用户需要加速花费太多时间的查询时。然而,任何其他EDW软件都没有实现。

连接Snowflake具有Python、Spark、Node.js、Go、.Net、JDBC、ODBC和dplyr-snowflakedb的连接器和/或驱动程序,这是在GitHub上维护的开源dplyr包扩展。

数据导入和导出。Snowflake可以加载各种数据和文件格式。那包括压缩文件;分隔数据文件;JSON、Avro、ORC、Parquet和XML格式;Amazon S3数据源;本地文件。它可以批量加载和卸载表格,以及从文件中连续批量加载。

数据共享。Snowflake支持与其他Snowflake帐户安全地共享数据。通过使用零拷贝表克隆简化了这一过程。

Snowflake的价格因版本和地点而异。其功能因版本而异,VPS实例目前仅在AWS上可用。

Snowflake教程

Snowflake提供了不少教程和视频。一些教程帮助用户入门,一些教程探索特定主题,还有一些可以演示功能。

建议用户完成《Snowflake免费试用实践实验室指南》中描述的实践。这应该足以导入一些真实数据,并测试一些查询。

这个教程大量使用Snowflake工作表,这是在Web UI中运行命令和SQL的便捷方式。除其他外,其中包括数据加载、查询、结果缓存和克隆、半结构化数据以及恢复数据库对象的时间旅行。

实践教程中的Snowflake工作表(右上角)。模式信息位于左上角,查询结果位于左下角,带有时序的查询历史记录位于右下角。

总的来说,发现Snowflake令人印象深刻。原以为它会很笨重,但事实并非如此。实际上,它的许多数据仓库操作都比人们预期的要快得多,当有一个数据仓库似乎在缓步前行时,可以在不中断正在发生的事情的情况下进行干预,并增加数据仓库的大小。

Snowflake数据仓库配置对话框。有各种各样的大小,有几种选项可以自动进行集群扩展。

大部分扩展都可以自动化。在创建数据仓库时(参见上面的屏幕截图),可以选择允许多个集群,设置扩展策略的选项、自动挂起的选项,以及自动恢复选项。默认的自动挂起时间为10分钟,这使得数据仓库在空闲时间超过该时间时不会消耗资源。自动恢复几乎是即时的,只要对数据仓库进行查询就会发生。

考虑到Snowflake提供30天的免费试用期,有400美元的信用额度,而且不需要安装任何软件,用户应该能够确定Snowflake是否适合其目的,而无需任何现金支出。

费用:2美元/信用额外加上23美元/TB/月的存储空间,并且存储空间需要预付费。一个信用额度等于一个节点*小时,按秒计费。更高级别的计划成本更加昂贵。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7348

    浏览量

    95016
  • 数据集
    +关注

    关注

    4

    文章

    1240

    浏览量

    26261

原文标题:Snowflake将成为在云中变得更好的数据仓库

文章出处:【微信号:D1Net11,微信公众号:存储D1net】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【分享】CAE前后处理数据太多?试试Simcenter HyperMesh这3快速数据处理工具

    文章来源于:Simcenter机械仿真做CAE前后处理的工程师,定都被这些场景折磨过:成百上千部件,要批量改材料、属性、模型设置等,一个个点到崩溃;想快速提取节点坐标、单元信息、载
    的头像 发表于 04-21 17:35 223次阅读
    【分享】CAE前后处理<b class='flag-5'>数据</b>太多?试试Simcenter HyperMesh这3<b class='flag-5'>个</b><b class='flag-5'>快速</b><b class='flag-5'>数据</b>处理工具

    物料仓库的智能化管理RFID方案:驱动智慧仓库新变革

    、智能化,已成为众多企业提升效率、降本增效的关键切入点。‌RFID智能化仓库管理‌恰恰以射频识别技术为核心,为这些问题提供了个数据驱动的系统性解决方案。▣RFID
    的头像 发表于 04-13 14:10 187次阅读
    物料<b class='flag-5'>仓库</b>的智能化管理RFID方案:驱动智慧<b class='flag-5'>仓库</b>新变革

    文读懂WMS仓库管理系统 并掌握5专业的wms管理系统

    流程管控,款合适的WMS系统都能破解仓储痛点,打通供应链闭环。本文将从WMS核心认知入手,详解5专业WMS管理系统,从系统介绍、核心功能到落地案例,全方位助力企业快速选型,读懂WMS的核心价值
    发表于 04-09 16:41

    什么是无人值守仓库?带你了解无人值守仓库管理系统的优势

    在追求降本增效的今天,种名为“无人值守仓库”的管理模式正日益受到制造、能源、化工等行业的青睐。它颠覆了传统仓库必须“人盯人、人管物”的刻板印象,让仓库也能实现7x24小时不间断的自助
    的头像 发表于 04-01 11:23 186次阅读
    什么是无人值守<b class='flag-5'>仓库</b>?带你了解无人值守<b class='flag-5'>仓库</b>管理系统的优势

    分享CW32 IO拓展项目:使用CW32L010做GPIO/ADC 扩展

    置的GPIO口 以及 四通用定时器 。 正是基于这些特性,该芯片非常适合用于两类核心应用场景: 功能简单的独立设备 ,如传感器节点、小家电主控等。 作为主控系统的扩展单元 ,尤其是IO扩展
    的头像 发表于 03-31 21:43 150次阅读
    分享<b class='flag-5'>一</b><b class='flag-5'>个</b>CW32 IO拓展项目:使用CW32L010做GPIO/ADC <b class='flag-5'>扩展</b>

    基于 LES33-HUB-3-RS485 的冷链仓库多传感器智能组网解决方案

    的特性,可快速完成现场部署与调试,降低项目实施的技术门槛与人力投入;同时支持灵活扩展与后期改造,冷库分区增减、传感设备升级无需大规模重构组网,进步降低冷链仓库的升级改造成本。 4.3
    发表于 03-17 16:01

    Fitch Solutions在Snowflake Marketplace上提供AI就绪的信用数据

    将使市场参与者和客户能够直接在Snowflake平台内访问和使用Fitch的信用情报,以支持更快速的分析,并简化现代工作流程中的集成操作。 Fitch Ratings的信用数据及贷款级表现基准
    的头像 发表于 02-04 16:26 819次阅读

    传统照明电费太高?招智能改造,让仓库能耗立降60%

    提出了特殊要求。 传统的仓库厂房照明往往采用“开全亮”的简单控制模式,无论区域是否有人、是否需要作业照明,所有灯具同时开启。大型物流仓库中,这种控制方式导致超过40%的照明能耗实际上被浪费在无人或低使用率区域。 另
    的头像 发表于 01-07 15:36 1104次阅读
    传统照明电费太高?<b class='flag-5'>一</b>招智能改造,让<b class='flag-5'>仓库</b>能耗立降60%

    BI决策分析系统的关键组成部分:业务数据整合有何意义

    从业者不可掉以轻心;旦设计执行不得当,策略很容易就会出现漏洞。  美国Intelligent Solutions咨询公司的总裁Claudia Imhoff说,数据必须及时上传到数据仓库为bi决策分析系统所使用,若时机不当,所有
    的头像 发表于 12-18 13:16 325次阅读

    Next Pathway成为Snowflake最高级别合作伙伴

    的持续投入。 Next Pathway始终展现出卓越的专业能力,以无可匹敌的效率帮助全球客户将复杂的数据仓库数据湖迁移至Snowflake AI数据云平台。“精英级”地位特别认可
    的头像 发表于 12-04 18:08 1160次阅读
    Next Pathway成为<b class='flag-5'>Snowflake</b>最高级别合作伙伴

    【室内定位】仓库管理可以有多智能?UWB模组高精度定位

    UWB 模组(BU 系列),仓库可以真正实现—— 托盘可视化、AGV 精准调度、人员安全协同、货位全流程监控 。 仓库为什么必须要 UWB?(痛点很真实) 仓储现场变量太多:托盘堆高、货架金属多、叉车高速穿梭、AGV 来回调度
    的头像 发表于 12-03 09:56 524次阅读
    【室内定位】<b class='flag-5'>仓库</b>管理<b class='flag-5'>可以</b>有多智能?UWB模组高精度定位

    rfid仓储方案在仓库管理中如何应用

    在现代仓储管理领域,传统人工管理模式易出现盘点效率低、物料追踪难、信息滞后等问题,而rfid仓储方案的出现,为仓库管理带来了革命性的变革。作为高度自动化、智能化的无人值守仓库管理解决方案,rfid
    的头像 发表于 10-23 15:13 571次阅读
    rfid仓储方案在<b class='flag-5'>仓库</b>管理中如何应用

    仓库人车定位系统的优选之解

    在当代仓储物流的运作体系里,仓库管理的高效性与安全性占据着核心地位。而人车定位系统作为提升仓库管理效能的重要技术支撑,正逐渐成为行业聚焦的重点。新锐科创蓝牙+LoRa人车定位系统,借助其独特的技术
    的头像 发表于 07-04 16:54 649次阅读
    <b class='flag-5'>仓库</b>人车定位系统的优选之解

    Simcenter STAR-CCM+在燃烧学方面的应用:提供了可以高效、高保真进行燃烧仿真的迅速而可扩展的化学求解器

    优势使用快速、可扩展的化学求解器在更短时间内运行更多解决方案采用新型自动反应器网络方法,为燃烧室设计提供快速、精确的排放曲线确保高效、可扩展的求解器充分利用计算资源使用模型特定的反应流
    的头像 发表于 06-27 17:11 1009次阅读
    Simcenter STAR-CCM+在燃烧学方面的应用:提供了<b class='flag-5'>一</b><b class='flag-5'>个</b><b class='flag-5'>可以</b>高效、高保真进行燃烧仿真的迅速而可<b class='flag-5'>扩展</b>的化学求解器

    动态BGP与静态BGP的区别?

    :明确指定对等体,排错方便 不支持自动发现:每一个邻居都要手动添加 安全性较高:无动态邻居加入风险 扩展性差:当对等关系变多,配置工作繁琐 2.3 示例配置(Cisco 风格)bash 复制编辑
    发表于 06-24 06:57