0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

作为一个快速简便的数据仓库,Snowflake可以动态扩展

存储D1net 来源:lq 2019-09-22 09:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作为一个快速简便的数据仓库,Snowflake可以动态扩展,以便在企业需要时为其提供所需的性能。

数据仓库,也称为企业数据仓库(EDW),是用于分析的高度并行的SQL或NoSQL数据库。它们允许企业从多个源导入数据,并从数PB的数据中快速生成复杂的报告。

数据仓库和数据集市之间的区别在于,数据集市通常仅限于单个主题和单个部门。数据仓库和数据湖之间的区别在于数据湖以其自然格式(通常是blob或文件)存储数据,而数据仓库将数据存储为数据库。

Snowflake简介

Snowflake是一个完全关联的ANSI SQL数据仓库,它是从头开始为云计算而构建的。它的架构将计算与存储分开,这样即使在查询运行时,用户也可以在不延迟或中断的情况下动态地扩展。当用户需要的时候,就能得到其所需要的性能,而且只需要为其所使用的计算资源支付费用。Snowflake目前运行在亚马逊网络服务和微软Azure云平台上。

Snowflake是一个具有矢量化执行的全列数据库,使它能够处理最苛刻的分析工作负载。Snowflake的自适应优化可以确保查询自动获得最佳性能,而无需管理索引、分发键或优化参数。

Snowflake凭借其独特的多集群共享数据架构可以支持无限制的并发性。这允许多个计算集群在同一数据上同时运行,而不会降低性能。Snowflake甚至可以自动扩展以通过其多集群虚拟仓库功能处理不同的并发需求,在峰值负载期间透明地添加计算资源,并在负载减少时缩小规模。

Snowflake的竞争对手

Snowflake在云端的竞争对手包括Amazon Redshif、Google BigQuery和Microsoft Azure SQL数据仓库。其他主要竞争对手,如Teradata、Oracle Exadata,MarkLogic和SAP BW/4HANA,可以安装在云端、内部部署和设备上。

Amazon Redshift

Amazon Redshift是一个快速可扩展的数据仓库,可让用户分析数据仓库和Amazon S3数据湖中的所有数据。用户使用SQL查询Redshift。Redshift数据仓库是一个可以使用并发查询负载自动部署和删除容量的集群。但是,所有集群节点都在同一可用区中进行配置。

Microsoft Azure SQL数据仓库

Microsoft Azure SQL数据仓库是一个基于云计算的数据仓库,它使用Microsoft SQL引擎和MPP(大规模并行处理)快速运行跨PB数据的复杂查询。通过使用简单的PolyBase T-SQL查询将大数据导入SQL数据仓库,然后使用大规模并行处理(MPP)的强大功能运行高性能分析,用户可以将Azure SQL数据仓库用作大数据解决方案的关键组件。

Azure SQL数据仓库在全球40个Azure云区域中可用,但给定的仓库服务器仅存在于单个云区域中。用户可以按需扩展数据仓库性能,但任何正在运行的查询都将被取消并回滚。

Google BigQuery

Google BigQuery是一个无服务器,高度可扩展且经济高效的云计算数据仓库,内置GIS查询、内置BI引擎和内置的机器学习功能。BigQuery可以快速运行数PB的SQL查询,并且可以直接加入公共或包含数据的商业数据集。

用户只能在创建时设置BigQuery数据集的地理位置。查询中引用的所有表必须存储在同一位置的数据集中。这也适用于外部数据集和存储桶。外部Google Cloud Bigtable数据的位置还有其他限制。在默认情况下,查询与数据在同一区域中运行。

其运行的地点可以是特定的地方,如弗吉尼亚州北部,也可以是更大的地理区域,如欧盟或美国。要将BigQuery数据集从一个区域移动到另一个区域,用户必须将其导出到与数据集位于同一位置的Google云存储桶,将存储桶复制到新位置,然后将其加载到新位置的BigQuery中。

Snowflake架构

Snowflake使用虚拟计算实例来满足其计算需求,并使用存储服务来持久存储数据。 Snowflake无法在私有云基础设施(内部部署或托管)上运行。

没有要执行的安装,也没有配置。所有维护和调整均由Snowflake处理。

Snowflake使用中央数据存储库来存储可从数据仓库中的所有计算节点访问的持久数据。同时,Snowflake使用大规模并行处理(MPP)计算集群处理查询,其中集群中的每个节点在本地存储整个数据集的一部分。

当数据加载到Snowflake中时,Snowflake会将该数据重新组织为其内部压缩的列式格式。内部数据对象只能通过SQL查询访问。用户可以通过其Web UI、CLI(SnowSQL),来自Tableau等应用程序的ODBC和JDBC驱动程序,通过编程语言的本机连接器以及BI和ETL工具的第三方连接器连接到Snowflake。

Snowflake架构图。需要注意,虚拟仓库的CPU资源可以独立于数据库存储进行扩展。

Snowflake功能

安全和数据保护。Snowflake提供的安全功能因版本而异。甚至标准版也提供所有数据的自动加密功能,并支持多因素身份验证和单点登录。企业版增加了加密数据的定期重新密钥,企业版增加了对HIPAA和PCI DSS的支持。用户可以选择数据的存储位置,这有助于符合欧盟GDPR法规。

标准和扩展SQL支持。Snowflake支持SQL:1999中定义的大多数DDL和DML,以及事务,一些高级SQL功能以及SQL:2003分析扩展(窗口函数和分组集)的部分内容。它还支持横向和物化视图、聚合函数、存储过程和用户定义的函数。

工具和接口。值得注意的是,Snowflake允许用户从GUI或命令行控制虚拟仓库。这包括创建、调整大小(零停机时间)、暂停和删除仓库。在查询运行时调整仓库大小非常方便,尤其是当用户需要加速花费太多时间的查询时。然而,任何其他EDW软件都没有实现。

连接Snowflake具有Python、Spark、Node.js、Go、.Net、JDBC、ODBC和dplyr-snowflakedb的连接器和/或驱动程序,这是在GitHub上维护的开源dplyr包扩展。

数据导入和导出。Snowflake可以加载各种数据和文件格式。那包括压缩文件;分隔数据文件;JSON、Avro、ORC、Parquet和XML格式;Amazon S3数据源;本地文件。它可以批量加载和卸载表格,以及从文件中连续批量加载。

数据共享。Snowflake支持与其他Snowflake帐户安全地共享数据。通过使用零拷贝表克隆简化了这一过程。

Snowflake的价格因版本和地点而异。其功能因版本而异,VPS实例目前仅在AWS上可用。

Snowflake教程

Snowflake提供了不少教程和视频。一些教程帮助用户入门,一些教程探索特定主题,还有一些可以演示功能。

建议用户完成《Snowflake免费试用实践实验室指南》中描述的实践。这应该足以导入一些真实数据,并测试一些查询。

这个教程大量使用Snowflake工作表,这是在Web UI中运行命令和SQL的便捷方式。除其他外,其中包括数据加载、查询、结果缓存和克隆、半结构化数据以及恢复数据库对象的时间旅行。

实践教程中的Snowflake工作表(右上角)。模式信息位于左上角,查询结果位于左下角,带有时序的查询历史记录位于右下角。

总的来说,发现Snowflake令人印象深刻。原以为它会很笨重,但事实并非如此。实际上,它的许多数据仓库操作都比人们预期的要快得多,当有一个数据仓库似乎在缓步前行时,可以在不中断正在发生的事情的情况下进行干预,并增加数据仓库的大小。

Snowflake数据仓库配置对话框。有各种各样的大小,有几种选项可以自动进行集群扩展。

大部分扩展都可以自动化。在创建数据仓库时(参见上面的屏幕截图),可以选择允许多个集群,设置扩展策略的选项、自动挂起的选项,以及自动恢复选项。默认的自动挂起时间为10分钟,这使得数据仓库在空闲时间超过该时间时不会消耗资源。自动恢复几乎是即时的,只要对数据仓库进行查询就会发生。

考虑到Snowflake提供30天的免费试用期,有400美元的信用额度,而且不需要安装任何软件,用户应该能够确定Snowflake是否适合其目的,而无需任何现金支出。

费用:2美元/信用额外加上23美元/TB/月的存储空间,并且存储空间需要预付费。一个信用额度等于一个节点*小时,按秒计费。更高级别的计划成本更加昂贵。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7315

    浏览量

    94004
  • 数据集
    +关注

    关注

    4

    文章

    1232

    浏览量

    26055

原文标题:Snowflake将成为在云中变得更好的数据仓库

文章出处:【微信号:D1Net11,微信公众号:存储D1net】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Next Pathway成为Snowflake最高级别合作伙伴

    的持续投入。 Next Pathway始终展现出卓越的专业能力,以无可匹敌的效率帮助全球客户将复杂的数据仓库数据湖迁移至Snowflake AI数据云平台。“精英级”地位特别认可
    的头像 发表于 12-04 18:08 913次阅读
    Next Pathway成为<b class='flag-5'>Snowflake</b>最高级别合作伙伴

    【室内定位】仓库管理可以有多智能?UWB模组高精度定位

    UWB 模组(BU 系列),仓库可以真正实现—— 托盘可视化、AGV 精准调度、人员安全协同、货位全流程监控 。 仓库为什么必须要 UWB?(痛点很真实) 仓储现场变量太多:托盘堆高、货架金属多、叉车高速穿梭、AGV 来回调度
    的头像 发表于 12-03 09:56 154次阅读
    【室内定位】<b class='flag-5'>仓库</b>管理<b class='flag-5'>可以</b>有多智能?UWB模组高精度定位

    rfid仓储方案在仓库管理中如何应用

    在现代仓储管理领域,传统人工管理模式易出现盘点效率低、物料追踪难、信息滞后等问题,而rfid仓储方案的出现,为仓库管理带来了革命性的变革。作为高度自动化、智能化的无人值守仓库管理解决方案,rfid
    的头像 发表于 10-23 15:13 244次阅读
    rfid仓储方案在<b class='flag-5'>仓库</b>管理中如何应用

    仓库人车定位系统的优选之解

    在当代仓储物流的运作体系里,仓库管理的高效性与安全性占据着核心地位。而人车定位系统作为提升仓库管理效能的重要技术支撑,正逐渐成为行业聚焦的重点。新锐科创蓝牙+LoRa人车定位系统,借助其独特的技术
    的头像 发表于 07-04 16:54 394次阅读
    <b class='flag-5'>仓库</b>人车定位系统的优选之解

    Simcenter STAR-CCM+在燃烧学方面的应用:提供了可以高效、高保真进行燃烧仿真的迅速而可扩展的化学求解器

    优势使用快速、可扩展的化学求解器在更短时间内运行更多解决方案采用新型自动反应器网络方法,为燃烧室设计提供快速、精确的排放曲线确保高效、可扩展的求解器充分利用计算资源使用模型特定的反应流
    的头像 发表于 06-27 17:11 545次阅读
    Simcenter STAR-CCM+在燃烧学方面的应用:提供了<b class='flag-5'>一</b><b class='flag-5'>个</b><b class='flag-5'>可以</b>高效、高保真进行燃烧仿真的迅速而可<b class='flag-5'>扩展</b>的化学求解器

    动态BGP与静态BGP的区别?

    :明确指定对等体,排错方便 不支持自动发现:每一个邻居都要手动添加 安全性较高:无动态邻居加入风险 扩展性差:当对等关系变多,配置工作繁琐 2.3 示例配置(Cisco 风格)bash 复制编辑
    发表于 06-24 06:57

    Helm仓库管理常用配置

    Helm 仓库(Repository)是存储 Helm 图表(Chart)的地方,类似于软件包管理器的仓库(如 apt、yum 仓库)。
    的头像 发表于 06-07 09:27 1011次阅读

    IBM收购Hakkoda Inc.,扩展数据专业能力以推动客户的AI转型

    能力,帮助客户准备好数据以推动 AI 驱动的业务运营。 Hakkoda 在数据资产迁移、现代化和变现方面拥有领先的能力,并且是屡获殊荣的 Snowflake 合作伙伴。此次收购增强了 IBM 满足
    的头像 发表于 04-08 19:32 918次阅读

    通过Java和MCP创建Git AI仓库助手

    随着人工智能技术的快速发展,开发者工具也在不断进化。Gitee 作为国内领先的代码托管平台,现已推出 MCP (Model Control Protocol) 功能,让开发者能够通过 AI 助手更高效地管理代码仓库
    的头像 发表于 03-19 10:12 1260次阅读

    如何使用Java语言快速开发套智慧工地系统(源码)

    使用Java语言快速开发套智慧工地系统,可以遵循以下步骤和策略: 1、确定系统架构 微服务架构:采用Spring Cloud构建微服务,每个服务负责
    的头像 发表于 01-09 17:39 1026次阅读

    HarmonyOS Next 应用元服务开发-应用接续动态配置迁移快速启动目标应用

    快速启动目标应用,默认情况下,发起迁移后不会立即拉起对端的目标应用,而是等待迁移数据从源端传输到对端后才会拉起应用。若应用希望在用户发起接续后立即被拉起,减少等待时间,提升体验,可以
    发表于 12-31 09:58

    扩展您的串口设备 EU104数据转发芯片可独立设置通讯速率和参数 将1UART接口扩展为4

    扩展您的串口设备 EU104数据转发芯片可独立设置通讯速率和参数 将1UART接口扩展为4 EU104是
    的头像 发表于 12-23 11:27 764次阅读

    戴尔数据湖仓助力企业数字化转型

    在数字化转型的浪潮下,企业正面临着前所未有的数据挑战。从传统的结构化数据到如今的非结构化数据、半结构化数据,每种类型都对企业的存储和分析能
    的头像 发表于 12-20 09:31 777次阅读

    医药仓库温湿度监控系统应用

    医药仓库作为药品储存的主要场所,其环境条件的控制直接影响到药品的质量和疗效,以保持其稳定性和有效性。因此,建立高效、可靠的医药仓库温湿度
    的头像 发表于 12-17 16:16 1046次阅读

    可与MES系统集成的数据采集监控平台

    ,确保数据的全面接入。 数据存储与管理: 采用数据库或数据仓库存储采集到的数据。 提供高效的数据
    发表于 12-16 15:08