基于云技术的数据仓库给数据科学带来的优势

基于云技术的数据仓库给数据科学带来的优势

基于云端的数据科学和分析是现代大数据的典范。由于不断增加的存储和处理地球上数据量的成本和要求,出现了用于数据科学和分析的云存储和处理。在这种情况下,云的弹性、成本效益、安全性和物理位置是最基本的要求。由于从传统的本地数据仓库过渡到现代基于云端的替代方案的日益普遍,数据科学和分析的总体实施方式发生了巨大的变化。

由于地球上不断增加的数据量,可扩展存储和处理的必要性大大增加。维护此架构的成本来自与运行此重要架构相关的庞大数量、处理能力、安全性和人力资源。对于努力通过传统方式控制其数据的企业来说,一个有吸引力的选择逐渐出现–将这种财务责任“推卸”给这些服务的专业提供商。这种情况,或者类似的情况,导致了云技术的兴起!云技术的常见定义是根据外部软件,存储即服务 (SaaS) 或硬件,通常由互联网通过 TCP/IP进行访问。

Photo by Michael & Diane Weidner on Unsplash

Inmon 将数据仓库描述为“面向主题的、集成的、随时间变化的、非易失性的数据集合,主要用于组织决策的制定”。总而言之,数据仓库是在企业生命周期中纵向收集的业务数据的中央存储库,数据仓库做出的分析可以为未来的业务决策提供信息以及衡量先前决策的影响。

数据仓库的规模和复杂性随着业务的发展在不断的增加。这种增长意味着有效运行数据仓库所需的系统资源会随着时间的推移而增加。数据仓库的核心是存储、处理、内存和输入输出能力。这些核心分别包含在以下更高级别的分类中:软件要求、安全要求和硬件要求。

一个存储引擎、一个规范化和处理引擎是一个成功的数据仓库在软件方面必不可少的内容。存储引擎提供原始数据本身的接口。一般来说,这是关系数据库管理系统的工作。但是,如果我们使用面向对象的数据库或半结构化的替代方案(如文档存储)则略有转变。同时,数据仓库的规则引擎部分负责处理数据的转换。规则引擎通常为日常任务提供设计模板,当与 DataVault 2.0 等现代仓储实践相结合时,规则引擎则可以实现高度自动化、元数据驱动的 ETL 流程。

在取决于特定业务的细分市场和法律含义时,数据仓库的安全性要求可能会变得复杂。尽管如此,数据仓库的安全要求仍然可以简化为安全模型的总体概念。 安全模型需要有一定的复杂程度去允许对所有业务分支进行适当级别的访问,同时不会停止日常任务所需的访问。数据仓库的这一部分通常很复杂。 由于不同软件提供访问的方式在各种存储引擎之间不断变化,数据仓库的这一部分必须在设计时从最开始考虑到最后。由于逻辑模型中生成物理模型通常高度依赖软件技术,所以这个一般为设计过程中受安全模型影响最大的点。

数据仓库的硬件需求高度依赖于业务:然而,所有公司的共同观点是认为这一要求会随着时间的推移而改变。从长远来看,随着更多数据的添加,增加处理和存储要求增多,这种需求通常会呈上升趋势。 从更尖锐的角度来看,数据仓库受益于硬件性能和容量的弹性扩展。因为在ETL 进程在运行时会消耗大量的处理和存储能力,但是当它们处于空闲状态时,这种大量的需求则会大大减少。

云技术这个术语通常用于描述运行大规模仓库规模数据中心的公司的产品。这些公司通过将服务器群的一部分出售给个体企业来提供存储、处理能力和安全性。通过有效地整理对该基础设施的多种业务的需求,这些公司获得了利润。在处理基于云技术的系统时,因为云服务提供商处理这些决策和复杂性,硬件要求被排除在外。

除此之外,因为企业有效地将自身数据的大部分分包给了云提供商,企业的管理安全团队和架构/运营团队的开销也随之而减少;因为提供商处理故障转移和正常运行时间本身的保险,租用云技术的企业可以有效地租用硬件。基于云技术的服务提供商支持越来越多的数据库和数据处理服务。因为当数据仓库托管在云中时,数据的进入和退出以及提取、转换和加载 (ETL) 过程的方式存在显著的差异,所以这些要求各有利弊。

弹性是确保系统资源可以独立无缝扩展,而不影响数据可用性或性能的能力。云计算的这一特性使其成为数据仓库和分析/数据科学工作负载的主要核心。弹性处理和内存扩展的能力允许应用程序在短时间内利用增加的资源来克服短暂但密集的工作负载,从而避免了企业不必一直通过增加的硬件数量来维持运行。磁盘空间的弹性扩展意味着公司可以避免直接购买该硬件的同时并临时租用这些非永久性暂存区的磁盘空间,并在 ETL 过程结束时释放它们。弹性扩展不仅降低了购买此硬件的初始成本,同时还降低了企业用于保持这些驱动器始终运行的电力成本。

同时,将存储和处理转移到外部会给业务带来新的问题。这些新的问题包括更改数据治理计划并允许将数据存储在外部,通过互联网而不是本地服务器访问数据相关的延迟,以及员工对所需流程和培训的改变的抵制。分析和数据科学同时也直接或间接的受到这些问题的影响。如我们上面所提到的,虽然围绕治理计划和访问存在着直接的影响,但是,在与数据处理和存储中采用云技术的其他问题相比,云技术同时支持最杰出的数据科学堆栈。在今天的分享中,我们讲重点聊聊关于基于云技术的数据仓库给分析和数据科学带来的好处。

托管在云端中的数据仓库通常具有非常快的企业就绪流程并且可以直接连入互联网。当加载已经托管在互联网上的数据集时,这需要通常需要非常庞大的的吞吐量。但是,这也会损害一些拥有较差的LAN 到 WAN 传输速度的企业,导致这些企业在把大型数据集从公司本地存储、通过互联网加载到其云托管数据仓库中时出现问题。

作为初始设置或迁移到云数据仓库的一部分,这个 LAN 到 WAN 速度问题最为明显且重要。这通常称为批量迁移或批量加载阶段。一旦数据仓库在云端中运行,企业就可以更加广泛地传送更少量的数据。这样标准业务部分受 到LAN 到 WAN 速度问题的影响要轻微的多。

Talend 认为,从根本上讲,以下是企业希望将数据仓库和分析/数据科学堆栈迁移到云的原因。首先是企业的总成本降低了,因为他们不需要直接购买所需的硬件,也不需要在整个时间内租用最大数量的处理能力。云计算解决方案提供的弹性使公司能够节省这笔支出,但可以通过弹性扩展资源以匹配工作负载,同时企业可以在使用增加的功率时只为他们需要的东西付费。

这种无缝扩展和降低总体成本的能力使企业能够利用同等预算购买更高的性能水平。整体处理能力的提高使企业在整体经济的特定部门中具有更具成本效益和竞争优势。新数据集市的启动以及暂存区的便利性都允许企业进行更高级得开发和测试实践,并且通过自动化和封装为业务提供更快的开发迭代,最终再次增加他们在市场上的优势。

将数据托管在云端中还可以改善对数据的访问,云供应商拥有庞大的专门团队来处理安全问题,这也比企业试图将他们的数据与公共互联网连接所需要在企业内部雇佣安全团队更便宜。同时,这也意味着企业可以更轻松地访问他们的数据。

基于云端的数据仓库是数据科学和分析在云端数据中移动的重要推动因素。将云端中的数据科学/分析堆栈与数据仓库处理管道得存储放在一起是一个必然的前景。以云数据仓库如何影响数据科学和现代分析的举一个例子。目前云数据仓储领域的领头羊是Snowflake。Snowflake 提供真实的云数据仓库体验,弹性计算能力和存储。除此之外,Snowflake 还集成了直接托管在其数据仓库产品中的数据科学和分析工具。

如之前所提到的,在云中托管分析和数据仓库可以快速、直接地访问通过数据科学实践获得的报告和知识。这些能力,包括从任何地方访问这些发现公司内外得数据,帮助企业获得竞争优势。除了访问汇总以外,在云中托管数据仓库和包含的数据集市还可以快速无缝地深入分析来自世界任何地方的原始底层的数据。

基于云端的数据仓库对数据科学和分析产生了深远的影响。在云中托管虚拟数据仓库以及现代分析堆栈的能力已成为近年来数据科学最重要的转变之一。如果你想了解更多关于数据科学的相关内容,可以阅读以下这些文章:
职场转型与进阶:多年非Data相关工作经验,如何转行数据科学家?
数据科学在供应链分析的6个经典应用
微软首席数据科学家告诉我们,数据科学学位的价值
数据科学家最容易被面试的问题:偏差和方差!

正如包括同时得到 Smoot、Ren、Lindstedt 和 Zulkernine 等研究人员的证实, 以及Talend 和 Gartner 在内的公司所解释的那样,易用性、弹性扩展、增强的安全性、物理位置以及总体成本的降低是基于云端的数据仓库如何影响分析和数据科学得关键。新兴的数据科学和分析堆栈通常是从头开始设计,以支持云端硬件上的弹性扩展和部署,从而在物理上与云数据仓库所接近,并为云数据仓库增长趋势提供帮助以及好处。

感谢你的阅读。你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Patrick Coffey
翻译作者:Peter
美工编辑:过儿
校对审稿:Miya
原文链接:https://towardsdatascience.com/the-impact-of-cloud-based-data-warehousing-eff1cadcf6f2