数据已成为全新的资产。通过挖掘出其中蕴藏的有价值信息,发现数据的规律,让它们“开口说话”,管理者就能够迅速做出理性和科学的决策,从而在激烈的市场竞争中占得先机。
在现代化应用的推动下,数据的价值正在被不断放大。就像是堆乐高积木一样,新的应用被迅速建立,需要注入来源不同的各种数据,假如继续沿用之前的理念,就势必少不了ETL的过程。
没有人能够否认,ETL是一份极其吃力不讨好的工作。
我们知道,现代化应用的特征之一,就是数据的不断复用。为此,企业和组织需要经常搬运与传输数据,以便在不同的模型和应用中加载,从而释放数据的多重价值。
当数据量并不是很大时,企业尚能勉强接受以上的繁复流程。然而,当数据量达到一定程度之后,这一过程就变得困难无比,而且需要消耗大量的资源和成本。
通常情况下,构建ETL会占用整个项目至少三分之一的时间,而对ETL的维护也同样不是一件轻省的工作,某些时候构建和维护ETL会占用到数据工程师70%的工作量。
是不是很惊人?更不要说,为了ETL的过程更加顺利,企业还需要考察和测试相应的ETL辅助工具,而这同样会占用企业的大量人力物力资源,以及不菲的预算。
显然,如果能有一种新的产品方案或者理念,极大地加速甚至是跳过ETL的过程,让数据就像水一样自由流动起来,那显然是所有数据驱动型企业的“福音”。
亚马逊云科技正在做的,就是这样的工作。实际上,早在几年前,亚马逊云科技就开始进行投入,并以Zero ETL的理念引导产品方案的研发与构建。
此前,其实也有公司试图进行类似的努力,譬如通过在云数据湖、数据仓库或数据湖里,来进行相应的提取、转换和加载动作,但是也和之前的辅助工具一样,并没有在本质上带来改变与提升。
通过持续不断的努力,亚马逊云科技希望真正引导客户迈向一个“Zero ETL的未来”,借助相关的Zero ETL方案,减少在不同服务之间手动迁移或转换数据的工作。
罗马不是一天建成的,“Zero ETL的未来”也同样不可能一蹴而就。不过,只要技术的理念和方向是正确的,那么无论道路是如何崎岖,跬步也终会千里。
本次re:Invent 2022的全球大会上,亚马逊云科技就迈出了Zero ETL的重要一步:通过两项全新的集成功能,客户可以连接和分析多地存储的数据,无需在不同服务间进行数据迁移。
首先是Amazon Aurora Zero-ETL与Amazon Redshift的集成,客户无需自定义数据通道,即可分析PB级的数据;然后是Amazon Redshift与Apache Spark的集成,让客户更加轻松地通过Apache Spark访问Amazon Redshift上的实时数据。
数据流通的最大敌人就是“孤岛”——无论是否有意为之。亚马逊云科技提供的新技术和新方案,使得平台之间的数据交换被极大简化,而且无需事先提取、转换与加载。
亚马逊云科技数据和机器学习副总裁Swami Sivasubramanian表示,“无论企业和数据的规模有多大,复杂度有多高,通过为客户消除ETL和其它数据迁移任务,我们将助力客户专注于分析数据,面向业务获取新的洞察。”
全球领先软件公司Adobe和方案商Infor,已经是亚马逊云科技Zero ETL产品方案的受益者:借由亚马逊云服务提供的新服务与新功能,业务团队无需自己进行日常维护,就能够通过动态数据得到更好的分析。
其实在数据的集成,也就是数据一体化方面,亚马逊云科技此前已经有一系列的集成工具,譬如Data Exchange、Athena联邦查询等,它们均有Zero ETL的理念在其中,可以直接查询Aurora的数据。
不过从存储架构上来说,这些均属于是异构的访问,因此在性能上就不可避免地会受到一定的影响。属于无服务器服务的Amazon Athena也是同理,它使用标准SQL分析Amazon S3的数据同样属于异构的访问——好处是客户不需要搬迁数据了。
正如我们在前文所说的,亚马逊云科技在Zero ETL方面的探索由来已久,譬如2017年发布的Amazon Redshift Spectrum与联邦查询即是一个经典的特性,无需数据移动,用户即可使用Spectrum来访问数据湖Amazon S3中的数据。
在最新的Zero ETL演进中,亚马逊云科技所做的主要工作之一,就是TP(事务处理)与AP(分析处理)的融合——这也是目前被公认的趋势与方向,即让TP与AP有很好的负载资源隔离,相互之间也不受彼此影响,应该说这种做法有着巨大的现实和经济意义。
我们知道,TP与AP的存储方式是不一样的。如果进行高频的交易,行存会优先于列存,因为行存可以去用索引的方式快速对某一行的数据进行修改;在进行批量数据分析的时候,列存又会优先于行存……
于是,部分厂商的做法就带有了几分“取巧”的意味在里面,他们采用了两套存储系统完成HTAP(混合事务/分析处理)。从性能上来看,这种做法没有问题,但是客户却需要为之付出两套存储的成本,而且这也完全背离了Zero ETL的初衷。
亚马逊云科技则坚定认为,一个产品不可能满足所有的需求,因此在迈向Zero ETL时,亚马逊云科技采用的是更多相关产品服务之间的“联动”。
譬如在本次大会发布的Amazon Aurora Zero ETL to Amazon Redshift中,亚马逊云科技支持将交易数据在写入 Amazon Aurora 后的几秒钟内就可以自动连续复制,使其在Amazon Redshift中即时可用,客户可以立即开始分析数据,并利用数据共享和Amazon Redshift ML等高级功能获得全面的预测性洞察。
这只是亚马逊云科技的一小步,却是Zero ETL领域的一大步。相信在接下来的时间里,我们会见证更多的产品方案发布,收获Zero ETL的美好未来。