大数据架构系列:如何理解湖仓一体

前言

这十多年大数据技术蓬勃发展,从市场的表现来看基于大数据的数据存储和计算是非常有价值的,其中以云数据仓库为主打业务的公司Snowflake市值最高(截止当前449亿美元),另一家以湖仓一体为方向公司Databricks估值或达380亿美元;各大伺机而动的云厂商也纷纷推出自己的数据湖、云数据仓库、湖仓一体产品。

大数据领域概念(术语)还是非常多的,大多数时候都是先射箭再画靶,先有的需求大家搞了一段时间,然后由一些权威人士提出一些概念(术语)用于描述,所以不能严格用数学的定义方式去框定这些概念(术语)的边界;且很多时候一个术语“形象”比“准确”更易传播,形象意味着易懂,准确意味着信息量巨大(参考数学定义)。建议可以从需求的角度去切入理解这些大数据概念和技术,不要过于追求准确的定义。

无论是数据湖还是数据仓库最后还是面向于解决用户的问题,用户要的其实是数据里的信息,依赖于湖和仓的数据摄取、存储、计算能力主要是因为海量多元的数据,如果用户数据小业务简单完全可以用本地Excel导入数据进行各种有效分析。以下讨论数据湖、数据仓库、湖仓一体都是基于用户的数据是海量且复杂多元的。

阿里云 EMR + Sarrocks

华为云 湖仓一体

字节跳动 基于Doris的湖仓一体探索

字节跳动-火山引擎 湖仓一体云服务

bilibili 湖仓一体架构

Google BigLake

Amazon Lake House

Azure Lake House

SnowFlake Data Lake

总结

当前湖仓一体主要面向于解决用户数据量特别大且多元化的场景,仓的作用在于提速,湖的作用在支持海量的数据并发写入和海量存储;且设计者希望尽量降低架构的复杂度,提高效率。

以下个人评估,仅供参考:

  1. SnowFlake在分析型数据场景下基本上就是天生的湖仓一体,优势巨大。
  2. Doris/Starrocks的架构也会往Snowflake方向改进,潜力满满。
  3. 基于Spark/Presto的湖仓一体,查询的效率会低于上述两种,但是可以作为补足上述的部分场景。

欢迎交流。

参考

1 多角度解析:数据湖 VS 数据仓库的根本区别。链接

2 深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案。链接

3 2万字详解数据湖:概念、特征、架构与案例。链接

4 详解数据湖,概念、特征、架构、方案、场景以及建湖全过程。链接

5 4万字全面掌握数据库、数据仓库、数据集市、数据湖、数据中台。链接

6 大数据发展20年,“仓湖一体”是终局?链接

7 B站基于Iceberg的湖仓一体架构实践。链接

8 亚马逊湖仓一体。链接

9 构建切实有效的湖仓一体架构。 链接

本站文章资源均来源自网络,除非特别声明,否则均不代表站方观点,并仅供查阅,不作为任何参考依据!
如有侵权请及时跟我们联系,本站将及时删除!
如遇版权问题,请查看 本站版权声明
THE END
分享
二维码
海报
大数据架构系列:如何理解湖仓一体
这十多年大数据技术蓬勃发展,从市场的表现来看基于大数据的数据存储和计算是非常有价值的,其中以云数据仓库为主打业务的公司Snowflake市值最高(截止当前449...
<<上一篇
下一篇>>