GooseFS 在云端数据湖存储上的降本增效实践

| 导语 基于云端对象存储的大数据和数据湖存算分离场景已经被广泛铺开,计算节点的独立扩缩容极大地优化了系统的整体运行和维护成本,云端对象存储的无限容量与高吞吐也保证了计算任务的高效和稳定。然而,云端存算分离架构也面临数据本地性、网络吞吐与带宽成本等问题。因此,腾讯云对象存储研发团队进一步演进了近客户侧的加速存储系统 GooseFS 用以解决上述问题。本文将通过一个独特新颖的客户实践来着重介绍使用 GooseFS 对有大数据/数据湖业务平台的降本增效。

一、前言

GooseFS 是腾讯云对象存储团队面向下一代云原生数据湖场景推出的存储加速利器,提供与 HDFS 对标的 Hadoop Compatible FileSystem 接口实现,旨在解决存算分离架构下的云端大数据/数据湖平台所面临的查询性能瓶颈和网络读写带宽成本等问题。使得基于腾讯云 COS/CHDFS 的大数据/数据湖平台在现有生产集群上获得等同甚至超越本地 HDFS 性能的计算体验。其设计应用场景如下:

GooseFS 实际会将 GooseFS Namespace 创建者 Principal 带给存储系统做身份认证,同时配合请求操作的 UFS 路径借助 Ranger 完成鉴权。

这里值得注意的是:

目前,GooseFS 还无法直接将客户端的身份信息直接带给 UFS 做认证和鉴权,因此,这里只能向下传入 Namespace 创建者的身份信息。那么这里是否就不能做访问和权限管控了呢?答案是否定。

针对于身份认证,我们针对客户实现了自定义 CustomAuthenticationProvider 对接到 UFS 上的 CustomAuthentication 模块。而针对 Ranger 鉴权,由于 UFS 的 Ranger Policy 的格式大不相同,因此当前只能定制 Policy 同步工具来做转换。在客户生产实践中,用户还是采用了单独配置 GooseFS Ranger Policy 的使用方式;

另外,GooseFS 也新版本中也提供了完整 Kerberos 标准认证机制,届时有需求的用户也可依赖于此完成身份认证。

五、总结

客户在采用了 GooseFS 加速 CHDFS 的方案后,在 Presto SQL 的数仓分析业务上提升了超过 46% 性能,Spark SQL ETL 的YARN memorySeconds 的资源消耗可缩减 5% ~ 8% 计算节点成本,同时由于 GooseFS 全程利用的是原有计算集群上空闲的 SSD 磁盘,而除去 Master 节点外,其余 Worker 节点的 CPU 和内存消耗量较低,因此,GooseFS 基本不会给客户带来额外的成本消耗,可以名副其实承担起大数据平台降本增效的利器。

六、未来工作

目前,GooseFS 还在不断地优化打磨中,在身份认证方式上将会拓展支持除 Kerberos 和自定义认证以外的更多标准认证方式,在海量元数据管理上将会不断地优化 Master 节点的内存消耗以及所能支撑的文件数目,同时还会完善缓存与 UFS 之间的数据生命周期管理策略,帮助客户更好地优化成本支出。

在数据湖批流一体场景下,GooseFS 会针对 Iceberg、Hudi 等格式做适配支持,同时还会探索更多的 Catalog 管理能力。

在文件系统语义支持上,会重点完善 POSIX 文件系统接口支持,支撑除 Hadoop 生态以外的更多业务场景。针对高性能计算业务,GooseFS 也会基于 Zero Copy 技术推出超高 IOPS 和极低数据访问延时的能力等。

作者简介:于飏

腾讯高级工程师

硕士毕业于西安电子科技大学,一直专注云端大数据存储相关技术的研发工作,Hadoop-COS(CosN文件系统)作者,GooseFS 核心 Founder,Hadoop,Alluxio 社区 Contributor。目前主要负责 GooseFS 的加速存储技术相关的研发工作。

本站文章资源均来源自网络,除非特别声明,否则均不代表站方观点,并仅供查阅,不作为任何参考依据!
如有侵权请及时跟我们联系,本站将及时删除!
如遇版权问题,请查看 本站版权声明
THE END
分享
二维码
海报
GooseFS 在云端数据湖存储上的降本增效实践
GooseFS 是腾讯云对象存储团队面向下一代云原生数据湖场景推出的存储加速利器,提供与 HDFS 对标的 Hadoop Compatible FileSyst...
<<上一篇
下一篇>>