kubernetes 降本增效标准指南| 容器化计算资源利用率现象剖析

引言

降本增效从云计算发展至今一直都是企业上云最核心的关注点,无论是在线业务还是大数据、AI业务,都非常依赖算力的消耗,成本问题都是企业上云进行决策的核心因素。

从云计算本身来看,单纯把业务从 IDC 搬迁上云不修改任何业务架构,提高计算资源利用率需要非常大的运维成本和人力成本投入到改造业务适配弹性伸缩和业务可调度性中。随着云原生技术的普及和推广,容器和 kubernetes 等技术能够天然的与业务、基础设施结合,简化资源管理、感知业务类型、自动弹性扩容和调度。

为帮助企业在使用云原生技术时,更好的实现降本增效,腾讯云容器团队推出《kubernetes 降本增效标准指南》系列,包括且不限于基于成熟度模型提供资源利用率提升建议、多维度弹性资源使用建议、智能负载推荐提升精确度、腾讯云云原生成本管理指导手册等,与此同时也将推出系列助力容器化降低成本的能力套件,如容器成本组成视图、成本预测评估工具、成本监控工具、成本定时报告等,以及配套的智能负载值推荐、成本感知调度、竞价实例回收动态控制器等,敬请期待。

本文中,腾讯云容器团队抽样调研了已授权的企业客户,对资源使用情况进行了一次真实的数据分析,以实际的行业数据介绍容器化对资源利用率的可提升空间。

资源利用率数据剖析

本次调研抽样了1000+已授权的企业客户和个人客户的数据,其中企业客户750, 个人开发者250+,统计节点数超5W+。

IDC的计算资源冗余,平均利用率低至10%

IDC 数据中心由于缺少弹性能力,为保证业务应对突发请求等情况,普遍资源会存在冗余,资源使用率低。

首先我们来看看全球数据中心的利用率。麦肯锡的一份研究报告表示1,企业管理者在考虑稳定性及提高可用性的同时,也应该将新的业务重点放在遏制效率低下和成本上升的问题上。调研结果显示,许多数据中心的服务器多达30%的功能是“失效”的,而服务器的平均每日利用率不到3%;而在整个数据中心,服务器的平均每日利用率通常最高仅为6%。以上数据表明,数据中心的服务器成本及资源消耗方面会给企业造成巨大的“浪费”。

第一阶段:传统部署模型, 业务为应对不同时间段计算资源使用不同的情况,必须以最高使用资源的峰值加一定的 buff 进行基础设施的采购,平均利用率降低。

第二阶段:简单容器化改造后的业务,上云并容器化改造,利用了容器进行业务混合部署,一定程度提高了资源利用率。

第三阶段:业务进行微服务改造,业务可利用容器和云的弹性伸缩能力,结合 Kubernetes 的HPA、VPA、CA 等能力,高峰扩容、空闲缩容,极大提高资源利用率。

第四阶段:极致利用云和容器化后的弹性, 提高弹性伸缩灵敏度和精度, 有离线业务的进行在离线混布,极致提高平均资源利用率。

后续

本文通过实际企业业务数据来诠释容器化跟计算资源利用率的现状和基本原理,为助力后续企业使用云原生技术进行业务降本增效,腾讯云容器团队将推出系列的《kubernetes降本增效标准指南》,包括但不限于资源利用率提升建议、多维度弹性资源使用建议、智能负载推荐提升精确度、腾讯云云原生成本管理指导手册等。与此同时也将计划推出系列的助力容器化降本成本的能力套件,如容器成本组成视图、成本预测评估工具、成本监控工具、成本定时报告等,以及配套的智能负载值推荐、成本感知调度、竞价实例回收动态控制器等。敬请期待。

特别鸣谢

感谢以下客户对本次报告提供真实数据支撑。

作业帮,致力于为全国中小学生提供全学科的学习辅导服务,累计用户设备安装突破8亿,月活用户约1.7亿,是中小学在线教育领军品牌。

作业帮于2020年4-5月份将部分业务逐渐接入腾讯云容器服务TKE,涉及数千业务应用,数十万计算核数,极具规模化和复杂度,除却稳定性和效率之外,作业帮对成本也表示了高度关注。我们以资源利用率作为切入点。

  • 高峰时段的流量是平时峰段的20倍,是低峰时段(凌晨到5点左右)的上百倍,且流量上升曲线较陡。

因此,作业帮对于资源弹性调度的能力要求很高,在这种应用场景下,TKE为其提供了弹性伸缩的整体解决方案,利用HPA根据设置阈值调整pod副本数,与CA联动控制节点数,以保障在高并发时业务仍以良好的性能运行。同时配合离在线混部、共享GPU等解决方案,容器化之后节点平均CPU利用率从10%提升到30%,成本下降40%,接口响应提升10%。

快看漫画,漫画行业领先APP,当前漫画市场份额占有率超50%以上,APP总用户量超过2亿,MAU超4000万。公司于2019年12月份开始接入容器服务TKE,到目前为止,近千个服务里90%的应用在容器中运行。快看漫画容器化之前,由于需要应对活动、假期、热门作品等多个场景,业务流量具备突发性和周期性,因此核心业务要有数倍容量的冗余,资源无法最大化利用,还需手动扩缩容,人工干预较高。

TKE针对此类场景提供了服务分级,优化Request资源;扩缩能力,HPA,定时扩缩;离线任务,业务波谷时执行等产品能力,容器化之后资源使用率提升30%,成本下降超40%。

云集,主打社交驱动的会员电商平台,为电商平台会员提供美妆个护、手机数码、母婴玩具、水果生鲜等多品类的商品选择。于2019年年底接入TKE,目前常用应用已基本完成容器化。云集反馈,容器化之前,机器的平均CPU利用率在高峰期都不会超过10%,浪费极其严重。容器化之后总体CPU使用率达到16.6%,成本节省超过50%。

本站文章资源均来源自网络,除非特别声明,否则均不代表站方观点,并仅供查阅,不作为任何参考依据!
如有侵权请及时跟我们联系,本站将及时删除!
如遇版权问题,请查看 本站版权声明
THE END
分享
二维码
海报
kubernetes 降本增效标准指南| 容器化计算资源利用率现象剖析
腾讯云容器团队对IDC、上云非容器化、容器化的计算资源利用情况进行了调研,结果显示容器化改造后资源利用率提升最高可达60%~70%,并提出容器化资源利用率成熟度...
<<上一篇
下一篇>>