记一次腾讯云ES集群缩容降配的全过程

一、客户需求:

某外部大客户购买了腾讯云ES集群,因自身资源评估,需要进行集群降配。该集群包含数据节点、专用主节点,都需要进行缩容。

二、缩容前提:

因为集群缩容是有一定安全风险的,因此,在进行集群缩容前,我们需要对用户腾讯云控制台登录主账号<主UIN>进行开白

<包含内外部用户>;

缩容除了要开白以外,还需要一些特定的服务器要求,检查ES服务器状态是否正常。

不能缩容超过一半规格,比如从16核64G降低到8核32G以下的规格是不允许的!!!!

三、缩容原则:

先往集群中添加需要缩容的等额的新的节点,然后再将原始数据搬迁到新的节点上,然后再下掉原先的节点,这样来完成缩容。无论是缩节点配置,还是缩磁盘都遵循该逻辑。

四、缩容过程:

第一步,确定用户集群缩容的完整信息,信息如下:

主UIN:XXXXXXX
地域: 北京四区
资源需求:
主节点     2c8G       //这些是要准备的降级的新资源
数据节点   4c16G
磁盘       SSD 5000G   

第二步: 进一步确定集群降配的资源是否充足,包括CVM、CBS资源的判定。

这个需要平台服务人员根据各链接信息提供精准的判断。

通过判断,我们确定该区域 CVM资源充足,但是CBS磁盘资源不够,于是需要协调cbs侧同学开白放开部分资源限制。

第三步:以上操作完成后,通知用户控制台进行集群变配操作,结果如下,无法选择变配资源:

大概是说,不支持该降配操作。难道是之前的主UIN没开白生效成功,再次确认,果然问题出在这里。没开白成功。再次操作后,通知用户再次操作缩容。再次报错,报错如下:

分析是该用户的集群磁盘使用率过高,缩容前的安全检查没通过。故而报错。于是通知用户清理集群空间后让用户再次操作。

清理完磁盘后,让用户再次控制台操作缩容,流程正常执行,数据节点缩容成功。

第四步: 缩容主节点,再次报错

继续调取RequestID ,继续进行缩容失败原因分析,如下:

大概的意思是不能一次缩容超过一半的配置。

客户的主节点配置原来是8c16G ,他要降到2C8G,不能一次降超过原有节点的一半配置,因此,需要先降级到4C16G,然后再降级到2C8G。那么这样,主节点也终于缩容成功,流程至此闭环,问题解决。

五、总结

这次缩容的过程比较久,问题出现的比较多。因此,特地花点时间梳理整个过程,希望能帮助到有需要的同学们。

本站文章资源均来源自网络,除非特别声明,否则均不代表站方观点,并仅供查阅,不作为任何参考依据!
如有侵权请及时跟我们联系,本站将及时删除!
如遇版权问题,请查看 本站版权声明
THE END
分享
二维码
海报
记一次腾讯云ES集群缩容降配的全过程
某外部大客户购买了腾讯云ES集群,因自身资源评估,需要进行集群降配。该集群包含数据节点、专用主节点,都需要进行缩容。
<<上一篇
下一篇>>