文档说明
使用范围
- 读者对象:运维工程师
- 适用版本:V1.0.1
修订记录
| 文档版本 | 修订日期 | 修订内容 |
|---|---|---|
| 01 | 待定 | 第一次正式发布。 |
注意事项
1.任何有关重启Redis Pod的操作需要谨慎处理,此操作可能会导致内存缓存数据丢失。
2.任何涉及更新Redis实例的操作(扩容、更新配置参数、更新实例规格等),都有中断用户在线业务或降低QPS的可能性,需要与用户协商维护窗口,维护窗口时间一般在30分钟以内。
常规运维
本章节主要介绍该云产品的一些常规运维操作。
部署非负载均衡型实例
适用场景
1.用户未采购、不使用负载均衡产品或使用第三方负载均衡产品。
2.ECNF解决方案下,不采用kubernetes容器服务作为底层容器集群。
操作步骤
1.安装缓存服务Redis云产品时,在导入云产品许可处,导入非负载均衡实例的云产品许可。
2.缓存服务Redis云产品安装完成后,进行正常的集群绑定和创建实例操作,此时,实例将通过nodePort对外提供服务。
单机版实例扩容
适用场景
1.现有单机版实例。
2.单机版实例通过纵向扩容内存、CPU已无法满足需求,需要横向扩展。
前提条件
1.容器集群处于健康状态。
2.Redis实例处于运行中状态
操作步骤
1.在“实例管理”页面中,勾选待操作实例后,单击 内部迁移 ,进入“内部迁移”页面。
2.配置目标实例的架构类型为集群版,创建目标实例。
3.待目标实例创建完成,数据迁移完成后后,确认目标实例可以正常访问,且数据未丢失。
4.按需对目标实例进行正常集群架构实例扩容操作。
5.确认数据无误且运行状态正常后,删除原单机版实例。
故障诊断
本章节主要介绍该云产品的一些常见故障及对应处理方案。
配置更新出错
现象描述
配置更新出错,实例处于更新失败状态。
问题定位
由于操作不当,配置了错误的参数,导致Redis实例无法处于运行中状态,此时用户业务有可能被中断。
问题原因
由于不当操作进行了错误的参数配置,部分参数无法在当前的Redis实例中应用。
解决方案
1.在实例配置更新页面将错误配置的参数找出,并调整为正常值或还原默认配置。
2.点击保存按钮,完成Redis实例更新操作,等待数分钟后,若配置无误,等待数分钟后,实例将处于运行中状态。
实例创建、更新超时
现象描述
创建实例、更新实例规格后,长时间(2小时)无法达到运行中状态。
问题原因
由于底层容器平台资源不足,无法支撑对应规格的实例。
解决方案
1.创建过程超时后,删除实例重新创建,创建时,实例规格需小于底层容器集群实际的规格。
2.更新实例规格超时后,重新进行实例规格调整,降低实例规格至底层容器集群可承载范围。
外部迁移失败
现象描述
进行外部公有云实例或自建Redis实例迁移时,迁移检查失败或迁移过程中失败。
问题原因
源实例与平台网络存在阻塞,平台服务无法与源实例建立连接。
解决方案
1.对于自建Redis实例,迁移时需要确保源实例存在FIP或其他三层地址,保障云平台控制面和EKS业务面同时能够访问。
2.对于外部公有云实例,迁移时需要保障平台控制面以及所绑定容器集群可以访问外网。