EasyStack易捷行云开启超融合下半场的七把钥匙之二:神奇自愈

Posted on 2019年03月14日

衡量一个信息系统是否先进易用,不仅依靠于其健康状态下日常使用所带给用户高效流畅的直观感受,在于系统具备良好的故障抗性,也就是我们所说的可靠性。而EasyStack易捷行云推出的超融合产品ECS Stack 全新的维度领域提供了解决方案---神奇的系统自愈。

 

 1.png

图1:ECS Stack超融合产品架构


不同于以往的服务器、网络、存储三层IT架构,原有三层架构遇到系统故障时只能依靠硬件内部的冗余架构和软件的冗余化体系设计一旦故障突破了冗余极限,由于系统不具备自我感知能力,只能通过既有策略笨拙应对,表现出来的现象就是业务系统性能大幅下降,甚至业务系统不可用、数据丢失,需要投入大量的人力和资源进行系统的恢复。传统超融合系统利用集群的软件特性,多副本的保护机制在一定程度上提高系统的冗余极限,在一定程度上降低故障对业务连续性的冲击


但是,伴随超融合承载业务的关键性提升,使得保障系统实时处于健康稳定运行状态必要性大幅度提升,传统超融合依然无法实现故障容错后的平台自动修复和恢复。具体原因如下


1传统超融合无法在软件层面实现与硬件故障联动

2传统超融合无法实现硬件故障修复后的软件自行恢复配置

3传统超融合对于非硬件故障造成的系统问题无法解决


当前,逐渐成熟的容器及微服务编排调度技术和日趋完善的自动化脚本处理机制使得系统自愈成为可能。结合容器及微服务编排调度技术以及EasyStack易捷行云多年云平台系统建设和维护的经验脚本化自动化ECS Stack打造了最新一代微服务化平台架构,搭建了系统的自愈引擎,针对用户对数据中心常见的系统故障,建立了持续更新的自愈知识库,并将建立故障事件网格,一旦系统通过监控中心实时检测到相应故障,即可触发自愈知识库中对应的故障应急措施,自愈引擎将通过事件网格从多个维度验证识别的故障情况,实现故障的精准定位,进一步触发自愈动作,识别故障事件,在线自愈一系列系统动作


下面分别针对3个传统超融合的局限性场景进行自愈技术的解读

 

首先是软件层面实现与硬件故障联动问题


传统超融合针对于硬件的故障仅仅局限于硬件故障的识别,系统出现的故障定义为硬件故障,并触发相关的冗余保护机制。比如我们常见的硬盘物理故障可能分为慢盘、小规模的坏道、大面积的坏块。传统超融合出现慢盘的初期,并不能实现一个良好的应对,整个系统出现性能下降,故障点硬盘负载异常的情况随着慢盘持续的高负载最终会发展成坏块坏道,这传统超融合才会判定硬盘故障并直接进行坏盘的重建


ECS Stack超融合的智能自愈系统深度的检测系统的硬件状态,根据历史状态进行智能判定,在识别到相关的现象时,针对于系统慢盘,比对知识库,通过整个系统的负载情况来初步判定其可能存在故障问题,并在监控界面用户提供手动隔离的处理建议。如果用户一定阶段不进行相关的处理动作,则会预测该盘可能出现故障,出现监测到其离线后,迅速判定物理硬盘已经故障,进一步实现数据重建,从而实现系统软件和硬件故障的联动。

2.png
图2:ECS Stack超融合硬件故障告警功能

 

其次是出现硬件故障修复后的软件自行恢复配置


传统超融合系统在遭受硬件故障系统更换新的硬件时,需要重新执行系统的灌装、硬盘的重新识别分配等操作一方面相关操作的执行需要很高的技术水平另一方面执行带来的误操作容易对本身已经降级的系统造成二次影响

ECS Stack超融合的自愈知识库会自识别更换的节点、硬盘硬件,根据原有硬件的相关策略自动执行系统灌装、策略设置,实现硬件故障后的系统自行恢复减少人为操作系统运行的干扰最大限度保障系统的可靠性。

 3.png

图3:ECS Stack超融合修复硬盘自动配置功能

 

最后是对于系统非硬件故障的判定和解决。


比如我们常见的网络系统波动,传统超融合将自动定义出现波动的网卡为状态异常,并利用其它的网卡代替其作用,若相关的网络通讯皆不可访问,则自动进行节点的重建。而一旦过多节点同时出现此类现象将导致整个平台的崩溃。

 4.png

图4:ECS Stack超融合网络波动智能自愈模块

 

   ECS Stack超融合的智能自愈系统深度检测系统的硬件状态及关键服务(数据库、消息队列、计算、存储、网络等)根据历史数据传输状态进行智能判定,在识别到相关的现象时,不会仅仅判定为硬件的故障,而是会自动重启相关的微服务单元重启网卡,毫秒(ms)级实现故障的自愈,实现非硬件故障的解决


关于ECS Stack

EasyStack易捷行云推出的超融合一体机ECS Stack,已成功服务于中关村银行、上海证券信息、江苏交易场所登记结算中心、兰州环境能源交易中心、上海杉达学院、中国林科院、福州第一医院、可口可乐、山东重工集团财务有限公司、正广和、中铁一局、临沂市兰山区人民法院、潍坊市潍城区人民法院、泰安市云计算中心、宜兴农委等上百家行业头部客户,覆盖金融、教育、医疗、制造、交通和政府等行业。

 案例墙.png


关于 EasyStack


EasyStack 自成立以来已为国家电网、人民银行、邮储银行、建设银行、交通银行、中国银联、中国移动、中国电信、海通证券、国泰君安、光大证券、平安证券、兴业数金、江苏农信、TCL、海尔、顺丰、百世汇通、上汽乘用车、宇通客车、可口可乐、清华大学、中经社、天河云等超过500家企业级客户提供云产品和服务,涵盖金融、电信、政府、能源、交通、制造、教育、医疗等各大行业。


公司荣誉最新版1903.png

如果您想咨询产品方案和报价,请拨打产品销售热线:400-648-5123


Posted in 产品技术 Tagged 超融合产品,ECS Stack,最新动态