如何让超融合集群变得更加安全可靠(上篇)

大家好啊,依旧是我——小堂,今天继续来给大家分享我和我的小伙伴日常的运维生活。本期简单说一下如何将超融合所涵盖的故障源全部建设完成,让集群变得更系统运维工作内容加安全可靠。

超融合集群故障源

说明

以下四层囊括了整服务器个超融合集群从0到1的所有过程,以下说明会大体介绍超融合集群其他和其它的区别有可能产生的风险。

本文介绍了如何从:基础设施层、传输层、网络层、应用层(环境、集群、用户)其他垃圾的角度去提高集群的可靠性、安全性以及稳定性,规避或减少风险的发生,风险发生之后如何快速恢复。

|‐‐‐‐‐应用层
|‐‐‐‐‐系统层
|‐‐‐‐‐传输层
|‐‐‐‐‐基础设施层

1、基础设施层

1.1、设备

物理服务器
交换机
配件

1.2、故障场景模拟

集群存储池磁盘损坏,导致云桌面使用终端
机房断电导致集群服务器断电关机,集群业务中断
集群节点故障导致部分云桌面使用中断
集群角色机负载高故障导致集群业务中断
集群交换机损坏/故障导致业务中断
集群单CPU损坏导致业务中断

1.3、如何对潜在的故障风险进行规避

1.3.1、集群存储池磁盘损坏,导致云桌面使用终端

1.磁盘做raid10,提高磁盘冗余度到:200%,即使损坏一个盘,另外一个磁盘也能接替现有的磁盘业务继续正常运行使用。


2.采用双存储池的方式,存储池冗余:200%,避免出现存储池故障导致业务中断无法恢复
2.1按照100台云桌面计算,并发故障的恢复时间大约1小时即可


2.2双存储池结构为:
2.2.1 CEPH存储池(2/3副本)+LVM存储池(2副本)‐‐‐>高冗余保证集群数据的可靠性
2.2.2 CEPH存储池(2/3副本)+存储备份池(2副本)‐‐‐>高冗余保证集群数据的可靠性

1.3.2、机房断电导致集群服务器服务器租用断电关机,集群业务中断

1.机房建立一个不停电的供电系统——机房UPS不间断电源
1.1机房UPS要求
(1)由于最初负载小,后期运行有可会扩容。必须有冗余设计,并且扩容时不允许负载断电。
(2)能配合发电机,作为供电或配电的故障冗错配置,保障供电顺畅。
(3)某台UPS发生故障时,该故障UPS的电池能转接给其余正常工作的UPS使用,以保障所投资电池的使用率及享有充足的放电时间。
(4)对所有UPS不间断电源所使用的电池,有防漏液侦测的告警功能,以免引起火灾事故。
(5)对地震、火灾等紧急事故能提供远端或近端的遥控快速关机功能,以避免在紧急事故中发生更严重的损失。
(2)机房发电机


1.2机房发电机要求
(1)能够保证整个机房以及超融合的集群设备持续运行几小时(≤12H)

1.3.3、集群节服务器系统点故障导致部分云桌面使用中断

1.集群节点数量满足(N+1),实现集群HA的高可用         
故障节点运行云桌面自动漂移至备用节点运行,保证业务的持续可用性


2.集群节点空闲资源(内存)满足≥n/1,实现故障节点云桌面手动迁移启动
举例:集群3个节点,每个节点可用内存为500G(减去系统保留内存),既总内存为:1500G,空闲资源需达到:1500/3=500G。平均每节点空闲内存为:≈ 166.6G
每个节点所使用内存为:333G,当其中一个节点异常中断后,其节点上的运行云桌面所需要资源333G可平均分布在另外两个节点上,333/2≈166.5G ≤ 166.6G,满足迁移所需资源。

1.3.4、集群角色机负载高故障导致集群业务中其他货币资金包括哪些内容

1、业务机与角色机隔离
|‐‐‐‐>(1)保障业务节点持续低负载
|‐‐‐‐>(2)保障业务节点运行环境持续良好
|‐‐‐‐>(3)保障业务节点的持续可用性达到99.999%
节点分布:
(1) API Server节点 * 1
(2) 业务节点 * N (N ≥ 1)


2、角色机要求:
(1)配置‐‐‐‐‐>低配
(2)只运行‐‐‐>角色机

1.3.5、集群交换机损坏导致业务中断

1.交换机堆叠(支持冗余度:200% ,即使其中一个交换机节点故障,也不会中断集群的业务)     
实现流量倍增、负载均衡


2.要求:
交换机需支持IStack堆叠技术
根据后期可能扩展的业务量选择堆叠交换机(默认建议:使用万兆端口堆叠(24口万兆))

1.3.6、集群单CPU损坏导致业务中断

1、采用多CPU架构(提高CPU冗余度N*100%; CPU数量≥N≥2)
单CPU故障影响:
可用核心数减半
CPU负载上升一倍
可能存在云桌面使用卡顿现象


2、应当尽快寻找空闲时间停机跟换损坏CPU

2、传输层

2.1、传输介质

2.2、故障场系统运维工资一般多少景模拟

1、传输线路故障导致集群业务中断
2、传输尾纤故障导致集群业务中断

2.3、如何对潜在的故障风险进行规避

2.3.1、传输线路故障导致集群业务中断

交换机堆叠 + Link Aggregation多链路聚合
实现原理
(1)交换机堆叠,支持冗余度达到:200%(交换机单点故障不影响集群使用)
单点故障影响:
网络带宽下降一半
传输速度下降一半
交换机负载上升1倍


(2)Link Aggregation多链路聚合
说明:超融合集群目前为双链路动态聚合,冗余:200%
优点:
带宽倍增
负载均衡


单链路故障影响:
传输速率下降一半
链路负载上升1倍
高吞吐量的集群存在触发网络瓶颈的风险

2.3.2、服务器怎么搭建传输尾纤故障导致集群业务中断

1、交换机端口汇聚【双尾纤汇聚,冗余:200%】
实现原理
多端口绑定形成一个逻辑上的物理接口(目前超融合集群使用2个端口绑定做汇聚)


2、备用尾纤(故障后快速恢复)

3、网络

3.1、网络传输故障

3.2、故障场景模拟

网络单点故障导致集群业务中断

3.3、如何对潜在的故障风险进行规避

3.3.1、网络单点故障导致集群业务中断

内网专线传输与公网传输QoS混用【实现专线故障后自动切换公网连接(故障恢复时间在1Min内)】
实现工具:
(1)内网传输专用线路
(2)公网传输备用线路
(3)DNS服务(承载:服务器/普通PC)
(4)域名
(5)静态公网IP


实现原理:
(1)配置域名
(2)域名绑定专线+公网,设置网络优先级,优先通过专线网络,专线网络故障,自动切换公网线路


要求:
(1)需要超融合集群做路由
(2)公网作为临时备用线路,(切换后)对带宽有一定的要求
(3)节点服务器与角色机均需要配置公网IP
(4)需要购买域名+DNS服务

4、应用层

4.1、虚拟机操作系统服务器怎么搭建崩坏其他垃圾

4.2、故障场景模拟

1、驱动异常导致虚拟机操作系统崩坏
2、误安装非法软件导致虚拟机操作系统崩坏
3、机房断电导致虚拟机操作系统崩坏

4.3、如何对潜在的故障风险进行规避

4.3.1、虚拟机操作系统崩坏

1、磁盘快照
实现原理:
使用云桌面自带的快照功能,对云桌面进行定期快照,防止云桌面异常无法恢复


2、系统盘自动还原
实现原理:
云桌面开关机自动还原系统盘,数据存放数据盘

小结:

将以上所有的故障源都覆盖修正,能够让集群变得更加安全可靠。