VSAN故障恢复
今天对VSAN的稳定性又深入了解了一层,这东西真是坑啊。简单描述经过:
峰会前IDC巡检,将部分孤立物理机断电。怀疑因电压不稳导致一台集群主机假死(主机一切正常,心跳、网络,后来判断出来的,表现为无法远程或者本地登陆,所有虚拟主机磁盘为只读,VC中一片红,HA全部故障,快照失效)。折腾6个小时恢复,步骤如下:
1.所有主机假死主机检查无坏盘无密集IO,重启
2.20分钟后VC检测到空间恢复,查看vsan日志开始有虚拟机飘移。VC基本半死,卡顿严重
3.2小时后vsan正常,VC挂掉,硬盘超过1T的虚拟机全部出现磁盘故障,无法启动,fsck失败。
4.VClient找到VC的宿主机,内存溢出。关机升配启动,20分钟后开始关闭全部故障虚机
5.关键步骤来了,vc中清除所有故障机,从vsan中单台添加,强制刷新配置;启动后fsck全部yes重启。如不行重复本步骤。
总的来说,vsan可能在某些层面上物美价廉。但是vsan的稳定性连单机虚拟化都比不上,我这还用的厚置备。各位老大有条件还是上物理存储吧。
以上,Clove
20180607,夜
分享到: | |
没有评论