VSAN故障恢复  

今天对VSAN的稳定性又深入了解了一层,这东西真是坑啊。简单描述经过:

峰会前IDC巡检,将部分孤立物理机断电。怀疑因电压不稳导致一台集群主机假死(主机一切正常,心跳、网络,后来判断出来的,表现为无法远程或者本地登陆,所有虚拟主机磁盘为只读,VC中一片红,HA全部故障,快照失效)。折腾6个小时恢复,步骤如下:

1.所有主机假死主机检查无坏盘无密集IO,重启

2.20分钟后VC检测到空间恢复,查看vsan日志开始有虚拟机飘移。VC基本半死,卡顿严重

3.2小时后vsan正常,VC挂掉,硬盘超过1T的虚拟机全部出现磁盘故障,无法启动,fsck失败。

4.VClient找到VC的宿主机,内存溢出。关机升配启动,20分钟后开始关闭全部故障虚机

5.关键步骤来了,vc中清除所有故障机,从vsan中单台添加,强制刷新配置;启动后fsck全部yes重启。如不行重复本步骤。

总的来说,vsan可能在某些层面上物美价廉。但是vsan的稳定性连单机虚拟化都比不上,我这还用的厚置备。各位老大有条件还是上物理存储吧。

 

以上,Clove

20180607,夜

欢迎大佬支持本博客的发展 -- Donate --

本文链接:VSAN故障恢复

转载声明:本站文章若无特别说明,皆为原创,转载请注明来源:三十岁,谢谢!^^


分享到:          
  1. 没有评论

  1. 没有通告