2345技术员联盟

神秘失踪的硬盘

  • 来源:未知 原创
  • 时间:2018-05-27
  • 阅读:
  • 本文标签:

      一块硬盘告警,处于“只读”状态…什么?管理员又告知,硬盘神秘失踪了!硬盘,去哪儿了?悲催的故事还在上演,请继续往下看…这家公司目前一共有3套DIY的开源的软件定义存储(以下简称SDS)在同时运行,3个节点/5个节点/25个节点各一套,3节点和5节点的SDS均是采用利旧的服务器,为开发测试平台提供服务。25节点的SDS中有一半是利旧的服务器,一半是新购的服务器,为OA、影音文件管理等平台服务。SDS软件是我公司运维人员安装部署的。


    最初出现问题的是5节点的那套,业务系统在使用过程中,监控提示错误信息,经诊断,是一个节点上的一块硬盘告警,硬盘处于只读状态,虽然SDS的多节点容错架构并没有影响应用的正常运行,但硬盘是数据的根本,一定要找到是什么原因造成的。就在大家开会讨论对策和诊断方案的时候,管理员又告知,在SDS下的这块硬盘不见了。。。神秘失踪?赶紧报修硬盘,800迅速介入,收日志,检查系统错误,没坏啊,硬盘好好的闪烁着绿灯,奇怪了,硬盘去哪了?排查了架构里每一个环节,居然都显示正常,但硬盘就是不见了......最终万般无奈的情况下,重新启动了一下这个节点,居然回来了,硬盘又识别到了。


     故事似乎真的还在继续,就在我们还在思考这个问题的根源所在时,25节点的集群居然真的出现了类似问题,先是一块硬盘只读,还没等到重启接连第二块硬盘也告警,在SDS集群里两个硬盘神秘消失。这可不是那5个节点的测试系统了,由于OA运行在这套SDS集群上,公司内部流程没办法通过系统造成,各个部门的人都跳出来让运维部门尽快解决问题。于是我们想按照之前成功的办法试着尝试重启节点,但问题比我们想象的还严重,重启后不但SAS盘没找到,作为缓存的SSD其中有2块也不见了。这着实惊到了客户,马上开Case让原厂后台介入,查找问题所在。但问题又来了,这套SDS系统是客户自己搭建的,服务的真没有。


     此时,秉着对客户负责的心态,Dell EMC通过内部资源,找来各路SDS的大牛们,积极帮客户找到问题所在,避免后期使用再出现问题。经过各路高人的诊断,我们发现了一个有趣的问题,出现问题的SAS盘和SSD盘都是后期用户自己购买添加的,他们磁盘类型在SDS的兼容表里,而其Firmware版本却不在,而原来第一次部署的各个节点的磁盘Firmware是和SDS完全匹配的,所以也没出现这样的问题。经历了这样一个惨痛的经历,我们已经意识到,虽然开源的DIY SDS采用节点集群作为容错,但整体架构还是有安全隐患的。于是经过讨论后,我们放弃原全部开源的想法,重新考量了Dell EMC公司推荐的全商用的VxRail超融合架构和半开源半商用的vSphere+VSAN方式,最终选择了vSphere+VSAN+RP4VM+存储的解决方案,具体如下图所示。


    方案特点1:虚拟机方式,部署快速、简单专为虚拟化环境设计,与vCenter无缝集成;录像一样记录VM IO变化;VM任意时间点恢复;一致性组保证应用一致性;存储无关、网络无关;支持同步和异步保护;支持本地和远程容灾。方案特点2:通过vCenter Plug-In在vSphere Web Client界面管理。搭建完毕后,我们在这套系统上做了大量的实践演练,通过CDP刻录机一样的恢复颗粒度,能够找到最近的时间点,并且在灾备的SCv3000上可以直接启动虚拟机,业务也可以成功切换到存储上,几乎没有数据的损失。总结,无论是开源还是商用的SDS,其兼容性要求都很高,部署前需要检查各种硬件的型号和Firmware(包含磁盘、1Gb网卡、10Gb网卡、Raid卡等),如果不经过严格的兼容测试,会有很多意想不到问题出现。所以客户如果想使用SDS来承载关键业务,建议选择由各大厂家提供的各种超融合或融合架构,并且通过有效的保护方式进行灾备。


本文来自电脑技术网www.it892.com),转载本文请注明来源.
本文链接:http://www.it892.com/content/maintenance/rigid_disk/2018/0527/97114.html

推荐阅读
无觅相关文章插件,快速提升流量