槟榔

首页 » 常识 » 灌水 » 技术普及帖也来谈谈Fujitsu存储双活解决方案
TUhjnbcbe - 2020/8/9 11:02:00

技术普及帖:也来谈谈Fujitsu 存储双活解决方案


阿明荐文阿明昨天看到富士通官方微信号发了一篇文章,专门针对西瓜哥写富士通双活的技术普及帖,感觉内容不错,毕竟是官方做了一些针对性的解释和阐述。所以特别地将该文章和西瓜哥的文章一起推荐给亲们看看。前两天,《高端存储知识》的作者西瓜哥发表了一篇文章《原来富士通ETERNUS DX S3系列已经支持双活,但好像没有看到仲裁机制》,文中对ETERNUS DX S3系列StorageCluster(存储高可用)解决方案进行了相关的介绍和应用场景的分析。在这里要感谢西瓜哥对Fujitsu ETERNUS存储双活解决方案关注和技术普及,同时,我们也将对文中的一些理解偏差(姑且这么说吧)进行进一步的解释和阐述。问题一:Storage Cluster是否有仲裁机制?要回答这个问题,我们首先来看看Storage cluster解决方案架构图。这里仅简单说明一下:生产存储和备用存储之间使用FC链路,通过存储自带的远程复制技术实现LUN数据的实时同步复制,同时生产LUN和备份LUN都Mapping给前端业务主机。当生产存储出现故障时,将自动切换到备用存储上,由于生产存储和备用存储Mapping给前端主机的端口共享相同的一组逻辑WWPN/WWNN,所以对前端主机来说,后台只有一台存储,且切换是透明的,所以前端绝大多数应用是不会中断的。上图中的工作站Storage Cluster Controller就是存储双活解决方案中的仲裁者,它时刻监控着生产存储、备用存储的健康状态,当生产存储或者备用存储出现问题,它就开始执行Failover策略。这里需要说明的是Storage Cluster Controller并不是一个单独的软件,它只是一个后台服务进程,该服务进程集成在ETERNUSSF Storage Cruiser Agent软件中,需要单独准备一台工作站或者服务器安装ETERNUSSF Storage 管理套件。那Storage Cluster Controller什么时候干活呢?它如何干活呢?它干些什么事呢?那就进入第二个话题-Storage cluster 故障处理机制。问题二:Storage Cluster 故障处理机制在一个SAN环境中基本包含三类组件:主机、交换机、存储。StorageCluster不关心前端的主机和交换机故障,只关注存储故障。也就是说主机链路或者交换机故障,多路径软件负责链路的切换,跟后台存储没有一分钱关系。现分别介绍存储出现故障时,Storage Cluster Controller怎么来仲裁的?场景一:生产存储RAID故障存储阵列硬盘故障造成RAID降级或者数据丢失,这在存储中是最常见的。在StorageCluster环境中,这种处理优先级是最高的,也就是说,当RAID故障时,根本就不需要StorageCluster Controller参与仲裁,系统将自动触发Failover 操作,将业务切换到备用存储上。场景二:生产存储控制器故障在这里,控制器故障主要包括如下情形:控制器整体无法工作—offline状态、主机端口故障、缓存故障、BBU等故障。当然,出现这些故障的时候,存储一般会出现故障报警等信息,这时候,生产存储会发生自动Failover操作么?答案是否定的。这是由于这些故障并没有对整个存储造成大的影响,另外一个控制器还可以工作嘛。系统管理人员监测到存储控制器故障,可以执行ManualFailover操作,将生产切换到备用存储上。在这个场景中, Storage ClusterController会监测到这些信息,但不会自动执行任何操作。场景三:生产存储整体故障生产存储整体故障,通常情形是系统掉电。这种场景下,将由Storage Cluster Controller发起仲裁,系统自动执行Auto Failover策略,备用存储将生产接管过来。另外StorageCluster Controller也同时会记录生产存储、备用存储的状态信息,如果生产存储修复故障,StorageCluster Controller会再次执行Auto Failback策略,太任性,有没有。当然如果不想这么高大上,也可以选择ManualFailback。场景四:远程复制链路出现故障在这里还要讨论一种情形,生产和备用存储无故障,但是远程复制路径出现故障,Storage Cluster Controller会如何处理?StorageCluster Controller会监测到存储复制路径故障,但是不会执行任何仲裁或者操作策略。复制链路的故障处理由REC(Remote Equivalent Copy,Fujitsu 存储远程复制技术)来解决,当复制链路恢复,主备存储将自动进行增量数据同步,数据一致后,StorageCluster Controller会监测主备存储状态,重新回到可切换状态。FujitsuStorage Cluster解决方案优势:数据镜像是通过存储功能实现的,不需要特殊的卷管理软件,与前端主机无关:主机不需要安装Agent,不占用主机资源,与操作系统、应用类型、卷管理软件、多路径软件均无关;使用最成熟稳定的存储底层数据复制技术实现主备存储间数据同步。不改变系统架构,不增加新的故障源,扩容“零”成本:主机直接到存储,不需要串联关设备,一次性功能收费,与容量无关。各型号间跨级互备,无需对等型号,减少投入成本:如生产存储是中高端存储,承载多种类型的多个业务,备用存储采用中低端存储,保证生产存储的部分核心应用实现互备;全闪存阵列也可实现高可用:支持全闪存阵列直接高可用,同时也支持全闪存阵列与传统阵列间高可用,如核心应用部署在全闪存阵列,同时由主生产存储来做互备。自动存储分层技术同样适用于Storage Cluster:主备存储除实现数据同步外,备用存储还能自动识别生产存储的自动分层信息,同步分层策略及性能监控数据。富士通ETERNUS存储研发生产已经有三十多年了,Storage Cluster的软件功能是原有功能结合客户实际需求水到渠成之作。这项技术基于原有阵列的底层容灾技术RemoteEquivalent Copy (REC)之上做的增强与优化,实现了自动切换与应用不中断技术是富士通在其原有阵列的底层容灾技术RemoteEquivalent Copy (REC)之上做的增强与优化,实现了自动切换与应用不中断技术是富士通在其原有阵列的底层容灾技术RemoteEquivalent Copy (REC)之上做的增强与优化,实现了自动切换与应用不中断。西瓜哥的原文如下:原来富士通ETERNUS DX S3系列已经支持双活,但好像没有看到仲裁机制今天,西瓜哥才了解到,原来富士通的DX S3平台已经支持阵列的双活的。我们今天就花点时间了解一下。首先,这个双活的功能,富士通叫Storage Cluster Option,也就是存储集群选项。存储集群目前只支持富士通最新的ETERNUS DX S3硬件平台,因此,其高端存储DX8700 S2不支持。估计今年富士通高端存储也会升级到S3新平台,这样富士通可能成为第二个或者第三个(和华为拼时间)支持双活功能的高端存储。目前,这个集群只支持FC链路,需要2台ENTERNUS DX S3的阵列,2台博科的FC交换机,必须采用ENTERNUS SF管理软件来进行管理,而且需要购买专业服务。富士通说其存储集群可以实现透明的切换,支持自动或者手动切换,对称配置保证两边都可以访问,使用简单,支持同机房部署,也支持校园或者同城部署,最大支持100KM距离。其实集群原理很简单,就是两台阵列采用富士通的同步复制技术来进行数据同步,有一个存储集群控制器(上面安装ENTERNUS SF管理软件)来负责监控集群和控制集群的切换。富士通声称,切换的时间最大不超过10秒,也就是业务最多中断10秒钟,如果应用不是并行应用的话。这个就是ENTERNUS SF管理软件的界面,可以选择手动切换。存储集群支持两种应用场景,一是阵列故障的时候,保证业务不中断。另外一种就是双活的数据中心,整个主站点故障也不影响业务。如果再看懂其设计原理图,需要了解一些基本的概念,如TFOV,TFO组,CA端口组等。切换的原理富士通说得很清楚,就是CA端口组共享WWPN/WWNN。就像我们通常理解的IP集群一样,两个卡共享同一个IP地址(浮动地址),当主卡出现问题,浮动IP从主卡飘到从卡,主机因为是通过IP地址访问,因此除了出现短暂的中断外,业务没有受到影响。而WWNN就类似浮动IP地址。但从富士通的文档,西瓜哥没有看到仲裁机制的设计,这个和HDS VSP G1000不同。富士通没有要求在第三站点设置仲裁设备。估计和富士通定位比较低端有关,因为这样部署的成本比较低。但如果系统发生脑裂,没有第三站点的仲裁判断可能会出现误判,因此西瓜哥不建议在核心系统应用这种方案。富士通用DX S3平台推出一款全闪存阵列ENTERNUS DX200F,因此,这也是个支持双活的全闪存阵列。我们通过DX200F的集群规格来看看具体的功能。我们看到,存储集群也可以支持RAID组故障,但主机路径阻塞,系统是不会切换的。猜想:富士通的存储集群,从原理来看,和国内某厂商的原理非常类似,都没有采用第三方站点设备仲裁。另外,考虑这两个厂商在虚拟化关方面和杭州的信核科技(Infocore)有合作,西瓜哥有点怀疑这两个厂商的双活实现是否采用了某些Infocore的技术。不过,纯粹猜想而已,原理并不复杂,实现基本功能很简单,但要做得可靠稳定,还是需要下很多功夫的,特别是各种情况的异常处理方面。EMC的XtremIO要实现双活,需要加VPLEX,而富士通用DX200F就可以搞定了。存储的双活,从高端到中端,甚至全闪存阵列,看来都是一个趋势。阿明自媒体微信公众号:chinastor

1
查看完整版本: 技术普及帖也来谈谈Fujitsu存储双活解决方案