【摘要】银行作为传统金融行业,其IT基础环境系统需具备开放、稳定、高效、灵活、安全的技术特点,某商业银行通过对集中式高端存储系统技术特点分析,结合实际需求场景选择一套华为OceanStor Dorado 18000系列高端全闪存储作为适合于银行承载数据服务的高端全闪存存储设备。通过对功能、性能、可靠性等方面进行测试,确定存储阵列是否能满足商业银行的关键业务环境需求,能否为金融业重要交易系统顺畅运营提供必要的存储支持,同时为后续金融业关键业务存储基础平台选型提供必要的参考数据。本文还结合实际应用介绍了对于华为OceanStor Dorado 18000系列高端全闪存储服务的运维实践经验。全文共分为三个部分:需求分析与选型思路篇、POC测试篇、运维经验篇。【作者】徐子晨,某商业银行存储工程师,主要负责存储、SAN网、云环境建设与维护的一线工作。
1 背景与意义
银行作为金融服务行业,服务必定是其考虑的重要因素,随着互联网技术的发展,银行通过互联网技术向客户提供开户、销户、查询、对账、行内转账、跨行转账、信贷、网上证券、投资理财等传统服务项目。核心系统与外围系统进行数据交换、系统内资金清算、内部账务处理、为分析数据平台准备数据、登记会计账簿、日结月结年结等,需要在批处理流程中制定。从技术层面出发,随着银行业的OLAP业务随着业务量的增长,批处理普遍存在处理时间窗口紧张的问题,选择一套能够提供更快的处理能力,大幅缩短批处理的处理时长,满足海量数据在时间窗口内完成处理响应更快,不卡顿,提升客户满意度的高端全闪存系统成为了现代银行业IT系统架构最迫切的技术需求。
2 选型思路框架
存储设备选型要从以下几个方面出发:
(1)需求方面:存储设备使用的场景,对接的应用系统种类对应存储服务的技术需求。
(2)产品选型方面:SAN与NAS的交付方式,统一式交付或独立分离式交付。
(3)网络方面:网络设计,组网规划。
(4)负载均衡:SAN和NAS的负载均衡策略。
(5)可靠性方面:数据、链路、硬件等可靠性。
(6)功能方面:跨协议访问、异构虚拟化、数据迁移、数据精简、数据缩减技术、分层存储。
(7)兼容性方面:兼容主流操作系统和虚拟化平台等。
针对上述需求发展和关联技术的变革对银行IT基础设施的设计和构建提出了更高的要求,要构建一个现代化的IT基础设计,选择一个合适的存储系统是最为关键的环节。
3 需求分析
3.1 存储需求
3.1.1 存储设备适用应用场景
关系型数据库:主业务数据存储,为事务型数据提供处理,用于应用系统的核心数据存储;
集中管理,并为数据存储设备发送基于块或文件存储的访问请求;
低延时业务系统:访问存储系统端到端的时延不超过1ms;
高可靠和高性能:高速缓存、数据持久化、架构冗余,主机多路径;
容灾:双活,同城,两地三中心;
IO密集型:磁盘读写频繁。
3.1.2 存储服务需求
3.1.3 对接存储应用需求
3.2 产品选型方面
3.2.1 交付方式
3.3 网络方面
3.3.1 网络设计
NAS平面:TCP/IP协议,与主机文件业务网络的数据通信,对外提供NFS、CIFS协议接口。
SAN平面:FC协议,连接主机HBA卡的数据通信,用于主机系统发送I/O请求和处理I/O请求。
管理平面:TCP/IP协议,与管理网络间的数据通信,对存储设备进行管理和维护;通过门户或Rest api以及DNS、AD和NTP等网络服务流量。
硬件平面:TCP/IP协议,接入硬件节点HMC接口,提供远程硬件设备管理功能。
数据复制平面:双活站点网络,同城容灾网络,TCP/IP协议或FC协议,提供同城灾备、跨站点双活网络间的数据复制通信,通常对网络时延的要求非常高;异地容灾网络,TCP/IP协议,提供异地容灾网络的数据复制通信。
3.3.2 组网规划
NAS组网:建议每个站点至少部署两套网络交换机,单机柜中每个控制器连接交换机至少配置2个上联端口,主机至少配置两块以太网卡分别连接两套网络交换机,采用10GbE及以上端口。建立专用的网络设备并规划独立的IP地址段供NAS存储服务使用,交换机段启用LACP端口绑定协议。
SAN组网:建议每个站点至少部署两套存储光纤交换机,单机柜中每个控制器连接交换机至少配置1个上联端口,主机至少配置两块HBA卡分别连接两套光纤交换机,采用16GbE及以上SFP光纤模块。如果存储设备有跨站点数据复制传输,则需根据复制链路需求部署对接同城的波分复用设备(DWDM)或异地远距离传输的专用支持FCIP功能的存储光纤交换机。
管理网络:接入专用管理网络,开通到监控、一体化运维等第三方管理平台纳管所对应的网络策略端口。
硬件管理网络:对接控制器工程师维护口,接入HMC管理网。
3.3.3 支持协议及服务端口
3.4 负载均衡
3.4.1 SAN负载均衡
相较于中低端存储系统,大多数厂商采用的是ALUA架构,在管理员划分LUN的同时,LUN是存在归属控制器概念的,由于使用业务的不同,例如Oracle的使用,表空间所占用的ASM磁盘组与数据归档所占用的磁盘组在时间段和IO压力方面是由明显区别的,所以要实现存储系统中每个控制器的负载均衡需要对LUN的归属进行较为细致的规划,即便这样不同业务系统不同时间段的压力,在实际情况下也难以保证每个控制器负载均衡。华为OceanStor Dorado 18000系列高端全闪存储的软件采用了早先高端存储成本较高的紧耦合控制器架构(Symmetric Active-Active),这样的控制器架构比现阶段市面上高端存储控制器虚拟化分布式架构从硬件方面给用户带来了较强的安全感。通过均衡算法,实现每个控制器接收到的主机读写请求是均衡的;通过全局缓存技术实现LUN无归属,每个控制器收到的读写请求,就在本控制器处理(而不像AULA存储需要转发到LUN归属控制器处理),实现了控制器压力均衡。
3.4.2 NAS负载均衡
对于传统的NAS存储系统,大部分主流设备文件服务机头一般采用主备架构,在创建文件系统时,文件系统归属于主活动机头,在发生存储设备硬件故障或网络问题时则切换至备用机头运行,这样的NAS架构,对于多控制器的存储系统来说,硬件资源的利用无疑存在浪费,无法利用多控制器来提高系统本身的性能。华为OceanStor Dorado 18000系列高端全闪存储的NAS采用分布式文件系统架构,文件系统没有归属控制器,通过均衡算法将文件系统的目录和文件均衡写入每个控制器,实现每个控制器接收到的主机读写请求是均衡的,使得1个文件系统也能将整个存储集群的资源充分利用。
3.5 可靠性方面
3.5.1 数据可靠性方面
传统RAID的存储系统中RAID组的成员盘是固定的几个物理盘,在进行存储容量使用划分中,由于系统对数据访问频度不同,就会导致RAID组中热点盘的形成,硬盘如果长期工作,它的故障率就会明显升高,长期负载不均会对存储系统的可靠性带来风险。华为OceanStor Dorado 18000系列高端全闪存储将每个SSD盘切分成固定大小的Chunk(简称CK,大小为4MB),将所有盘上Chunk按RAID冗余组成Chunk组,形成RAID2.0+,相对于传统RAID机制,RAID2.0+具备如下优势:
业务负载均衡,避免热点。数据打散到资源池内所有硬盘上,没有热点,硬盘负荷平均,避免个别盘因为承担更多的写操作而提前达到寿命的上限。
快速重构,缩小风险窗口。当硬盘故障时,故障盘上的有效数据会被重构到资源池内除故障盘外的所有盘上,实现了多对多的重构,速度快,大幅缩短数据处于非冗余状态的时间。
全盘参与重构。资源池内所有硬盘都会参与重构,每个盘的重构负载很低,重构过程对上层应用无影响。
在RAID2.0+的基础上以CK为单位配置RAID组,采用RAID-TP(EC-3算法,每个校验条带生成3个校验数据,支持同时坏3盘)支持存储系统存储池内最多3块硬盘同时故障数据不丢失。
3.5.2 硬件可靠性方面
存储设备部件满足冗余部署:多控制器、冗余电源、冗余风扇、冗余内部连线互联等。
支持缓存多副本技术,设置三副本模式可保证在多控制器情况下同时故障两个控制器写缓存数据不丢失。内置BBU模块(备电),当存储设备掉电后,利用供电模块各控制器内存中的缓存数据刷入到保险箱中保证数据不丢失。
在保证单盘本身的高可靠性同时,利用多盘冗余能力保证单盘故障损坏后的业务可用能力。通过算法及时发现单盘故障或是亚健康,及时隔离,避免长期影响业务,然后再利用冗余技术恢复故障盘数据,持续对外提供业务能力。
3.5.3 链路可靠性方面
存储系统对接主机的前端,连接硬盘的后端,以及控制器之间的通讯,均有链路/接口模块冗余保护。华为OceanStor Dorado 18000系列高端全闪存储每张前端共享接口模块与控制框内的每个控制器连接,针对FC协议,通过前端卡与主机建立连接,当控制器故障或是更换时,由于主机或前端卡连接未中断,因此不会导致重新建连。待剩下的控制器接管业务后,前端卡将重试I/O下发到接管控制器,保证业务连续性。
高冗余控制器的可靠性保护,缓存数据除在当前控制器存在外,还会选择另外一个控制器作为其副本,确保单控制器故障时,业务能切换到冗余的缓存副本归属控制器,保证业务连续性。
3.5.4 全互联架构
前端全互联:每个共享接口模块通过4条PCIE总线分别连接到4个控制器,主机能够通过连接共享接口模块的任一端口同时访问4个控制器。在使用共享接口模块情况下,只需要1条连线,主机便可与每个控制器建立物理链路。在控制器故障时实现主机对控制器故障不感知。
控制器全互联:每个控制器是一个独立可热插拔服务处理单元,可提供3对RDMA高速链路,通过连接到无源背板与其他控制器实现全交叉互连,与其他3个控制器全交叉连接,控制器之间的数据能够在不经过第三方中转的情况下实现一次 RDMA直达。
后端全互联:硬盘框采用双端口硬盘,实现硬盘的1+1的Active-Active的共享互联。
3.6 功能方面
3.6.1 跨协议互通
支持NFS/SMB 跨协议访问,文件系统建立后既能通过NFS共享服务又能通过CIFS共享服务,存储系统通过Multiprotocal Lock manager进行分布式锁管理,确保NFS/CIFS能互斥访问相同的文件,不会造成数据不一致或文件损坏。
3.6.2 异构虚拟化&数据迁移
支持异构存储 LUN 的接管,配合数据迁移可以实现异构存储的数据在线迁移,完成新老设备的更新换代和数据搬迁。通过LUN伪装技术,将华为OceanStor Dorado 18000系列高端全闪存储的待迁移LUN的WWN等关键信息设置成与异构存储系统上的LUN信息一致。待迁移LUN接入主机后,多路径软件会把新LUN与异构存储上已有的LUN识别为同一个LUN,但是,增加了访问的路径。然后将异构存储到主机链路移除,主机多路径就会进行链路切换,把链路切换到新LUN的路径,从而实现在线接管。
3.6.3 数据精简&数据缩减
以按需分配的方式来管理存储设备空间使用。将订阅的存储空间容量反馈给业务系统,实际用户看到的存储空间远大于系统实际分配的空间。用户对存储空间的使用实行按需分配的原则,对于空间容量扩容和缩减对于用户来说是完全透明的,这有利于采购流程较长但实际业务发展较快的业务系统容量管理。
数据缩减,对数据中的冗余信息进行处理来减小数据体积:
相似重删:依赖相似指纹识别数据的相识度,对相识度较高的设备进行重删编码的原理来实现。
数据压缩:数据通过压缩算法和数据压紧对元数据进行数据压缩。
以我行Vmware云底座实际使用为例,每台华为OceanStor Dorado 18000系列高端全闪存储存储订阅容量基本在300TB,通过数据精简压缩后实际落盘10TB左右,订阅比990%。
3.6.4 存储分层
存储分层功能是利用数据动态迁移功能实现冷热数据在不同介质上进行存储迁移,从而提高介质利用率,降低存储系统使用成本。主机优先写入性能层,保证数据实时访问性能,之后通过存储系统后台智能调度将访问频次较低的数据迁移至容量层。
3.7 兼容性方面
对业界主流的操作系统、虚拟化软件、集群软件、数据库软件、存储网关等具备良好可用的兼容能力。
4 结果分析
随着系统软硬件平台运维支持截止期的到来,行内存在大量面临EOS的业务系统,借此通过软件和硬件设备更新保证业务系统继续健壮稳定运行。在通过大量的环境验证工作后,确定将信贷系统和非零售内评系统的数据库环境作为华为OceanStor Dorado 18000系列高端全闪存储替代方案的目标业务系统,在准生产环境反复测试后发现,这两个系统的外围跑批时间从原来的小时级别变为20~30分钟级别,将近缩短了近5倍的时间,通过使用华为OceanStor Dorado 18000系列高端全闪存储持续优化软硬件系统,为我行核心批处理窗口时间缩短提供了有效的支持。
5 结论
根据上述研究表明,一体化的交付方式相较于硬件分离交付对于稳定性、兼容性、运维门槛都有较好的优势;在数据可靠性方面RAID2.0+底层打散,RAID-TP的3EC校验也是业界主流的数据保护方式;紧耦合的控制器架构带来直观的健壮性感受;SSD成本也日益低廉,NVMe技术日渐强大;参考当前主流厂商对象存储具备的相关企业级功能。随着华为多年在存储领域的摸爬滚打,华为OceanStor Dorado 18000系列高端全闪存储在金融业承载核心业务能力也给我们带来了极大的信心。通过对存储系统的需求分析,华为OceanStor Dorado 18000系列高端全闪存储系统对银行业IT基础设施能够实现有效支撑,因此我行在最终选型时也选择了华为OceanStor Dorado 18000系列高端全闪存储。
1 概述
1.1背景
随着自主可控的浪潮推进,我国在计算、网络、存储等方面均取得了不俗的成绩,为了摆脱金融业内IT部署对于国外厂商的过度依赖,高端存储技术架构相较于传统行业内三大件中的其他两部分替换影响相对较小。选用基于搭载了鲲鹏ARM芯片的国产存储对于我国银行业关键业务系统未来全面自主可控,发挥银行作为全国性金融龙头企业的社会担当有着深远的意义。1.2目标
- 完成华为OceanStor Dorado18000系列高端全闪存储验证环境搭建,得到相较于其他厂商更好的性能表现;
- 验证国产数据库的兼容性表现,并联合厂商推进完善自主可控生态;
- 为我国金融业关键业务场景基础设备全面国产化打下标杆,承担银行科技转型引导者的担当。
1.3计划
首先,完成基础软硬件整体架构的调研,在遵循行业自主可控策略的指导下选择相关产品。第二,完成验证环境的搭建,完善基础设施层的建设;对比第三方厂商存储设备得到相较于同类产品更优的性能表现。第三,验证前端共存能力,对基础设施环境功能、可靠性、性能等方面进行测试验证。
2 方案设计
2.1方案介绍
本测试方案对测试的内容提出了要求,明确了相应的测试环境、测试配置、测试方法、测试过程等内容,用以保证测试过程和保障测试质量,保障测试工作顺利完成。通过本次存储阵列的测试工作,确定存储阵列是否能满足行内的业务环境需求,能否为行内业务系统顺畅运营提供必要的存储支持,同时为后续行内存储基础平台选型提供必要的参考数据,本次测试的内容主要有:2.2测试环境组网
3验证用例
3.1一体化融合存储
3.1.1SAN和NAS一体化
| 验证OceanStor Dorado 18000 V6高端全闪存储系统支持SAN/NAS一体化设计,不需要NAS网关设备,一套软硬件同时支持SAN和NAS,支持NFS、CIFS、FTP、HTTP等文件访问协议。 |
| 1.OceanStor Dorado 18000 V6系统运行正常。 |
| 1.在OceanStor Dorado 18000 V6高端全闪存储中,创建1个硬盘域,在该硬盘域中,创建2个存储池,分别为StoragePool_SAN和StoragePool_NAS。2.在StoragePool_SAN存储池中创建1个大小为100GB的LUN,名称为LUN1。将LUN1映射给主机。3.在StoragePool_NAS存储池中创建1个大小为100GB的文件系统,名称为FS1。将FS1建立共享,并在客户端挂载。4.在主机和NAS客户端,同时对LUN1和FS1进行读写。5.在存储管理界面检查是否在同一存储管理界面支持SAN和NAS业务的配置,检查是否在单个引擎同时支持SAN和NAS业务,无需额外的NAS引擎。 |
| 2.步骤5中,在Device Manager中,支持对SAN和NAS业务进行配置。支持单个引擎同时提供SAN和NAS业务,无需额外的NAS引擎。 |
| |
3.2SAN特性
3.2.1QoS
| 验证OceanStor Dorado 18000 V6高端全闪存储系统支持根据设定的目标,准确限制应用程序的性能,避免非关键应用程序抢占过多存储系统资源,影响关键应用程序的性能。 |
| 1.OceanStor Dorado 18000 V6高端存储系统运行正常。2.OceanStor Dorado18000 V6高端存储存在2个容量为1 TB的LUN,名称为LUN_withQos和LUN_withoutQos,且已经映射给服务器。 |
| 1.在主机上对LUN_withQos和LUN_withoutQos下发相同读写业务。通过实时性能监控获取LUN_withQos和LUN_withoutQos的IOPS数据。2.在管理界面上SmartQoS管理页面中的流量控制选项卡处,创建LUN_withQos的SmartQos策略为限制策略,限制LUN_withQos最大IOPS为获取IOPS一半的SmartQoS策略。3.观察LUN_withQos和LUN_withoutQos的IOPS变化情况。4.停止对LUN_withQos和LUN_withoutQos的业务读写。5.对LUN_withQos建立快照,使用工具对快照下发业务通过实时性能监控获取快照的IOPS性能。对快照配置SmartQoS策略,限制快照的IOPS为获取IOPS的一半。 |
| 1.步骤3中,LUN_withQos的IOPS被控制为原来的一半左右,LUN_withoutQos的IOPS有提升。2.步骤6中,快照的IOPS被控制为原来的一半左右。存储支持对快照的QoS配置。 |
| |
| 验证OceanStor Dorado V6存储系统支持将异构存储系统提供的存储资源当作本地存储资源进行使用并对其进行集中管理,并支持对异构资源的数据保护。 |
| 1.OceanStor Dorado V6系统运行正常。3.第三方存储设备中,存在1个100GB的LUN,已经映射给了主机,并写入了部分数据。 |
| 1.解除第三方存储和主机的映射,将第三方存储的LUN映射给V6 存储。2.在OceanStor Dorado V6的管理界面中,扫描来自第三方存储的外部存储设备。3.将扫描到的LUN接管后,建立eDEVLUN并映射给主机。在主机扫描LUN并检查LUN上的数据。 |
| eDEVLUN的数据和第三方存储上的数据一致,实现了透明的异构虚拟化。 |
| |
| 验证OceanStor Dorado 18000 V6存储系统支持不中断原有业务的情况下实现将源LUN上的数据完整地迁移到目标LUN上。 |
| 1.OceanStor Dorado V6系统运行正常。2.OceanStor Dorado V6存在2个存储池,名称分别为SP_ SOUR和SP_DEST。3.在存储池SP_SOUR下已经存在1个容量为100GB的LUN,名称为LUN_SOUR。已经将LUN_SOUR映射给主机。4.主机上已经对LUN_SOUR建立文件系统并挂载,往LUN_SOUR中写入1个包含字符的文本文件A.txt,并使用测试工具对LUN_SOUR进行持续读写。 |
| 1.在存储管理界面上创建SmartMigration任务,将LUN_SOUR作为源LUN,选择SP_DEST为目标LUN所在的存储池。设置“迁移速率”为“最快”,其余参数默认。启动LUN迁移任务。2.LUN迁移过程中,在主机上检查测试工具对LUN_SOUR的读写情况。3.LUN迁移完成后,删除LUN迁移任务。在主机上检查文件A.txt的内容和测试工具对LUN_SOUR的读写情况。4.在存储管理界面上检查存储池SP_SOUR和SP_DEST容量使用情况及LUN_SOUR属性信息。 |
| 1.步骤2中,LUN迁移过程中,主机上测试工具对LUN_SOUR读写正常。2.步骤3中,删除LUN迁移任务后,主机上测试工具对LUN_SOUR读写正常,A.txt中的内容与LUN迁移之前相同。3.步骤4中,存储池SP_SOUR下的LUN_SOUR已经删除,相应的空间释放。LUN_SOUR迁移到存储池SP_DEST下,属性信息与LUN迁移之前保持一致。 |
| |
| 验证OceanStor Dorado V6存储系统支持对LUN的在线的重删和压缩。 |
| 1.OceanStor Dorado 18000 V6系统正常运行。2.在主机A中本地目录已经生成80GB的测试数据(非零,可压缩,有重复数据:40GB原始数据,再将此40GB数据拷贝一份)。 |
| 1.在存储系统中创建1个存储池,在存储池上创建1个100GB的重删压缩LUN,命名为LUN1。记录当前RAID或者存储池的总容量和可用容量。2.将LUN1映射给主机A,创建文件系统。将80GB测试数据拷贝到LUN1所创建的文件系统中。3.文件拷贝完成后,检查RAID或者资源池的使用容量和可用容量,检查重删节约空间和压缩节约空间。 |
| 1.步骤1中,存储管理界面有支持LUN重删和压缩的配置界面。RAID或者存储池的总容量和可用容量已经记录。2.步骤3中,RAID或者资源池的实际使用容量小于80GB。重删比和压缩比或者节约空间可以观察记录。 |
| |
3.3.1文件系统QoS
| 验证OceanStor Dorado 18000 V6存储系统支持根据设定的目标,准确限制应用程序的性能,避免非关键应用程序抢占过多存储系统资源,影响关键应用程序的性能。 |
| 1.OceanStor Dorado 18000 V6系统运行正常。2.OceanStor Dorado 18000 V6存在2个容量为100GB的文件系统,名称为FS_withQos和FS_withoutQos,且已经通过相同的逻辑端口共享给两台不同的客户端主机。 |
| 1.在两台客户端上分别挂载文件系统FS_withQos和FS_withoutQos,并对FS_withQos和FS_withoutQos下发相同读写业务。通过实时性能监控获取FS_withQos和FS_withoutQos的带宽数据。2.在DeviceManager管理界面上SmartQoS管理页面中的流量控制选项卡处,创建FS_withQos的SmartQos策略为限制策略,限制FS_withQos最大带宽为获取带宽一半的SmartQoS策略。3.观察FS_withQos和FS_withoutQos的带宽变化情况。 |
| 1.步骤3中,FS_withQos的带宽被控制为原来的一半左右。 |
| |
| 验证OceanStor Dorado 18000 V6存储系统支持文件系统的在线重删和压缩。 |
| 1.OceanStor Dorado 18000 V6系统正常运行。2.在主机A中本地目录已经生成80GB的测试数据(非零,可压缩,有重复数据:40GB原始数据,再将此40GB数据拷贝一份)。 |
| 1.在存储系统中创建1个RAID组或者存储池,在RAID组或者存储池上创建1个100GB的重删压缩的文件系统,命名为FS1。记录当前RAID或者存储池的总容量和可用容量。2.将FS1建立NFS共享,在主机A上挂载NFS共享。将80GB测试数据拷贝到FS1文件系统中。3.文件拷贝完成后,立刻检查RAID或者资源池的使用容量和可用容量,检查重删节约空间和压缩节约空间。 |
| 1.步骤1中,存储管理界面有支持文件系统重删和压缩的配置界面。RAID或者存储池的总容量和可用容量已经记录。2.步骤3中,RAID或者资源池的实际使用容量小于80GB。重删比和压缩比或者节约空间可以观察记录。 |
| |
| 验证OceanStor Dorado 18000 V6存储系统支持全局命名空间功能,实现单一命名空间。 |
| 1.OceanStor Dorado 18000 V6存储系统系统运行正常。2.OceanStor Dorado 18000 V6存储系统中已经建立了1个文件系统的存储池,名称为StoragePoolNFS。 |
| 1.在存储系统的管理界面中,创建1个GNS根目录共享,共享模式为NFS模式。2.在StoragePoolNFS存储池中,建立10个文件系统,名称为GNS1到GNS10。3.将GNS1到GNS10建立对应的NFS共享,并赋予需要访问的客户端读写的权限。4.在Linux客户端上,挂载GNS根目录,检查根目录中的内容。 |
| 2.步骤4中,GNS根目录共享中,能查看到10个文件系统的目录。3.步骤5中,Linux1可以对GNS中的目录进行文件写入和读取。 |
| |
3.4.1控制器模块故障
| 验证OceanStor Dorado 18000 V6存储系统的控制器冗余功能。(高端存储支持控制器4坏3,4个控制器中依次故障或拔出1~3个控制器,缓存数据不会丢失,客户业务不会中断,提供更高的业务可靠性。) |
| 1.OceanStor Dorado 18000 V6系统运行正常。2.OceanStor Dorado 18000 V6系统已经建立了1个LUN和1个文件系统共享。3.每个控制器均配置了LIF地址,客户端通过多个LIF挂载文件系统共享。 |
| 1.在主机和客户端使用工具对LUN和文件系统进行持续读写。检查控制器的业务流量。2.拔出1个控制器,检查工具业务的下发情况,检查存储的告警信息。3.每次间隔20分钟,拔出1个控制器,直到引擎仅剩余1个控制器运行,检查工具业务的下发情况,检查存储的告警信息。4.插入拔出的控制器,待存储恢复正常后检查存储状态和业务下发情况。 |
| 2.步骤2中,客户端主机上业务运行正常,存储有控制器拔出的告警。3.(高端存储执行)步骤3中,客户端主机上业务运行正常,存储有控制器拔出的告警。4.步骤4中,存储运行正常,控制器拔出告警恢复,客户端主机上业务运行正常。 |
| |
| 验证OceanStor Dorado 18000 V6存储系统前端接口卡在线热拔插和冗余功能,在不影响主机业务的情况下,更换单张接口卡,减小故障对系统的影响。 |
| 1.OceanStor Dorado 18000 V6系统运行正常。2.OceanStor Dorado 18000 V6系统配置了可热拔插的接口卡(非板载)。3.OceanStor Dorado 18000 V6系统已经建立了1个LUN和1个文件系统共享。 |
| 1.在主机和客户端使用工具对LUN和文件系统进行持续读写。检查接口卡端口的业务流量。2.拔出1个前端SAN业务接口卡,检查客户端主机上业务运行状态。3.拔出1个前端NAS业务接口卡,检查客户端主机上业务运行状态和逻辑端口状态。 |
| 1.步骤2中,客户端主机上业务正常,SAN业务切换到其余的前端接口卡端口上。2.步骤3中,客户端主机上业务正常,NAS业务和逻辑端口切换到其余的前端接口卡端口上。 |
| |
3.4.3RAID2.0+快速重构
| 验证OceanStor Dorado 18000 V6的RAID2.0+快速重构功能,实现快速重构,缩小风险窗口。 |
| 1.OceanStor Dorado 18000 V6系统运行正常。 |
| 1.在存储系统中建立1个RAID5的存储池,容量为1.1TB。2.在存储池中使用所有存储池容量建立1个1TB的LUN,名称为ReconLUN,将ReconLUN映射给主机,在主机上建立文件系统。3.采用Vdbench在ReconLUN中写入非零数据文件(不能用简易数据生成工具快速生成),直到LUN的空间被写满,存储池的使用空间大于90%。4.选择存储池的任意1个成员盘,记录成员盘的空间使用量,记录后拔出,等待重构开始,记录重构开始时间。 |
| 2.步骤4中,记录了被拔出硬盘的空间使用量,记录了重构开始的时间。 |
| |
3.4.4Ultrapath多路径
| 验证OceanStor Dorado 18000 V6的Ultrapath多路径软件功能,支持路径负载均衡,冗余保护,故障隔离等。 |
| 1.OceanStor Dorado 18000 V6系统运行正常。2.OceanStor Dorado 18000 V6系统已经建立了1个LUN,已经映射给主机。在主机安装了UltraPath多路径软件。 |
| 1.在主机使用工具对LUN进行持续读写。在主机的多路径软件中观察LUN的名称,路径数量、状态和流量。执行upadmin_plus show path查看路径。执行upadmin_plus show iostat vlun_id=34查看LUN的流量。2.拔出一条有流量的链路,检查主机的业务状态,检查路径切换情况。4.反复拔插一条链路,模拟链路多次闪断。检查主机的业务状态,检查路径切换情况。 |
| 1.步骤1中,在Ultrapath多路径软件中,能查看LUN的名称,路径的数量、状态和流量。2.步骤2中,业务流量切换到剩余的路径,拔出的链路状态为故障。3.步骤4中,闪断路径的状态为隔离状态,主机流量切换到其余的路径。 |
| |
3.5性能验证用例
3.5.1整系统随机读写性能
| 验证OceanStor Dorado 18000 V6存储系统8KB随机混合(模拟OLTP)读写性能。 |
| 1.OceanStor Dorado 18000 V6存储系统运行正常。2.主机上已经安装配套的UltraPath主机多路径软件。3.OceanStor Dorado 18000 V6存储系统已经创建了RAID6级别的存储池。4.存储池中已经创建16个容量为500GB的数据缩减LUN,其余参数默认。 |
| 2.使用工具,无重删压缩,全顺序模型将测试LUN覆盖写一遍。4.执行测试,控制压力使平均读写延迟小于0.5ms,记录IOPS以及平均读写延迟。 |
| 1.存储上创建16个500GB的LUN,映射给四台主机。使用工具将LUN顺序覆盖写入一遍后,查看LUN已写入和分配空间均为500GB。2.在主机上按照下面的Vdbench脚本(IO模型:I/O size为8KB;100%随机,70%读;重删比2:1,压缩比2:1)对LUN持续下发IO,测试系统性能。IOPS
带宽
(MB/s)
主机时延
(ms)
主机CPU
利用率
存储平均时延
(ms)
存储
CPU利用率
1791867
13998
0.443
13.5%
0.306
64% |
3.5.2单LUN随机读写性能
| 验证OceanStor Dorado 18000 V6存储系统单LUN 8KB随机混合(模拟OLTP)读写性能。 |
| 1.OceanStor Dorado 18000 V6存储系统运行正常。2.主机上已经安装配套的UltraPath主机多路径软件。3.OceanStor Dorado全闪存存储系统已经创建了RAID6级别的存储池。4.存储池中已经创建一个2TB,开启数据缩减的LUN。 |
| 2.使用工具,无重删压缩,全顺序模型将测试LUN覆盖写一遍。4.执行测试,控制压力使平均读写延迟小于0.5ms,记录IOPS以及平均读写延迟。 |
| 1.存储上创建1个2TB的LUN,映射给四台主机。使用工具将LUN顺序覆盖写入一遍后,查看LUN已写入和分配空间均为2TB。2.在主机上按照下面的Vdbench脚本(IO模型:I/O size为8KB;100%随机,70%读;重删比2:1,压缩比2:1)对LUN持续下发IO,测试系统性能。IOPS
带宽
(MB/s)
主机时延
(ms)
主机CPU
利用率
存储平均时延
(ms)
存储
CPU利用率
1472112
11500
0.426
13.3%
0.304
64%
|
3.5.3随机读写性能对比(华为VS第三方)
| 验证OceanStor Dorado 18000 V6存储系统与第三方存储系统,同压力下随机混合读写(读写比7:3)性能对比。 |
| 1.OceanStor Dorado 18000 V6存储系统运行正常。2.主机上已经安装配套的UltraPath主机多路径软件。3.OceanStor Dorado 18000 V6存储系统已经创建了RAID6级别的存储池。4.存储池中已经创建8个容量为500GB的数据缩减LUN,其余参数默认。 |
| 2.使用工具,无重删压缩,全顺序模型将测试LUN覆盖写一遍。4.执行测试,调整单LUN并发为8/16/32/64,在主机上观察性能指标(IOPS/带宽/响应时间);在存储上观察业务端口时延、CPU使用率。 |
| 1.存储上创建8个500GB的LUN,映射给测试主机。使用工具将LUN顺序覆盖写入一遍后,查看LUN已写入和分配空间均为500GB。在主机上按照下面的Vdbench脚本(IO模型:I/O size为8KB;100%随机,70%读;重删比2:1,压缩比2:1)对LUN下发IO,压力并发分别为8/16/32/64,测试性能。并发
IOPS
带宽
(MB/s)
主机时延
(ms)
主机CPU
利用率
存储平均时延
(ms)
存储
CPU利用率
8
207250
1619
0.307
6.2%
0.230
30%
16
383065
2992
0.331
11.8%
0.244
35%
32
629467
4917
0.403
20.4%
0.295
49%
64
998465
7800
0.508
34.5%
0.324
58%在主机上按照下面的Vdbench脚本(IO模型:I/O size为8KB;100%随机,70%读;重删比2:1,压缩比2:1)对LUN下发IO,压力并发分别为8/16/32/64,测试性能。并发
IOPS
带宽
(MB/s)
主机时延
(ms)
主机CPU
利用率
存储平均时延
(ms)
存储
CPU利用率
8
191978
1499
0.331
6.8%
0.237
30%
16
352212
2751
0.361
12.3%
0.262
36%
32
612017
4781
0.415
22.9%
0.298
48%
64
891502
6964
0.570
35.7%
0.342
58% |
4 测试结果
华为OceanStor Dorado 18000系列高端全闪存储同第三方存储的对比展示出产品能力,通过对各个方面测试可以看出华为OceanStor Dorado18000系列高端存储在性能表现、自主可控、可靠性等能满足金融行业对存储设备的使用要求。
从性能上来说,不同场景华为OceanStor Dorado18000系列高端存储在性能方面有着较好的表现。
(1)存储系统8KB随机混合(模拟OLTP)读写性能IOPS可达179W左右。
(2)存储系统单LUN 8KB随机混合(模拟OLTP)读写性能IOPS可达147W左右。(3)存储系统在FC组网下相同IO模型,不同压力下随机混合读写(读写比7:3)性能对比,通过调整单LUN并发为8/16/32/64,在主机上观察性能指标(IOPS/带宽/响应时间),并在存储上观察业务端口时延、CPU使用率。可以看出华为OceanStor在不同压力下IOPS和带宽均优于第三方存储。华为OceanStor Dorado18000系列高端存储:测试完成后,记录性能统计值。从测试结果看,华为OceanStor Dorado18000系列高端存储较第三方存储具备更好的性能表现,其他方面的优劣势总结请参考下表。 | | | | |
| 并发8的压力下随机混合读写(读写比7:3)性能对比。 | | | |
并发16的压力下随机混合读写(读写比7:3)性能对比。 | | | |
并发32的压力下随机混合读写(读写比7:3)性能对比。 | | | |
并发64的压力下随机混合读写(读写比7:3)性能对比。 | | | |
| | | | |
| | | |
| | 支持主流开放环境,包括AIX/HPUX小型机环境,linux/windows服务器环境,Vmware/FusionSphere等虚拟化环境 | 支持主流开放环境,包括AIX/HPUX小型机环境,linux/windows服务器环境,Vmware/FusionSphere等虚拟化环境 | |
| | | |
5 总结
从验证结果来看,无论是吞吐量、IOPS还是IO时延,华为OceanStor Dorado18000系列高端存储解决方案都优于第三方存储设备,在整体的易用性和周边生态上也有较好的表现。从自主可控的角度出发,华为存储是我国IT基础设施全面自主可控较佳的解决方案,现阶段我行已有三方存管、资产托管、国际结算、企业手机银行、同业业务、信贷管理、理财资金清算等关键生产业务运行在该基础设施环境之上,随着华为存储在实际生产环境进行持续验证,对推进银行业基础设备全面国产化有着深远的意义。
1 背景
随着大数据、生物识别、人工智能等新系统的开发上线,新兴应用对存储需求的快速变化以及不确定性成为主要挑战,对象存储、分布式软件定义存储正逐渐成为存储业界的新宠儿,作为以x86服务器为技术栈,其技术架构的初衷就不是稳定性,而是成本节约和集群规模。但是作为传统行业的金融企业,其上承载的关键系统业务的系统稳定性、可靠性挑战着IT系统有效支撑能力。随着业务量的增长,OLAP业务和关系型数据库大量上线应用,海量文件存贮,超高的性能和时延要求,集中式存储服务管理,这些因素决定着集中式存储在银行这样的传统行业当下承担着IT基础设施中重要的角色。现阶段金融行业关键业务系统存储服务主要以SAN 存储、NAS存储为主,当前大部分业务系统结构化和非结构化数据都采用NAS和SAN存储作为主要存储方案。笔者将结合本行关键系统应用场景下基于华为OceanStor Dorado 18000系列高端全闪存储的运维实践经验,与同行共同探讨SAN、NAS存储的运维思路与方法。
2 需求应用场景
目前IT基础设施系统环境主要分为生产环境、待投产环境和开发测试环境。生产环境主要是支撑平日生产运行的关键业务系统、渠道系统、管理系统以及内部其他系统;待投产环境是新系统上线前需要对目标业务系统进行硬件资源、操作系统、网络连接、软件安装、存储分配等分配部署,后经上线前环境配置检查交付给业务部门进行投产;开发测试环境则是包含了联调环境、UAT环境、SIT环境、编译环境等供项目组日常程序开发、项目测试的系统环境。对于存储服务来讲,无论系统环境重要程度如何划分,提供稳定可靠的存储环境是存储管理工作的底线。
作为IT资源管理部门,ITIL服务管理体系支撑着IT系统服务流程,存储服务也包含在其中,主要服务的需求场景如下:
待投产块存储分配场景:新建待投产环境的SAN 存储数据库服务器分盘场景,包括主机安装多路径软件;交换机配置zoning;存储端分盘mapping。
待投产NAS分配场景:新建待投产环境的NAS存储提供文件存储场景,包括存储端分配文件系统、share目录添加主机权限;主机端挂载远端存储目录。针对已有的文件系统需要新增share主机的场景。
服务请求块存储场景:主要针对开发测试环境的块存储分配,其服务内容包含待投产块存储分配场景外还包括云底座存储服务的分配场景。
服务请求NAS场景:主要针对开发测试环境的文件存储分配,其服务场景同待投产环境场景一致。
变更生产环境块存储场景:对已上线生产系统进行存储容量扩容、回收的服务场景,包括新建LUN添加到目标LUN组,主机端扫描磁盘;主机端删除磁盘,从目标LUN组移除要回收的LUN;针对下线系统,进行存储回收及zone配置清理。
变更生产环境NAS场景:对已上线生产系统挂载的NAS目录进行扩容、缩减容量的服务场景,存储端对目标文件系统进行容量增减。针对已有的文件系统需要新增share主机的场景,进行存储端及主机端的配置。
以上是存储服务在ITIL体系下日常的工单服务场景,针对存储设备的运维,主要场景如下:
设备安装上电初始化。
阶段性设备微码固件升级。
对接集中监控平台。
设备故障保修及故障问题分析处理。
3 需求分析
由于近年来国际形势日益紧迫,外来势力逐渐对我国加大施压,“自主可控、国芯国魂”华为依然成为IT系统国产化的行业巨头,其经过了多年沉淀生产的OceanStor Dorado18000系列高端全闪存储已然在金融行业占领了一席之地。
3.1 具备良好的兼容性
SAN存储服务方面,主要提供数据库物理机Oracle ASM裸设备分配和VMware虚拟化Data Storage的VMFS分配。物理机存储分配裸设备依托于操作系统,Ocean Store的多路径软件Ultra Path对业内主流的操作系统提供有效稳定的支持,例如:RHEL、AIX、Windows、CentOS等;VMware虚拟化的第三方多路径也有较好的支持;值得一体的是,在国产操作系统方面,有着比国外厂商更优的支持体验,如银河麒麟等。
NAS存储服务方面,主要提供NFS和CIFS两种协议接口的文件共享服务。Ocean Store集中式存储支持NFS和CIFS的跨协议访问功能。
存储网络方面,兼容主流以太网络交换机和FC光纤网络交换机。支持LACP端口绑定协议、支持16BG以上端口速率等。
存储网关方面,支持接入SVC、VPLEX等虚拟化存储网关,支持第三方IBM、EMC存储设备异构接入。
集中监控方面,存储设备提供GUI、CLI、Restful API、SNMP、SMIS等接口进行设备生命周期管理。
3.2 支持功能
SAN存储服务:容量展示、信息展示、配置展示、LUN创建删除、存储端主机注册、mapping增删改。
NAS存储服务:容量展示、信息展示、配置展示、文件系统创建删除、存储端share权限。
数据缩减:数据重删、数据压缩、数据压紧。
存储分层:支持SSD、SAS、SATA混插,在线智能迁移热点数据和冷数据至性能层和存贮层。
数据迁移:不同性能存储池间数据在线迁移,业务无感知。
集中管理:厂商自研的集中管理平台esight、DME等,兼容性完美,功能性完善。
在线升级:升级过程中,控制器不重启,主机链路不切换,业务基本无影响,且升级完成后性能迅速恢复。
告警与监控:提供专门的管理页面,查看所有告警信息或事件信息,根据故 障修复建议,判断修复故障;提供性能数据采集与分析,支持实时和历史查看设备性能指标状态。
4 架构设计
4.1 整体架构
运维工作整体从结构上划分为三层,分别是服务层、资源层和设备层。
服务层:通过存储管理页面进行基础资源分配和数据接口对外提供集中监控服务。基础服务主要体现在工单和服务请求的接受、申请资源管理、配置任务部署、资源规划。集中监控服务通过统一的数据接口与集中监控平台相关的功能进行数据对接,并通过定义好的数据接口进行配置的实际下发,接收通知告警、报表和日志;监视存储容量池利用率,跟踪容量变化,监视利用率门限,采集宏观数据进行分析,预测数据落盘趋势,为采购扩容提供重要依据。
资源层:对底层设备资源的整合归类。存储池根据介质技术和设备类别分为高端全闪资源池、中端全闪资源池、中端混闪资源池和文件服务资源池,将所有存储的数据池按定义好的资源池策略进行分类整合,并抽象出资源池对应的标签,供分配部署时对业务系统提供对应合理资源配置。根据存储资源的服务能力,分析业务负载,实现服务级别的量化和定义,以适配不同类型应用的需求。监控平台通过外部接口收集设备在运行过程中产生的配置文件和性能数据,这些数据通过量化分析后,生成运维所需的报表向管理员输出展现。
设备层:最底层的存储设备,包括盘阵和交换机,存储配置管理员提供对于盘阵和光纤交换机的配置服务,针对每一个基础服务对于设备来说都是原子级的操作,主要使用场景是存储管理员对于系统的日常运营维护工作。
4.2 服务层架构
作为提供服务的主要接口,需要对工单流程制度清晰掌握,了解系统运行数据状态,精通对各项数据指标和阈值界限的意义及处置方式。
4.3 资源层架构
根据存储资源池对应的标签,按照业务系统应用场景并依据系统历史负载情况作为依据进行合理的资源分配。存储设备的生产运行数据也要作为数据资产通过集中管理平台或第三方运维监控平台妥善利用和保存。
4.4 设备层基础服务架构
存储管理员负责日常的存储配置运维工作,需要熟练掌握存储管理工作的命令与操作常识。
5 实践经验
5.1 整合纳管现有资产
按需求纳管现有华为OceanStor Dorado 18000系列高端全闪存储设备,通过华为原厂的集中运维管理平台esight或DME纳管资产。纳管设备后,参照现有CMDB系统导入配置信息,补全存储光纤连接线标签信息、设备实际物理物质。按照运维习惯,制作统计报表、配置报表、台账流水报表为运维工作提供数据支撑。利用标签技术从多个逻辑和维度整体规划盘阵级别、存储池类型、设备用途、服务能力等方便业务针对不同存储服务需求的资源定位。
5.2 配置规范管理
规范所有命名配置,如设备通用名、存储池命名、LUN命名、存储前端口命名、映射视图命名、Zone命名、Alies命名等。这些命名规范内容要考虑数据中心代号、设备型号、集群名称、主机名 、网络拓扑等信息,从配置命名大致看出整理链路中各元素的关系,有助于整体环境的掌控和故障定位。
5.3 硬件故障识别自愈
集中管控平台收集华为DeviceManager内硬件告警,根据命名规范和拓扑结构识别翻译故障说明,分析整合告警信息,减少重复无用告警影响故障判断,并通过短信平台主动上报,通过收集量化物理部件性能指标,形成指标曲线。例如通过收集 HBA卡SFP光模块的光功率指标,可清晰观察到故障模块光功率曲线下滑趋势,能做到故障部件提前预更换,在故障发生前解决故障。针对业务连续性,通过高精度的设备健康状态监控和亚健康识别能力,快速识别故障点并通过冗余接管技术进行故障隔离和故障自愈修复,修复成功则继续接入到系统中提供服务,修复失败在通过设备告警提示人工介入进行故障部件更换。
5.4 存储资源管理
通过esight和DME的集中式管理,掌握全环境存储资源裸容量、池容量、重删压缩节省率,并按不同维度展示当前容量、增长率、历史趋势,根据容量趋势为扩容资源提供数据支撑。掌握存储设备CPU利用率、时延、IOPS、带宽等性能数据,设置性能阈值整体把控设备运行压力状况。
5.5 流程管理
5.5.1 SAN存储流程
SAN存储服务流程从工单接到需求开始,在接到工单的同时收集主机信息,其中包括:
1、主机名称(主机名作为流程唯一识别标识)、IP信息、业务名称(根据业务重要性识别存储标签)、物理位置;根据收集到的主机信息结合主机系统内和光纤交换机login的wwn信息进行设备的物理连线。
2、物理环境准备完毕,进行存储设备与主机设备的连接工作,首先根据主机和存储设备的物理位置确定连通交换机,按照业务级别标签选择容量富裕的存储设备(在存储池内根据本单位采购扩容流程周期设置存储容量阈值并参考存储设备自身的使用性能);随后进行光纤交换机的配置工作,根据光纤交换机、物理主机、存储设备名称编排Zone name,例如:SAN753_bancs01_HW01,Alias名称使用主机名后接HBA卡端口号命名,存储前端口组根据连接业务系统主机数量和性能带宽繁忙程度进行选择。
3、完成链路连通工作后对主机进行多路径软件安装,使用自动化编排工具进行安装并建立多路径软件版本库。
4、最后,按照新建、扩容需求创建LUN并划分LUN Group,存储端注册主机信息,对主机组、磁盘组、存储前端口组进行Mapping建立,主机端识别存储逻辑设备,检查多路径状态正常后交付工作。
5.5.2 NAS存储流程
NAS存储服务流程从工单接到需求开始,在接到工单的同时收集主机信息,其中包括:
1、主机名称(主机名作为流程唯一识别标识)、IP信息(管理网段IP地址和NAS网段IP地址)、业务名称(根据业务重要性识别存储标签)、业务系统客户端文件系统挂载点。根据业务系统主机NAS网段IP地址、存储设备使用率、存储设备运行压力选择存储设备并确定NFS或CIFS和容量需求。
2、根据工单需求整理包含主机名称、share文件系统名称(文件系统名使用主机名后接客户端挂载点命名)、NAS IP地址、管理IP地址、客户端挂载点、业务名称等信息归档成配置文件,根据配置文件创建share文件系统并在业务系统客户端针对NFS和CIFS不同的共享方式对文件系统进行网络映射。
3、针对文件系统的增加缩减操作,华为存储的SmartThin功能支撑存储端在线变更文件系统容量,做到操作系统层面无感知,对于NAS存储的回收工作,需要先从系统端解除映射,之后判断系统的NAS IP地址是否能ping通,在确认NAS IP地址被回收后再在存储端删除该文件系统的export配置,根据业务系统重要级别设置反悔期限,到期后再对目标回收文件系统进行删除操作。
5.5.3 存储升级流程
为了确保各个业务有序投产和信息技术系统稳定运行,存储设备作为IT基础设施的基底,其固件升级也尤为重要:
1、升级前准备:确认升级前版本、准备Smartkit升级工具及升级包。
打开smartkit选择升级前工勘进行升级策略设置“设置目标版本及升级方式”。
添加设备进行升级评估,评估完成后查看不通过项。
选择“阵列信息收集”窗口,在设备列表中,选择需要收集信息的设备,单击“收集”开始收集信息收集,以备后期查看配置信息。
2、升级操作:返回首页点击设备升级进入升级策略设置。
添加设备后选择升级包及升级方式。
选择数据备份路径后勾选设备,点击确定进入阵列升级。
在设备升级界面,单击“阵列升级”开始升级操作。
单击“执行升级”按钮开始升级。
系统弹出“升级确认”对话框,确认完成后,选中复选框并单击“确定”按钮进行升级。
系统进入设备升级,自动导入升级包、升级前检查、数据备份、执行升级、升级后验证。
3、升级后验证后需要查看升级后版本与升级包是否一致,确认升级完成。
快速升级完成后,单击“巡检”
巡检后查看“查看报告”
6 总结
通过使用OceanStor Dorado18000系列高端全闪存环境,针对不同厂商存储解决方案的性能和特性,提升自身业务持续发展的可控性。对于全闪存储发展来看,相较于多年前的传统非闪存存储,在性能上有着质的飞跃。
本次存储选型与对华为OceanStor Dorado 18000系列高端存储的实际运维,作为银行IT一线人员,笔者也切实体会到存储系统的运维涉及到多方面的问题,不同于其他IT技术运维,处理的问题都是比较底层的问题。由于存储设备的精密和昂贵,培养一个存储运维人员的时间和成本较其他技术领域代价相对会大一些,但管理层面上可能只是信息科技部门下属处室的一个组,但仍要面对很多管理问题。所以存储运维工作要分层开展。按照层级划分,将各种服务细化:
设备层提供最基础的存储设备级服务,此层面我们需要保证每一台存储是可以正常工作的,是可以正常使用对外提供服务的,并且保障存储设备的正常运行且是可管理的,基础设施层的维护是为了对资源层的交付使用而服务的。
资源层对存储设备有了统一逻辑上的管理,在这个层面有系统性的统一管理体系,容量系统,监控系统,此层面可以发现底层存在的问题,并交由设备底层处理,并在这个层面保证应用服务的正常运行。
服务层主要是接受需求部门请求,将存储服务管理业务过程落地到IT系统管理中。
随着业务的发展和云计算大行其道,金融行业关键业务系统对存储运维能力不断挑战,传统的运维方式也逐渐展现出疲态,所以探索新的运维技术也是作为IT从业人员的使命,通过集中管控平台扩展自动化、智能化、一体化的运维管理方案来改变当前略显落后的运维体系,不断的创新求索才是立命之本。