复制数据应急容灾系统解决方案



桌面云数据中心集中存储备份解决方案

上一个:

下一个:

两地三中心数据备份系统解决方案

概述

宝利科技数据复制软件是基于逻辑的复制方式,所以源端和目标端可以是不同的主机、存储、操作系统、数据库的不同版本等,也可以是单机、HA、RAC等不同的结构。在某些容灾场景中,也可实现双向、多对一、一对多、级联等复制模式。

 

方案简介

业务连续性保障

业务的连续性,是保证服务质量的重要标准之一,一旦生产系统数据库出现故障,将影响所有关键业务。通过为生产系统在容灾中心建立准实时的异地灾备数据库,在生产系统出现故障时可最大程度的保证关键数据的安全性,将可能出现的数据损失降到最低。

1.应用接管

当生产数据库出现故障或事故无法使用时,应用程序可以立即接管到灾备数据库上,由于灾备数据库一直处于打开的状态,所以接管时间基本等于应用程序修改数据库连接的时间。

2.数据损失

推荐解决方案在一般性故障发生时一般不存在数据丢失。这些一般故障包括数据库失败、操作系统失败等等。但在一些极端的情况下,掉电、站点失败时,少量存在复制队列中的数据可能产生一些数据损失。

3.反向回切

复制软件支持在遇到异常情况下,做应急接管。通过宝利科技复制技术,业务系统能快速反向回切。对恢复正常的生产数据库不需要进行数据全同步或重新部署复制软件,仅将增量数据回写即可完成生产系统恢复工作。


报表业务分离

报表及查询业务与生产系统上运行的交易业务,从其对数据的访问特点来说有较大差异,如果两种业务同时运行在同一数据库上,必然会造成资源的竞争和冲突,从而导致两种业务的性能和稳定性都受到较大影响。使用宝利科技复制软件复制出来的灾备数据库一直处于打开的状态,在提供数据库容灾安全保障的基础上,作为第二中心数据库,分担生产系统的压力。同时,为了提高报表系统的性能,还可以针对报表业务的特点对报表数据库进行优化。


容灾切换策略

系统恢复时间的长短,将直接影响到服务质量。本方案中当生产中心出现故障无法提供服务时,将由容灾中心实现业务的迅速接管。


应用接管策略

当生产系统生产数据库出现故障或事故无法使用时,最终用户可通过网络负载均衡设备,在几分钟内实现业务的容灾接管;如果容灾中心出现故障,查询及报表业务也可在几分钟内完成接管。因为查询业务的接管不牵扯到数据的变化,因此本方案中将仅讨论生产系统切换的各种场景及对应的流程。生产系统应用接管方式可大略分为两种:

1.数据库或重要应用服务系统级故障

当出现此类故障时,生产中心仅核心数据库或应用不可用,此时连接该中心的用户将通过本地的负载均衡设备,接管到容灾中心。此时的切换决策建议经由负责人员判断后,使用预先准备的程序及脚本实现切换。在采用了负载均衡设备的情况下,整个应用的切换时间可控制在5分钟以内。

2.数据中心级的灾难

此类灾难包含了整个机房断电或火灾、地震等极端情况下,整个生产中心包括负载均衡设备全部失效的场景。由于负载均衡设备不可用,因此无法通过负载均衡设备时间业务的接管,此时需要通知所有用户使用事先规划的备用地址,连接到容灾中心的负载均衡设备,以实现全部业务的接管。此时切换时间主要为最终用户重新连接不同应用服务器的时间,在经过容灾演练的基础上也可实现分钟级的切换。


数据库接管策略

在本方案中,宝利科技复制软件需要部署为双向复制模式,根据系统所处的状态不同,宝利科技复制软件的复制方向也将自动修改。具体分为以下几种场景:

生产系统正常工作

正常情况下,因为生产交易业务运行在生产数据库,因此只有生产数据库到灾备数据库的复制链路工作;灾备数据库端由于仅运行查询及报表业务,因此反向复制链路虽然激活,但不会进行实际的数据复制。这样部署的目的是为了确保当应用接管到灾备数据库后,复制软件可自动切换为从容灾中心到生产中心的反向复制,且不需要重新部署或配置宝利科技复制软件。当生产系统故障恢复后,通过宝利科技复制软件反向增量复制技术,可将应用对灾备数据库所作的变化,迅速的反向回写到生产系统,从而实现业务系统的快速反向回切。

正常情况下的数据复制策略如下图所示:

   容灾中心接管生产业务

当生产应用接管到容灾中心后,所有应用对在被数据库的修改将立即被宝利科技复制软件捕捉,自动切换为反向的复制模式。此时因为生产系统数据库不可用,因此增量的数据变化将以队列文件的方式积压在灾备主机的宝利科技复制软件队列中:

生产系统故障修复后的反向回切

当生产系统恢复可用后,反向回切分两种情况:

1.生产数据库可修复

对于绝大部分的容灾切换场景,生产库是可修复的,如硬件维护、软件维护、升级、打补丁等操作。此时宝利科技复制软件可通过反向增量数据复制实现快速反向回切。用户所需的操作步骤仅需要打开反向复制链路的传输进程,此时宝利科技复制软件会自动将应用在被数据库做的修改反向同步到生产数据库,其过程不需要人工干预。当数据追平后,即可快速的实现灾备系统到生产系统的反向切换,恢复为正常运行状态。

2.生产数据库不可修复

如果故障解除后,生产数据库中部分或全部数据损失,此时如果需要将应用切换回生产系统,则需要借助灾备数据库,对生产数据库进行全量的恢复,恢复步骤与复制软件的初始化同步过程相同,整个恢复步骤均可在生产业务不停机的情况下完成。

3.应用回切后的复制策略配置

生产系统重新接管业务后,宝利科技复制软件将重新切换为原有的正向复制模式,此过程不需要重新部署软件或进行初始化同步。

方案优势

网络带宽占用最低

在所有的复制方式中数据库逻辑层复制技术对网络资源占用最小。

需要传输的数据量大概相当于生产数据库生成日志量的1/3至1/5,打开压缩功能后,需要传输的数据量仅为生产数据库生成日志量的1/8至1/10左右,完全可适应广域网条件下的数据异地复制。

目标数据库可用

目标数据库可用,屏蔽了容灾接管时数据库可能无法打开的风险。可分离报表统计等业务至目标库使得容灾主机不被闲置,并可降低生产库的负载。

双向复制

宝利科技复制软件支持双向复制,可提供“双活系统”,即两个数据库可同时进行修改,并将变化内容随时同步到对端数据库,确保报表等业务的正常运行。

数据自动校验

宝利科技复制软件在复制过程中可自动校验数据是否一致,如果发现不一致,可在日志文件中进行记录,提供详细的诊断信息,以便用户及时解决,避免更多的错误数据。

宝利科技复制软件提供的在线的数据比较功能,如果怀疑发生部分数据不一致,可在应用不停机的情况下动态的比较并修复不一致的数据。除可针对全表进行比较修复外,还可只针对部分数据或表分区进行比较修复。

图形化监控维护

宝利科技复制软件自带图形化监控管理软件,不仅可实现所有复制性能数据的实时监控,还可提供历史数据的存储和分析,另外宝利科技复制软件绝大部分日常管理工作均可通过图形化管理界面完成。

异构环境支持

宝利科技复制软件支持异构(不同操作系统、不同主机、不同存储)环境,独立于主机和存储;支持不同的复制场景(单向、双向、一对多、多对一、级联、网状拓扑);提供对不同数据库版本以及OPS/RAC的支持。可节约建设成本并易于今后扩展。

增量数据复制的反向回切

绝大部分的故障是可恢复故障,即生产库的数据一般不会丢失。利用宝利科技复制软件的增量数据复制功能,可实现快速反向切换,而不需全同步所有数据。切换过程中不存在单点故障。