双机容错软件实际上是
集群容错的特例,双机指两台
服务器间,集群指多台服务器间,两者区别主要在于服务器数据数量的不同。
软件分类
双机容错软件可细分为
双机热备份软件和双机容错软件。一般来讲,双机容错软件实际上包含了双机热备份和双机容灾两种技术。
双机容错软件是计算机应用系统稳定、可靠、有效、持续运行的重要保证。它通过系统冗余的方法解决计算机应用系统的可靠性问题,并具有安装维护简单、稳定可靠、监测直观等优点。
原因
为什么采用双机容错软件,首先应先了解为什么服务器会发生停顿。服务器停顿原因大致可分为7类;按计划的硬件、操作系统进行维护,如增加硬盘、安装操作系统补丁等;应用失效,如数据库出错等;操作员出错,如误操作等人为错误;操作系统故障,如操作系统死机等;硬件故障,如硬盘、网卡损坏等;断电(没有UPS的情况);自然灾害,如火灾、地震、洪水等。从上面的说明可以看出,在停顿原因中软件的因素占到了绝大多数,而硬件原因只占其中的以小部分原因,这就是为什么说可以监控应用的容错软件有着比监控硬件的热备份软件更好的性能的原因。操作员出错即人为错误,使用纯软件方式可以部分消除该错误,如误关机、操作系统文件的误删除等,因为数据是分别存储于不同服务器上,所以对于没有损伤到复制文件的误操作不会产生影响的。对于硬件故障,共享
磁盘阵列柜的热备份软件虽然对硬件进行监控但也只能部分消除,而热备份软件主要是对CPU的监控,对于如磁盘阵列柜的错误、磁盘的损坏等无能为力,但纯软件方式可以做到。对于断电(没有UPS的情况),纯软件方式可以部分解决,因为这种方式的服务器之间有距离,只要不是同时断电就可以解决。自然灾害可以用纯软件方式部分解决,同样是因为服务器之间有距离,如火灾等。
对现代企业来说,利用计算机系统来提供及时可靠的信息和服务是必不可少的。但计算机硬件和软件都不可避免地会发生故障,这些故障有可能给企业带来极大的损失,甚至整个服务的终止,网络的瘫痪。可见,对一些行业,例如,金融、邮电、交通、石油、电力、保险、证券等,系统的容错性和不间断性显得尤为重要。因此,必须彩取适当的措施来确保计算机系统的容错性和不间断性,以维护系统的高可用性和高安全性。
双机容错软件与集群技术提供了比磁盘阵列更好的性能以及更多的功能。当一台主机出现故障,可及时启动另一台主机接替原主机任务,保证了用户数据的可靠性和系统的持续运行,它主要是解决的问题是保持计算机应用软件系统的连续运作。对于一些柜台业务系统,大数据量连续处理系统来说,这种数据管理是必不可少的。
目前,这项技术已在各行各业得到广泛的应用。
工作模式
双机热备份
所谓的双机热备份,就是一台主机为工作机,另一台主机为备份机,在系统正常情况下,工作机为信息系统提供支持,备份机监视工作机的运行情况,工作机也同时监视备份机是否正常,有时备份机因某种原因出现异常,工作机可尽早通知系统管理工作人员解决,确保下一次切换的可靠性。当工作机出现异常,不能支持信息系统运营时,备份机主动接管工作机的工作,继续支持信息的运营,从而保证信息系统能够不间断地运行。当工作机经过维修恢复正常后,它会将其先前的工作自动抓回,恢复以前正常时的工作状态。
双机互备援
所谓双机互备援,就是两台服务器均为工作机,在正常情况下,两台工作机均为信息系统提供支持,并互相监视对方的运行情况。当一台主机出现异常时,不能支持信息系统正常运营,另一台主机则主动接管异常机的工作,继续支持信息的运营,从而保证信息系统能够不间断地运行,而达到不停机的功能,但正常运行主机的负载会有所增加。此时必须尽快将异常机修复,以缩短正常机负载持续时间。当异常机经过维修恢复正常后,它会自动抓回先前的工作,恢复以前正常时的工作状态。
软件示例
易腾数信公司的双机容错软件(EterneCluster-DN)为此提供了一套完美的解决方案。软件通过两台服务器间心跳连线感知对方的工作状态,及时有效的了解服务器现实状况并能将故障机的工作以最快的速度切换至备用服务器上运行,保证了数据和业务的连续性,也同时保证了客户们的最根本利益,为用户节省大量的开支。
其负责管理2台主机运行的各自应用系统,当主机或主机上的软件出现故障时,不需人工干预,双机集群中另外主机通过心跳线路,可以自动检测出该故障主机,准确、快速地将原主机的应用系统移交到另一台主机上继续运行,实现整个系统的不间断运行,从而保证整个系统对外服务的正常,为企业24小时×365天的关键业务应用提供了强大的保障。
服务器优势
在一台
容错服务器内部有超过 500个故障检测点,随时都有可能发出错误报警和通知。这些故障中,有处理器、芯片组、内存寻址、字节和电源错误,也有内部总线协议、CRC、ECC、系 统时钟、系统服务和散热系统错误等,对于标准
工业服务器而言,任何错误都可能导致系统瘫痪,更为可怕的是这些错误是随机的,很多属于临时性错误。如果把系统重新启动,有些故障就会消失。与故障相比,有些错误不容易被察觉,导致错误的计算结果,其危害更大。
工业标准服务器所以有如此的问题 主要与设计思想有关,运行时间不是其主要设计目标,它只具有有限冗余特征,如电源,需要通过集群来提高可靠性。与之相比,小型机具有更高的可靠性设计,用于保障系统的可靠运行。小型机在故障点检测上有很多的保障机制。通常小型机的价格比较高。随着处理器技术的发展,特别是Intel Xeon 7500系列处理器的推出,IA处理器在可靠性性能设计上与小型机所采用的RISC处理器大幅度接近,但在系统上,标准
工业服务器还是有些差距。
工业标准服务器的优势在于价格,小型机的竞争力在于高可靠性,有没有办法鱼和熊掌兼得呢?就只有在系统结构上想办法,双机、集群和容错都是不错的方法。
双机和集群是通过软件的方法,通过故障机切换来提升可靠性。与之相比,容错是采用硬件的方法,以及特有故障处理和保障机制提高系统的可靠性。容错较之单机具有更高的可靠性,其中,容错还具有纠正临时性错误的能力,可以确保计算的正确性。
小型机也通过双机和容错来进一步提升可靠性,但成本代价更高。随着IA处理器可靠性性能的改善,采用
容错服务器提高系统可靠性成为了很多明智用户的选 择。与双机相比,容错服务器硬件成本高于双机方案,但考虑软件因素,容错服务器具有相当竞争力。在这种情况下,以Stratus的ftServer为代 表,容错服务器的门槛已经大大降低,成为关键业务应用的理想选择。