多处理机系统是指由两台以上处理机组成的计算机系统。每个
处理机都有各自的控制和运算部件,可独立地执行程序,而共享公共的主存储器和外围设备。处理机之间是通过网络实现通讯的。容错多处理机系统是指计算机系统内的部件出现允许故障时,多处理系统任然可以正常运行。
容错多处理机系统包括大量的硬件措施和软件措施,还包括电源组件,电源组件可以提供不间断的不被打断的环境。包容错误程序的计算机使用特殊软件的惯常程序和自我检查的逻辑程序,将其设计为电路的一部分,用来检查硬件问题,并可以自动转换成后备设施。在不涉及计算机系统的情况下,计算机的一些部分可以进行移除,也可以进行修理。容错多处理机系统具有很高的可靠性和强大信息处理能力,在在恶劣环境中 , 计算机仍能正常运行。容错多处理机系统实现容错的途径:
故障检测技术;故障屏蔽技术;系统重组技术动态冗余技术,其中的核心技术为冗余技术。动态冗余技术包括重组,恢复,可重组的N倍冗余,缓慢降级等技术。动态冗余是通过故障检测,故障定位及系统恢复来达到容错的一种技术。由于系统恢复采用某种重组技术,因此系统的冗余结构将随故眯情况发生变化,这种技术不防止故障产生差错,但防止差错产生失效。
多处理机系统含两个以上处理机,在一个操作系统控制下,实现指令、任务的并行处理的计算机系统。整个计算机系统都在统一的操作系统控制下工作,按照多指令流、多数据流的模式实现对作业、任务、程序段的并行处理。在执行时,用一些特殊的指令派生出一些可同时执行的进程(带有控制块可独立执行的程序段),分配给各个处理机并行处理,某处理机不空闲时,一些进程即排队等待。这样,多处理机的计算机系统工作效率肯定很高。然而,这种系统的结构则比较复杂,除硬件结构复杂外,还要从软件系统上,用并行算法、资源分配、进程调度等技术加以处理。
冗余技术又称储备技术,有时也称容灾备份技术,它是利用系统的并联模型来提高系统可靠性的一种手段。冗余技术分为工作冗余和后备冗余。工作冗余:一种两个或以上的单元并行工作的并联模型。平时,由各处单元平均负担工作,因此工作能力有冗余。后备冗余:平时只需一个单元工作,另一个单元是冗余的,用做待机备用。以计算机为例,其服务器及电源等重要设备,都采用一用二备甚至一用三备的配置。正常工作时,几台服务器同时工作,互为备用。电源也是这样。一旦遇到停电或者机器故障,自动转到正常设备上继续运行,确保系统不停机,数据不丢失。
软件容错本身有两层含义: 一是对软件自身故障的处理;二是使用软件对系统中出现的其它故障进行处理。软件容错技术大都是针对软件本身的设计故障提出的, 但应用这些软件容错思想对它们有针对性地加以修改后,也可用于对系统的硬件故障进行处理。简单的冗余是不够的, 需要辅以设计和数据表示的多样性才能达到较好的容错效果。设计多样性( Design Diversity) 技术的核心思想是:完成某个功能有多种可能的不同方法, 现将每种可能的方法都实现( 每种实现称为一个变体), 以尽可能保证至少有一个变体能可靠地运行。既然每种变体的设计思想各不相同, 对于同样的输入,不同的变体就可能产生不同的输出, 这时就需要一种表决机制来判断哪种输出是正确的或可接受的。数据多样性( Data Diversity) 是作为对设计多样性的补充由 Ammann 和 Knight 提出的。数据多样性着眼于程序的输入数据, 与原始输入数据逻辑等价的“ 重表达”数据都可以作为程序的新输入数据。以不同表达方式的输入数据执行相同的程序或程序的变体是数据多样性技术的核心思想。重配置与重恢 复(Reconfiguration and Rejuve -nation): 是互为补充的软件容错技术。软件重配置允许在动态考虑各种限制因素(如操作系统服务、处理器负载、可用内存等) 的情况下使用冗余的资源对软件进行实时恢复,是一种事件驱动的即时处理过程。在设计时,需要首先定义好重配置的触发条件, 然后仔细定义相应条件的具体重配置策略。软件重恢复是处理由于软件老化导致软件暂态故障的一种技术。它会以定时轮询的方式中止软件运行,清空其内部状态并重启之。这样,相当于消除了软件长期运行可能导致的积累错误效应。软件重配置与重恢复的技术特点是适应性强,非常适用于资源受限的环境中。
计算机系统故障检测包括操作系统、文件结构、软件系统特征等方面的内容,同时还涉及硬件知识,检查时既要进行动态的通电检测,又要进行静态的断点检测。作为计算机技术人员,关键是在掌握相关知识的前提下,对故障分析有清晰的思路和准确的判断能力。检测步骤:1、区分是软件故障还是硬件故障,当加电启动时能进行自检,能显示自检后的系统配置清况,则计算机系统的硬件基本上没有什么问题,故障的原因是软件引起的可能性比较大。2、具体确定是操作系统还是应用软件故障,若是系统软件故障则可能需要重新安装操作系统,若是应用软件故障则应该调整应用软件安装3、硬件故障的检查步骤,若是硬件故障则需要首先分清主机故障还是外部设备故障即从系统到设备,再由设备到部件;由系统到设备是指计算机系统发生故障后要确定主机、键盘、显示器、打印机、硬盘和软驱等是哪一个设备出问题。同时要注意关联部分的故障。