电信 教育 政务 机械 汽车 船舶 交通 石化 烟草 服装 电力 金融 外贸 冶金 电子

高可用性集群解决方案

2004-4-9 发布方:何海涛 网友评论 0 条 点击进入论坛

Cluster简介

    Cluster(群集)是紧密连接的一组计算机,用来持续性地提供高性能的计算服务。把一组计算机连在一起并非难事,但要让它们获得很高的性能就不那么容易了。Cluster的初衷在于以没有单点故障的体系结构来达到系统的高可用性和可伸缩性,而且要求采用通用标准的计算机,而不是特殊专用的计算机部件,从而能以较低的成本获得较好的可伸缩性。Cluster中的计算机应当具有非常好的协同性。如果其中一台发生故障,马上就有另一台去接替它的工作,如果一台计算机的性能不足以完成某项任务,其他的系统成员就会加入进来,共同执行这项任务。应用实践证明,由通用的计算机部件协同工作,完全可能使其运算能力超过大型主机、超级计算机和容错系统,而且具有更低的成本。

为什么选Cluster?

评估计算机系统体系结构的优劣的确不是一件容易的事。

    SMP(对称多道处理)、FT(容错)、MPP(海量并行处理)和Cluster(群集)以其各自的特色在市场上占有一席之地。MPP以系统的可伸缩性见长,FT的可用性比较高,而SMP和Cluster的结构在可伸缩性和可用性之间的兼顾与融合使其成为最成熟、适用范围最广的技术方案,在实际应用中可以满足绝大多数用户的需求。

    可用性是指系统正常运行的比例,最高的理论指标值是100%,而常用的表征方法是"9"的数量。例如"3个9"就是指99.9%的可用性,"4个9"是指99.99%的可用性。一套具?quot;3个9"的可用性系统,只有0.1%的时间处于不能正常运行的状态。这看起来似乎不错,但实际上意味着在一年的时间里有9个小时系统不能正常工作。如果能够让这9个小时的停机时间都安排在非业务高峰时段,也许问题并不十分严重。但是如果一家零售商场的业务系统在圣诞节前意外停机9个小时,那商场业主来说简直无异于一场噩梦。所以说,用户需要更多的"9"。对于不能停顿的关键业务应用,要达到更高的可用性就应该选择Cluster。因为即使是在最坏的情况下,严重的系统故障在Cluster之中也只会表现为几分钟内系统性能的略微降低,服务的反应速度稍微慢一点。

    近年来,Cluster和RAS(Reliability、Availability和Serviceability)等相关领域的进步极大地改善了应用系统的可用性,减少了停机时间。Cluster技术越先进,计算部件成员之间配合就越默契,故障部件的接替与切换就更加平衡。例如多通道I/O特性使存储或网络控制器发生故障的节点可以方便地切换到其他备用控制器上。

    在更先进的Cluster技术中,任何部件发生故障都不会影响到系统的正常运行,甚至是在备用部件或者系统总线发生故障的情况下,计算节点同样可以通过远程方式利用其他节点的存储控制器继续执行自己的任务。在各个计算节点都正常的情况下,也可以自动均衡所有计算资源上的负载,使整个系统的运行性能达到最佳状态。而且,与分别管理相同数量的独立单机相比,对于Cluster之中的节点进行管理要容易得多。

    真正的Cluster减少系统停机时间,高可用性自然是功不可没。通过将单个的服务器连接成Cluster,有可能获得3个、4个甚至5个"9"的可用性,但同时又面临着一大堆复杂的技术细节问题--设备驱动程序、磁盘卷标、IP地址、故障接替路径、服务定义和控制脚本等等。随着Cluster中节点数量的增加,这类问题就会越来越复杂,常常使系统管理员望而生畏。事实上,有不少用户由于追求可用性而选择Cluster,但又由于系统的复杂性和管理上的困难而导致Cluster远远没有发挥其应有的效益。

    所以说,Cluster要想凭借其高性能、高可用性和高可伸缩性而在当今的商业应用中担当重任,就必须改善自身在部署和维护方面的简便程度,让人们感到它并非高深莫测。负载平衡、多路故障接替、多通道I/O和管理集中化等功能应当成为操作系统理所应当的普通功能,这才是真正具有实用意义的Cluster。

TruCluster Server V5.0 UNIX集群软件系统

    COMPAQ电脑公司自1992年推出世界上第一台64位的Alpha服务器及第一个64位的UNIX操作系统Tru64 UNIX(原OSF/1,Digital UNIX),现已过去7年多了。Alpha服务器系统及Tru64 UNIX操作系统在具有其先进功能的同时,也全面走向成熟。尤其是1999年4月份发布的第五版本Tru64 UNIX V5.0操作系统及Tru Cluster Server V5.0集群软件,使COMPAQ公司在64位UNIX计算环境的高可用性,高可靠性,高服务性及资源共享方面达到世界先进水平。很多功能是其它任何UNIX厂商今天所无法提供的,成为IT行业的一枝独秀。

    美国著名的IT公司 Illuminata Inc发表了题为"Stainless Steel"即"不锈钢"的研究报告,在报告中说:"虽然COMPAQ公司将其V5.0称为钢,我们认为不锈钢更能表达它在TruCluster V5.0集群上的实用性,对故障错误的容忍性和实际应用中的优越性。"

    1983年,COMPAQ(原DEC)公司成功推出VMS Cluster集群。16年来,VMS集群的功能一直被IT界做为集群的标准。而且在此之前,没有一个UNIX 厂商的所谓的"UNIX集群"(实际上只是高可用性的故障的切换环境)可以与VMS集群相媲美。然而,TruCluster Server V5.0集群的发布,从此改变了这一局面,成为目前世界上唯一达到VMS集群水平的UNIX集群环境。

    Cluster要想凭借其高性能、高可用性和高可伸缩性而在当今的商业应用中担当重任,就必须改善自身在部署和维护方面的简便程度,让人们感到它并非高深莫测。负载平衡、多路故障接替、多通道I/O和管理集中化等功能应当成为操作系统理所应当的普通功能,这才是真正具有实用意义的Cluster。

    Tru64 Unix以及其中的TruCluster服务器就是以上述要求为目标进行设计开发的,你会在其中看到多道处理、多线程、磁盘卷管理、日志系统、多通道I/0、扩展TCP/IP联网以及其他许多符合开放标准的新特性。

    TruCluster已经面世多年了,最新的版本仍然沿用了这个名字,但实现方法却截然不同了--Cluster功能已经成为Tru64 Unix之中不可分割的一个核心功能。这就是说,任何一套单独的Tru64 Unix软件,只要安装起来就已经在以Cluster的方式运行了。单一节点的Cluster本身虽然没有什么意义,但它的确使得这种技术一点也不神秘了-Cluster就在你的系统之中。用户不需要专门对系统任何重新配置,只要把第二套系统以Memory Channel的方式连接进来,系统中的两个节点就会自动探测和识别对方,并开始以Cluster的方式运行,一套真正的、完整的Cluster就自然而然地诞生了。虽然系统管理员仍然需要说明网络拓扑结构和其他一些细节,但大多数管理工作都是自动完成的。这就是Tru64Unix的设计理念:"最好的管理就是不必管理"。

TruCluster Server V5.0有哪些特点?

单一系统形象(SSI:Single System Image)

    其它厂商的UNIX集群中,各节点有自己的操作系统,所有的应用,工具,系统设置,系统配置,集群软件的安装……等都需要在每个节点上重复进行。因此随着集群节点数目的增加,集群管理的难度超线性增长,这大大增加了集群管理负担。

    而TruCluster Server V5.0集群是将一台至八台Alpha服务器由内存通道互连组成的,虽然物理上各节点是独立的,但在逻辑上和管理上,用户看到的是一台大的虚拟机一样。它们可共享同一个操作系统磁盘,共享任何文件系统,从同一个界面(SMS)管理所有的集群节点。所有的软件,包括操作系统,应用软件,集群软件只需安装一次,全集群范围内即可运行。它完全达到了单一系统形象的标准。极大地减少了UNIX集群的维护管理负担。它是目前世界上唯一达到此标准的UNIX集群。

集群文件系统(CFS)

    TruCluster Server V5.0集群是目前世界上唯一可共享文件系统的UNIX集群。各节点可共享目录,共享所文件系统。这给用户的应用环境带来极大的方便,各节点上的应用可同时访问同一个文件系统,而保证数据的完整性,一致性。集群文件系统的使用,也使集群范围有统一的安全性,增强了集群的安全性。集群文件系统也改进了高可用性的概念,它不再是单纯采用"停止故障机器上的服务,卸载相关的文件系统。而是提供了并行服务的机制。如C编译的,Forturm编译的,及ASU软件等,可在各节点机上并行运行。当一个节点发生故障时,客户端的请示可自动提交到正常机器上,而实现了快速故障切换。

共用Cluster地址

    系统中的任何服务请求都要通过IP地址提交给特定的服务资源。在以往的Cluster系统之中,如果系统管理员要改变其中某些节点的任务,就必须对其中各个部件的IP地址了如指掌。TurCluster服务器为其中所有的节点提供一个共用地址,服务请求可经由Memory Channel转变给运行相应服务的节点,负载分配也是由操作系统自动完成的。管理员不再面对众多的IP地址,管理工作显得轻松多了。除了简化负载管理,TruCluster共用Cluster地址的特性还使负载平衡机制成为系统之中与生俱来的功能,而不像别的系统那样把它作为一个特殊的选件来提供。

集群别名

    TruCluster Server V5.0支持集群别名,别名可以用于识别整个集群,或集群的一部分。这样客户机联接时,只需用集群别名来访问整个集群中任何可提供服务的节点,而不必关心究竟是哪个节点提供服务。完全实现了客户端透明的访问。

快速故障切换负载均衡

    TruCluster Server v5.0集群中提供了三种类型的高可用性的应用环境,一是Single-Instance,二是Multi-Instance,三是Cluster-aware。Single-Instance应用的高可用性是通过故障切换,重新启动应用实现的。Multi-Instance应用的高可用性是通过不同节点上并行运行的应用实现的。Cluster-Aware的应用的高可用性,如ORACLE的OPS并行数据库服务器是通过分布式并行运行实现的。在第二、三两种应用环境下,根据不需要故障切换,而且可负载均衡,增加对客户端的服务响应。

统一的集群管理

    TruCluster Server V5.0软件为系统管理员提供了Cluster全局视图和完整的控制手段,管理员可以选用自己喜欢的方式来访问系统信息、执行管理系统。可用统一的方式、统一的平台、统一的界面,在集群各个节点上看同样详细的管理信息和同样的管理功能,来管理集群就象管理单机一样。这也是目前其它UNIX厂商所没有的。

结论

    从最简单的双节点故障接替系统到多节点的Cluster系统,用户对于可用性的追求产生了多种不同的体系结构。我们已经看到,先进的Cluster系统具有负载均衡、资源共享、管理集中化和互连性能优化等新特性。

    对于不可间断的业务系统,更高的可用性是必不可少的,但又是不够的。有些用户的Cluster系统应用不够理想,常常是因为缺乏简单、直接的管理使用方法。如今,康柏已经把更好的解决方案放在您的面前,可伸缩性、可靠性和可管理性已经深深地埴入UNIX的核心,这就是带有TruCluster服务器的Tru UNIX。选择Tru64 UNIX,真正的Cluster就在你浑然不觉之中与生俱来了。

已有 0 位对此文章感兴趣的网友发布了看法    
我来评两句 登录邮箱: 密码:
  匿名发表
相关案例
解决方案速查(共有 14387 个方案)
基础软件
安全保密
管理软件
办公软件
软件开发
系统网络
图形多媒体
辅助设计
行业专用
教育教学
电子政务
其他软件
接入
通信
网络
存储
IT服务
电子杂志订阅
点击电子杂志名称查看样刊
输入E-mail地址即可订阅
E-mail
赞助商链接