还剩6页未读,继续阅读
文本内容:
Hacmp(High AvailabilityCluster Multi-Processing)双机热备份软件的主要功能是提高客户计算机系统及其应用的可靠性,而不是单台主机的可靠性
一、双机系统的工作原理Hacmp的工作原理是利用来监控主机及网络、网卡的状态在一个HACMP LANHACMP环境中有网络和非网络网络即应用客户端访问的公共网,TCP/IP TCP/IP TCPAP该网可以是大多数所支持的网络,如等等AIX Ethernet,T.R.,FDDI,ATM,SOCC,SLIP,非TCP/IP网络用来为HACMP对HA环境(Cluster)中的各节点进行监控而提供的一个替代的通讯路径,它可以是用串口线将各节点连接起来,也可以TCP/IP RS232是将各节点的卡或者卡设置成方式SCSI SSATarget Mode
1、作为双机系统的两台服务器(主机A和B)同时运行Hacmp软件;、服务器除正常运行自机的应用外,同时又作为对方的备份主机;
23、两台主机系统(A和B)在整个运行过程中,通过“心跳线”相互监测对方的运行情况(包括系统的软硬件运行、网络通讯和应用运行情况等);、一旦发现对方主机的运行不正常(出故障)时,故障机上的应用就会即将住手4运行,本机(故障机的备份机)就会即将在自己的机器上启动故障机上的应用,把故障机的应用及其资源(包括用到的地址和磁盘空间等)接管过来,使故障机上IP的应用在本机继续运行;、应用和资源的接管过程由软件自动完成,无需人工干预;5Ha、当两台主机正常工作时,也可以根据需要将其中一台机上的应用人为切换到6另一台机(备份机)上运行2^3
二、安装配置前需作的准备工作Hacmp、划分清晰两台服务器主机各自要运行的应用(如机运行应用,机作为1A Bstandby)、给每一个应用(组)分配和心跳线2ServiceJps StandbyJpbootjp tty,ta主机(运行应用)A主机B(standby)、按照各主机的应用的要求,建立好各自的磁盘组,并分配好磁盘空间;
3、根据软件的要求,对服务器操作系统的参数作必要的修改4Ha
三、双机服务器系统的解决方案IBM HACMP的安装配置步骤如下HACMP
(一)在两台服务器上分别安装软件HACMP#smit installp(-)分别检查两台主机上安装的软件是否成功#/usr/sbin/cluster/diag/clverifysoftwareclusterclverifysoftwareValid Optionsare:IPPclverify.software Ipp若没有浮现则安装成功error
(三)分别配置两台服务器的地址和地址,保证网和bootlP StandbyIP boot网能通(用命令),用命令检查配置是否正确Standby pingsmit tcpipnetstat#netstat-i
(四)利用smittty在两台主机上增加一个「TY接口,配置心跳线(RS232)#smitty ttyttyOttyrs232Asynchronous TerminalLocation20-70-01-00Parent adaptersa2PORT number
[0]Enable LOGINdisableBAUDrate
[9600]PARITY[none]BITS percharacter
[8]Number ofSTOP BITS
[1]用查看是否配置好Isdev Cctty tty#lsdev Cctty在两台上分别输入如下命令S85_1#cat/etc/hosts/dev/ttyOS85_2#cat如窠在机能接收到信息,则表明心跳线已经配置好TTY S85_2TTY type
(五)具体配置及技巧TTY interfaceDescriptionStatusAvailable注的配置(或者修改配置)只需要在其中的一台主机上进行,当配置HACMP(或者修改)完毕后使用同步命令将配置结果传到此外一台主机上普通选S85_1在进行配置在上运行然后按照下面的步骤进行配置S85_1smit hacmp,#smit hacmp
1、Cluster Configuration
1.
1、酉己置Cluster Topology配置Configure Cluster/Add aCluster Definition*Cluster ID
[100]#*Cluster Name[sb_ha]配置增加两个Configure Nodes,Node*Node Names[s85_a]*Node Names[s85_b]配置分别配置两台机的地址,地址,Configure Adapters,service bootstandby地址及tty a_svc b_svc、a_boot b_bootx a_stdby b_stdby a_tty、b_ttya^svc*Adapter IPLabelNetwork Type[ether]Network Name[ethnet]Network AttributepublicAdapter FunctionserviceAdapter Identifier[
172.
16.
1.1]Adapter HardwareAddress[][s85_a]Node Name修改及文件,如修改文件,增加以下内容:/etc/hosts/.rhosts/etc/hostsa_svcb_svca_bootb_boota_stdbyb_stdby修改/.「文件,增加以下内容:hostsa svcb_svca_bootb_boota_stdbyb_stdby
1.
2、同步clusterCluster Configuration/Cluster Topology/Synchronize ClusterTopology在进行同步的时候可以先进行摹拟同步,当摹拟同步后再进行实Emulate OK际同步:actualSynchronize ClusterTopologyType orselect valuesin entryfields.Press EnterAFTER makingall desiredchanges.[TOP][Entry Fields]Ignore ClusterVerification Errors[No]+*Emulate orActual[Emulate]+、配置2Cluster Resources、定义一个资源组
2.1Define Resource Groups注意,在定义资源组的时候,要注意的先后顺序Participating Node NamesResource GroupName Newdata_resResource GroupName Node[]Relationship Participatingcascading[s85_a s85_b]NodeNames、定义应用服务器
2.2Define Application ServersServer Nameora_appNew ServerName[]start ScriptStop[/etc/start][/etc/stop]Script
2.
3、修改资源组属性Change/Show Resourcesfor aResource Groupdata_res组ResourceGroupName NodeRelationshipParticipating Nodedata_resNames ServiceIP labelcascadings85_a s85_bFilesystemsdefault isall[a_svc]Filesystems ConsistencyCheck[]Filesystems RecoveryMethodfsckFilesystems toExport FilesystemssequentialtoNFS mountVolume Groups[]Concurrent Volumegroups Raw[]Disk PVIDsApplicationServers[datavg logvg][]
2.
4、同步资源组Synchronize[][ora_app]Cluster Resources在进行同步的时候可以先进行摹拟同步,当摹拟同步Emulate OK后再进行实际同步actualSynchronize ClusterResourcesType orselect valuesin entryfields.Press EnterAFTER makingall desiredchanges.[TOP][Entry Fields]Ignore ClusterVerification Errors[No]+*Emulate orActual[Emulate]+、的启动及关闭3HAGMP启动过程1#smit cistart#tail f/tmp/hacmp.outMay2217:29:23EVENT COMPLETED:node_up_complete s85_a如果文件显示类似上述信息,则表明在本机上可以正常启/tmp/hacmp.out HACMP动关闭过程2#smit clstop、功能的测试4HACMP在配置完成并检查没有错误后,即可按的方法启动进行功能HACMP3HACMP,测试包括应用在同一台服务器的两个网卡能否切换,在两台服务器间能否切换等可用命令来看地址的切换情况#netstat-in
四、常见的故障解决方法HACMP将诊测并响应于三种类型的故障网卡故障,网络工作,节点故隙HACMP123下面就这三种故隙分别进行介绍、网卡故障1的群集结构中,除了网络以外,还有一个非网络,它实HACMP TCP/IP TCP/IP际上是一根“心跳”线,专门用来诊测是节点死机还是仅仅网络发生故障如下图所示,一旦节点加入了(即该节点上的已正常启动),该节点的各个Cluster HACMP网卡、非网络就会不断地接收并送信号,的参数是可调的,TCP/IP Keep-Alive K-A在连续发送一定数量个包都丢失后就可确认对方网卡,或者网络,或者节点发生HA故障因此,有了后,可以很轻易地发现网卡故障,因为一旦某块网卡K-A HACMP发生故障发往该块网卡的就会丢失K-A此时node1上的cluster manager(HACMP的“大脑”)会产生一个swap-adapter的事件,并执行该事件的script(HACMP中提供了大部份通用环境下的事件scripts,它们是用标准命令和工具来写的)每一个节点上都有至少两块网卡,一AIX HACMP块是提供对外服务,另一块是它的存在惟独service adapter,standby adapter,cluster知道,应用和并不知道manager client•旦发生事件后,将原来的地swap~adapter clustermanager serviceadapter IP址转移到上,而地址转移到故障网卡上,同时网络上其他节standby adapterstandby点进行ARP的刷新网卡互换(swap-adapter)在几秒内就可完成,以太网为3秒,并且这种转换对应用和来说是透明的,只发生延迟但连接并不中断client、网络故障2如果发往上的和网卡上的包全都丢失,而非网nodel servicestandby K-A TCP/IP络上的仍然存在,那末判断仍然正常而网络发生故障此时K-A HACMPnodel HACMP执行一个、节点故障3如果不仅网络上的全部丢失,而且非网络上的也丢失,TCP/IP K-A TCP/IP K-A那末断定该节点发生故障,并产生事件此时将有资源接管,即HACMP nodejown放在共享磁盘陈列上的资源将由备份节点接管,接管包括一系列操作Acquire disks,Varyon VG,Mount file systems,Export NFSfilesystems,Assume IPnetwork Address,Restarthighly availableapplications,M44IP地址接管和重新启动应用由HACMP来实现,而其他是由来完成AIX当整个节点发生故障时,将故障节点的转移到备份节点HACMP serviceIPaddress上,使网络上的client仍然使用这个IP地址,这个过程称为IP地址接管(IPAT),当一个节点掉后,如果设置了地址接管,网络上的会down IPclients自动连接到接管节点上;同样,如果设置了应用接管,该应用会在接管节点上自动重启,从而使系统能继续对外服务对于要实现接管的应用,只需在中把它们HACMP设置成并告诉启动这个应用的的全路径名和住application server,HACMP start script手该应用的的全路径名由此可见,应用接管的配置在中十分简stop scriptHACMP单,重要的是和的写作,这需要用户对自己应用的了解startscriptstop script、其他故障4只去检测网卡、网络和节点是否发生故障,并作出相应的转移、接管行为HACMP对于其他故障,那末缺省不作任何动作HACMP、硬盘故障a普通我们都将硬盘设置成方式或者方式,从而提供硬盘的高可用性RAID-5mirror将奇偶较验位分散在硬盘组中,因此当一组内的一个硬盘坏掉,组内的其他硬RAID-5盘可以通过奇偶较验位将该硬盘上的数据恢复出来方式一般是由硬件实现RAID-5的,如下的适配器,而且如果同一组内的两个硬盘坏掉,该组硬盘的数据7133SSA很可能就会全部丢失方式是将同一个数据写到至少两个物理外置上,因此它mirror的效率没有好,而且用盘量大,但安全性比高,而且它易于实现,通RAID-5RAID-5过中的可以很方便地设置AIX LogicVolume Management、硬盘控制卡b存储设备连接到主机上都必须通过一块控制卡,设备是设SCSI SCSIAdapter,SSA备是如果这块卡坏掉,与之连接的外设就无法利用有几种办法可以解SSAAdapter,决这个问题一种办法是用多个每一个主机上都有两块或者两块以上分别连接adapter adapter,o的数据,因此无论是硬盘坏掉,还是坏掉,所有好数据还是可以被主mirror Adapter机利用,不会浮现单点故障这种方法实现起来并不难,但必须配置多块而adapter,且必须采用数据方式这种方法也不用通过来实现mirror HACMP另一种方法仍只用一块利用中的错误通告adapter,HACMP Error Notification Facility机制来解决是提供的对其他设备的监控工具,任何报告给Error NotificationFacilityHACMP AIX的错误都能被捕获被采取相应措施提供了界面,使配置简单化error HACMPsmit我们已知道,用可实现硬盘镜像,当一个盘坏掉,仍有一份数据在镜像盘里,LVM数据仍可进行读写,但此时数据再也不有可用性,若镜像盘也坏掉则数据全部丢失所以在此例中,丢失的信息会大幅显示在控制台面PV LVM_PVMISS上,从而提醒用户去子细查看找出故障并修复它同样,此例中提error logHACMP供了界面,结合的功能,从而监控故障的发生AIX、应用故障c.如果用户的应用有调用,或者以身份来启动等,一旦应用发生故障,kernel callroot很容易导致操作系统掉,发生死机,这时实际上等于节点故障,会采down HACMP取相应接管措施如果只是应用自身死掉,仍正常运行,最多利用AIX HACMPError来提供监控功能,对应用本身不采取任何动作但如果应用中调Notification Facility用了的机制所提供的接口,就可以使应用AIX SRCSystem ResourceController API在掉后自动重新启动除了提供接口外,中的也提供这down SRCAPI HACMPclinfo样的API是它负责维护整个的状态的信息,clinfo clusterInformation daemon,cluster clinfo API允许应用程序利用这些状态信息来采取相应行动、故障d.HACMP如果中节点的进程掉,将其升级为节点故障,从而发cluster HACMPdown HACMP生资源接管如上所述,只全权负责诊断网卡故障、网络故障和节点故障这三类故障,HACMP并负责实现地址转换或者接管,以及整个系统资源硬件、文件、系统、应用程序,IP等等的接管对于这三类故障外的其他故障,可以结合基本功能和提AIX HACMP供的一些机制,如等,同样可以实现对故障的监ErrorNotificationFacility,clinfoAPI控并采取相应措施连接图Fast T。