还剩10页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
数据中心机房应急预案、系统故障应急流程系统故障应急流程说明
1.1
一、故障发生运维服务人员可从以下途径得知故障的发生:XX)中心内场人员通过运维平台发觉故障1)外场人员通过维护巡检发觉故障2)用户发觉故障,报给应急领导小组,或者运维微信群上报给3XX中心服务工程师)驻场工程师发觉故障4
二、报障受理监控系统运维服务人员得知系统故障发生后,马上响应,并向报障人或单位具体了解系统故障状况
三、信息研判运维服务人员依据了解到的系统故障状况进行分析推断,以确定采纳一般故障处理流程还是马上启动系统突发故障应急处理预案
四、预案启动如需启动应急预案,则马上通知应急领导小组,由领导小组启动应急预案,对系统突发故障应急事务进行全面管控处理
五、资源确认设备发生被盗或人为损害事务应急预案
3.10发生设备被盗或人为损害设备状况时,运用者或管理者应马上报告应急1领导小组,同时爱护好现场应急领导小组接报后,通知用户保卫部门、相关领导,一同核实审定现2场状况,清点被盗物资或盘查人为损害状况,做好必要的影像记录和文字记录事发单位和当事人应当主动协作公安部门进行调查3应急领导小组支配运维团队、事发单位与时复原系统正常运行,并4XX对事务进行调查运维团队应在调查结束后一日内书面报告应急领导小组XX并应向公司相关领导汇报
四、机房动力系统应急处理方案、外电中断后,值班人员应马上检查中心机房电源是否正常供电,并I UPS查明中断缘由,与时向负责人报告;、如因楼内线路故障,要求物业管理部门快速复原供电;
2、如因供电部门因素导致供电中断,马上向园区物业联系电话3请供电部门快速复原供电;XXXX-XXXXXXX,、如告知须要长时间停电,应作如下支配4预料停电小时以内,由供电;I1UPS抢修人员在机房现场实时测试记录备用电池的放电状况,预料停电小21时以上小时以内或者电池放电容量超过时,关掉非关键设备,确保各主240%机、路由器、交换机供电预料停电超过小时,在设备运行小时候关掉全部机器设备321电力系统复原供电后,硬件支持人员依据规定流程开启相关设备并马4上对电池进行均充一天内发生多次停电,放电容量在以下,均充转浮充后,50%浮充时间不少于小时一次停电放电容量在〜时,均充转浮充后,2450%80%浮充时间不少于小时48系统突发故障应急预案启动后,首先是依据现场突发故障实际状况、紧急程度、技术难度、备品备件等状况对相关资源(主要是参加人员)依据阅历进行调度和确认,主要有以下资源我公司技术支持人员;相关厂家技术支持人员;我公司聘请的技术专家
六、预案执行依据既定的预案进行突发故障抢修,如遇到问题与时向应急领导小组汇报
七、预案终止预案的终止时间由故障现场技术人员依据现场的实际进展状况,在与用户单位有关部门协调后报应急领导小组确定
八、结果上报预案中止后,相关预案参加人员将整个事务过程中全部收发信息、领导批示、事故调查报告、现场录像、图片等材料与时整理归档,并总结事务处理过程中的阅历和教训,修改、完善事务应急预案然后集中上报至应急领导小组编号(格式为-日期+两位序列号,其中日期按D0405格式,位序列号依据日期从起依次递增,例如“yyyy+mm+dd”201表示年月日第张应急流程管理报告)D401,20233141报告日期:年月日至年月日(统计时间段)应急流程(分类统计应急处理次数、完成次数、应急处理分布范围完成状况统计等)应急流程(对引起应急流程的缘由以与重大事故影响进行分类统缘由与影响统计分析)计应急处理(对应急处理所需时间进行统计)时间统计资源利用(对应急处理所需资源进行统计)状况统计费用统计(对应急处理所需费用进行统计)出现的问题和(依据上面的统计数据,对应急流程管理提出出现的问题建议以与对应急处理工作进行优化的建议)备注报告人签名:客户经理签名:时间:时间:巡检人员发现驻场工程师发运维服务中心呼叫中心接障机房应急预故群现故障值班发现故防案通信网络故障应急预案
3.1如属线路故障,应重新安装线路1采用应急故障正常故隙处理抢修预案流程司术家术家术持我持厂持专技支技支技支资源应急调度流程应急故障抢修处理信息整理故障排除现场核查结果上报结束如属交换机网络设备故障,技术人员马上检修并调试通畅如交换机配2置文件破坏,网络工程师应快速依据备份配置文件重新配置,调试通畅现场技术支持必要时,请有关供货单位、设备厂商帮助调XXX138XXXX5617O测畅通华为售后电话400-8229999如需更换设备,应上报分管领导,经批准后立刻更换故障设备,尽快复3原系统运行如发觉属于外部线路的问题,应与线路运营商联系,敦促尽快复原故障4线路移动运营商联通运营商XXX137XXXX1717;XXX156XXXX1216o现场技术支撑无法与时修理时,应马上通知相关供应商与维护人员,在5最短时间内支配修理特别状况,如故障推断、网络复原须要小时以上,负责人因61与时将相关状况汇报至分管领导处,并在领导同意的状况下,采纳紧急复原措施,绕过故障设备,先行复原网络的联通性,并与时督促与落实设备供应商抵达现场,与时推断故障并复原正常;应急处置结束后,运维团队应将故障分析报告,在调查结束7XX后一日内书面报告应急领导小组不良信息和网络病毒事务应急预案
3.
3、应急处理1发觉不良信息或网络病毒时,信息系统管理员应马上断开网线,终止不1良信息或网络病毒传播,并报告指挥调度中心运维团队和应急领导小组XX网络管理员分钟内将被攻击的服务器或其他设备从网络中隔离出来,230并复原其他系统正常运行,必要时可以实行照片、截图等方式留存记录,爱护现场;如事态较为严峻,经向分管领导请示后,马上向公安部门报警,协作公3安部门绽开调查.、修复处理2记录系统状况;1马上复制系统登录文件、历史文件、日志文件等重要文件;2修改防火墙、交换机等网络平安设备的过滤规则;3断开被攻主机、关闭不须要的服务;4处理可疑的文件和程序;5修改担心全的系统帐号与其口令;6复原被修改的软件和数据;7安装相应的补丁程序,填补平安漏洞;8编写报告,详述事务过程与处理步骤9事态或后果严峻的,应向开发区公安应急领导小组和相关领导汇报10现场相关技术人员向公司技术部沟通组织技术力气追查非法信息来源;11协调各厂家做好被攻击或破坏后系统的复原与重建工作;、软件故障分类操作系统故障,应用软件故障
1、实行的技术措施2在故障发生后马上查看服务器系统状态,假如是系统软件出现故障,并且能进入系统,且故障缘由定位清楚,可马上解除假如估计在小时内不能定位缘1由,则报告客户经理和应急指挥负责人,同时联系厂商与技术支持帮助解除,或依据技术支持建议进行重新安装操作系统和应用系统、软件系统平常必需存有备份,与软件系统相对应的数据必需有多日的备3份,并将它们保存于平安处;、应用软件发生故障后,软件现场负责人应对相应程序进行重启和问题初4步排查工作,如无法解决该问题,技术人员应马上向项目负责人或领导汇报,经确认后停止该系统的运行并沟通厂家运用备份程序进行复原,保证业务正常进行;、视频巡逻发生较严峻故障时可干脆联系海康厂家5XXX其余系统发生重大故障时可联系事业部项目经理:189XXXX5330;XXX XXX185XXXX6071O黑客攻击事务应急预案
3.5当发觉网络被非法入侵、网页内容被篡改,应用服务器上的数据被非法1拷贝、修改、删除,或通过入侵检测系统发觉有黑客正在进行攻击时,运用者或管理者应断开网络,并马上报告运维小组XX修改防火墙和路由器的过滤规则,封锁或删除被攻破的登陆帐号,阻断可疑用户进入网络的通道与时清理系统,复原数据、程序,复原系统和网络正常;状况严峻的,3应向开发区公安应急领导小组相关领导汇报,并恳求支援处置结束后,运维团队应将事发经过、处置结果等在调查工作结束4XX后一日内报告应急领导小组业务数据损坏应急预案
3.6发生业务数据损坏时,运维团队应与时报告应急领导小组,检查、1XX备份业务系统当前数据运维团队负责调用备份服务器备份数据,若备份数据损坏,则调2XX用中备份数据FTP业务数据损坏事务超过小时后,运维团队应与时报告应急领导小32XX组,与时通知业务部门以手工方式开展业务运维团队应待业务数据系统复原后,检查历史数据和当前数据的差4XX别,由相关系统业务员补录数据;重新备份数据,并写出故障分析报告,在调查工作结束后一日内报告应急领导小组核心设备硬件故障应急预案
3.7发生核心设备硬件故障后,运维团队应与时报告应急领导小1XX组,并组织查找、确定故障设备与故障缘由,进行先期处置若故障设备在短时间内无法修复运维团队应启动备份设备,保持系2XX统正常运行;将故障设备脱离网络,进行故障解除工作运维团队故障解除后,在网络空闲时期,替换备用设备;若故障
1.1XX仍旧存在,马上联系相关厂商,仔细填写设备故障报告单备查机房漏水应急预案
3.8发朝气房漏水时,第一目击者应马上通知运维团队,并与时报告监1XX控应急领导小组若空调系统出现渗漏水,运维团队负责人应马上支配停用故障空调,2XX清除机房积水,并与时联系设备供应方处理,同时启动备用空调,必要状况下可临时用电扇对服务器进行降温若为墙体或窗户渗漏水,运维团队负责人应马上实行有效措施确保3XX机房平安,同时支配通知办公室,与时清除积水,修理墙体或窗户,消退渗漏水隐患机房火灾应急预案
3.9完善机房环境,确保机房放置灭火器;禁止携带易燃易爆物品1进入机房机房管理人员应熟识机房内部消防平安操作和规则,了解消防设备操作2原理,驾驭消防应急处理步骤、措施和要领,懂得灭火的方法,会扑救初起火源一旦发生火灾,快速切断机房电源,避开灾情的扩散,并快速3和园区保安部联系,必要时马上报火警。