第359章 高可用指标、系统集成与优化(1/1)

天才一秒记住本站地址:[笔趣阁]
https://www.ibqg.vip 最快更新!无广告!

秦奕微微点头,条理清晰地介绍起来:“高可用指标大致涵盖基础可用性、业务连续性、数据一致性、性能与容量这四大方面,此外,还需配套相应的高可用性验证方法。”

“先说基础可用性指标。可用性百分比,指的是系统在指定时间内提供服务的时间占比,通过 1 减去计划外停机时间与总运行时间的比值,再乘以 100% 计算得出。光讲概念可能不太直观,我举几个例子。”

“一个可用性 99% 的系统,一年 365 天里,停机时间不超过 3.65 天,这类系统适用于非关键的内部工具,而可用性 99.9% 的系统,每年停机 8.76 小时,企业级 ERP 系统常用这类标准。”

“我认为,机场运行控制中心整体可用性至少要达到 99.99%,也就是一年不可用时间不超过 1 小时。其中,协同决策系统、应急响应等关键子系统,应朝着 99.999% 的标准努力,年停机时间需要能控制在 5 分钟以内。”

“平均故障间隔时间,反映系统两次故障之间的稳定运行时长,常作为硬件选型的参考。就像咱们讨论的企业级专用存储,其平均故障间隔时间通常要求不少于 200 万小时。要是磁盘矩阵的间隔时长超过这个标准,就说明它的可靠性更有保障。”

“行啊。” 吴松英点了点头,“那我后续重点关注下,看看你提出的磁盘矩阵方案,在这项指标上是不是更可靠。”

“哈哈,那吴市长你就期待一下吧。”秦奕接着说道,“剩下的最后一个基础可用性指标,平均修复时间是系统从故障发生到恢复的平均时长,这里定义的修复包括检测、诊断、修复、验证的整个流程。”

“这项指标主要用于指导我们快速恢复服务。”

“在故障发生之前,我们首先得想办法通过监控或者其他什么方式了解系统的整体运行状态,这样在故障发生之后运维人员能快速定位故障位置,同时在定位到故障之后,运维人员需要优先采用一些方式绕过故障硬件,恢复服务,而非急着彻底修复硬件。”

“接着是业务连续性指标,主要包括恢复时间目标和恢复点目标。前者指灾难发生后,系统恢复到可接受服务水平的最大容忍时间;后者则是灾难恢复时,允许的数据丢失量时间窗口。”

“这两项指标,对系统降级功能的设计起着指导作用。”

“一般来说,一个系统功能繁杂。以机场运行控制中心为例,除核心的航班、机位调度功能外,还会开发一些方便旅客的非核心商务功能。一旦系统崩溃,我们就得优先调配硬件资源,恢复航班、机位调度功能。”

“至于商务功能,我们可以等后续备份硬件到位,再进行恢复……”

随后,秦奕又向吴松英介绍了数据一致性、性能和容量指标的相关内容,并指出,一些系统还存在与自身业务紧密相关的其他指标。比如行李处理系统就有局部故障容忍指标,这指标要求单分拣机故障不影响系统整体运行,让系统整体具备一定的隔离性。

“你讲得这些指标很系统也很体系化,但是……”吴松英看着指标后面简略的可行性验证方法,眉头紧皱,“这验证方法似乎太过简略了。”

秦奕挠了挠头,解释道:“可行性验证方法,一般采用故障注入的方式,而不同的系统可能会有不同的故障,不同故障对系统造成的影响也不尽相同。”

“机场运行控制中心算是新兴系统,目前还没有契合该系统的完整测试样例,所以,我只能参照一般软件系统,确定验证方法,也就局限于断电、断网、关机等操作,不过您放心,在研发过程中,我们会逐步积累经验,完善相关验证方法。”

“明白。” 吴松英继续问道,“那系统原型通过验证之后,计划的下一步是什么?”

“系统原型通过验证后,第三步要推进系统集成与优化。” 秦奕回应道,“机场运行控制中心就如同机场的大脑,统一协调航班调度,合理各种资源,保障机场有序运行,但机场的正常运转,离不开一系列核心运营类子系统。”

“航班信息显示系统能实时为旅客和工作人员提供航班动态和行李转盘信息。离港控制系统管理着旅客值机、登机的整个流程。行李处理系统实现行李的自动化分拣与全程追踪,减少行李丢失、错拿的情况。”

“还有空管协同决策系统、机坪管理系统、资源管理系统和货运管理系统这些系统都需要与机场运行控制中心进行交互。另外机场运行控制中心还需与空管、航空公司、海关边检部门和气象部门等大量外部单位的系统对接。”

“所以,提前定义好系统间的交互协议十分关键,只有这样才能为后续与其他系统交互做好充分准备。”

“至于系统优化方面,主要从功能细节、数据处理和算法设计这几方面着手。”

𝐈 Ⓑ 𝕢 𝓖. v 𝐈 𝐏