Night Hour

Reading under a cool night sky ... 宁静沉思的夜晚 ...

信息系统事后调查

Bench

最近在新闻上看到东京证券交易所科技系统的严重中断, 使我想到 Dave Zwieback 的一本书, The Human Side of Postmortems。 在 IT 行业里,科技人员都很怕系统发生故障,影响顾客或使用者。尤其那些受到政府管制的 National Critical Infrastructure, 一旦有问题出现就必须向监管机构报道。 严重的中断,业者可能受到处罚。

新加坡近年来也发生过金融业的一些系统中断,SGX (新加坡证券交易所) 也曾经有系统故障。当然 Post Mortems 也可用在网络安全事件(CyberSecurity Incidents)。 要如何避免系统故障,避免网络安全漏洞 ? 在事故发生时需要如何处理, 来尽快的恢复服务 ? 事后又要如何检讨,从中学习和改进 ? 人是其中的关键。 The Human Side of Postmortems, 这本书提到许多关于技术人员在故事时与事故后的各种状态。

它的倡议是对事,不对人, 不把事件推在个人身上,而是更加升入的思考,看看整体结构包括 Governance, Process, Technology, Culture 等等在哪里出现了疏漏。 这样才能真正的从中学习与改进,避免同样的事故发生。这就是 Blameless Post Mortems。

Dave Zwieback 也提到了利用正念训练 (Mindfulness training) 来减少压力。这对处理事故时有很大的帮助。 Mindfulness 的精神锻炼对人的身心有益。新加坡也有一名 很著名的 Mindfulness 专家, 他就是 Chade-Meng Tan。 他在谷歌推广了有科学性的 Mindfulness training,也创始了 Search Inside Yourself, 来帮助人们学习 Mindfulness。

在现实世界,Blameless Post Mortems,往往很难, 我们都看到一些严重的事故都需要有人承担责任。 IT 中断事故, 网络安全事故 (CyberSecurity Incidents),都如此。公正的赏罚分明,也是一中良好的管理方式。找到适当的平衡点很重要,不该把事故的责任完全推在个人身上。 世上所有的事都以人为主, Post Mortems, 也该如此。没有 IT 系统是不会故障的, 科技人员需要为此做好准备。

下面有 Dave Zwieback 的一段视频,讲述与介绍 The Human side of Postmortems, 值得观看。 https://www.youtube.com/watch?v=X3ujIcTieRk.

这里有个网页链接 Collection of Post Mortems 。它展示了一些发生过的 IT outages 和 post mortems。就连科技巨头像 Google, Microsoft, Facebook, Amazon, 等都会出现系统故障。在这些科技巨头工作的科技人员都是世界顶级的专业人才,但任然会发生 IT outages。

人不是完美的,所以人所造的系统也如此。世上没有 IT 系统是不会故障的,科技人员只能为此做好准备。