2021年10月11日

故障率(MTBFとか)の説明って難しい

みずほ銀行の障害の件で”システム会社から「故障は4千年に1度」と説明されていた”というのが話題になってたけど、故障率(MTBFとか)の客先説明ってすごく難しいのですよね…
https://www.yomiuri.co.jp/economy/20211008-OYT1T50232/

二重化していない単純なPCみたいな装置では故障率は使用している全部品の故障率(FITという単位)の積み上げで計算して「MTBF(故障の間隔)は何万時間」とか計算するのだけれど、部品メーカーがデータシートとかに載せている値はすごく大きい(よい)値なので、単純に積み上げて計算すると、装置としてのMTBFはとても大きく(なかなか故障しない)なってしまう。
でも、現実は部品の故障だけでなく、使い方とかソフトウェアの不具合とか環境とかで実際の故障率はもっと大きい(よく壊れる、壊れたように見える)のでそのままの値を見せると「何千時間に1回の故障率と言ったのによく壊れるじゃないか!」とクレームになったりすることはよくあります。

例えばハードディスクなんて単体のデータシートにはMTBF100万時間(100年以上)とか書いてるメーカーもあったりするようだけど、実際は3年もすると故障はどんどん増えていき、5年以上故障しなければけっこう優秀、10年持ったら大当たり、ぐらいの感覚(実際に保守を請け負ってる会社ならもっと実態に近いデータを持ってるだろうけど)

2重化すれば理論的にはそれこそ「4千年に一度」ぐらいの故障率になるかもしれないけど、実際は切り替えのための仕組みは1重でそこが壊れればアウトだし、正常な側のディスクから交換した新品のディスクにデータをコピーして再び二重化するときに正常だった方のハードディスクの普段アクセスしてなかった部分を読みだしたらエラーが発生して両方ダウンしてしまう、なんてこともよくある話。

計算上のMTBFなんて机上の値で(良すぎて)とてもそのまま提示できるようなものじゃないのだけど、かと言って経験上の実態に近い値を言うと「そんなに故障するの?」「じゃ、他のとこから買うわ」となってしまう。
MTBFの客先への見せ方は難しかったですね。営業さんにちよっと見せたらそのままお客さんに言ってしまって後で問題になったり…

あと、開発側のプロの設計者でも「MTBFは寿命とは全く関係ない値」というのを理解してなかったり、MTBFが1万日でも1万台が稼働したら1日に1台は壊れて当たり前とか、通気口が塞がれて周囲温度が高温になったりしてたら数字上の故障率なんて意味をもたないぐらい壊れるとか。

「故障は4千年に1度」なんて二重化したシステムの計算上のMTBFだけを見て営業さんがセールストークでいかにも言いそう。
それを鵜呑みにしない知識が発注側にあるかどうかですね。
「仕様上のMTBFはわかりましたが契約上の故障率(稼働率、可用性)はいくらになりますか? それをオーバーした場合の補償はどのようになりますか?」ぐらいは確認しておいた方がいいと思うけど…
posted by one-hand-engineer at 11:42| Comment(0) | 日記 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント: