К вопросу о коэффициенте готовности

от автора

В статье разъясняются некоторые моменты, связанные с практической реализацией требований к готовности вычислительной системы.

Обратите внимание: статья предназначена для обычных IT-специалистов и руководителей IT-подразделений, столкнувшихся с необходимостью удовлетворения формальных требований по готовности, и не содержит ничего нового для специалистов в области надёжности.

При построении систем, к которым предъявляются требования в области надёжности и отказоустойчивости, в отечественной инженерно-технической практике часто используются понятия коэффициента готовности Кг и коэффициента оперативной готовности Копер. В соответствии с ГОСТ 27.002-89,

Кг = Тиспр / (Тиспр + Тпрост),

то есть отношение времени исправной работы к сумме времени исправной работы и времени простоев;

Копер (t, тау) = Кг (t) * P (тау),

где P (тау) – вероятность безотказной работы на интервале тау, то есть вероятность того, что, если система была работоспособна в некоторый момент, то в следующие тау часов она не выйдет из строя.

Коэффициент оперативной готовности важен, в основном, для изделий, ресурс которых интенсивно расходуется в ходе эксплуатации – всяческого рода обрабатывающих твёрдый материал инструментов, стволов огнестрельного оружия, мощных лазеров и тому подобных разрушающихся при работе технических систем. Для достаточно надежных и долгоживущих устройств, к которым относится вычислительная техника, вероятность P (тау) на интервале единиц часов, характерном для типового сеанса работы, близка к единице, поэтому коэффициент Копер обычно очень мало отличается от Кг.

Основная сложность для вычислительных систем, как правило, состоит в обеспечении целевого значения коэффициента готовности Кг. К расчёту Кг можно подойти формально или вдумчиво.

При формальном подходе, подразумевается, что изделие всегда может быть отремонтировано заменой отказавшего блока на взятый из ЗИПа (запаса запчастей), лишь бы в ЗИПе нашёлся такой же. Для расчёта ЗИПа, исходя из заданных показателей надёжности блоков, существуют специальные методики и готовые программные средства, которые позволяют сравнительно легко получить требуемый результат.

При вдумчивом подходе, мы обязаны рассмотреть возможность ситуации, когда взятый из ЗИПа на замену блок оказался тоже неработоспособным (что вполне вероятно, учитывая характер деградации характеристик вычислительной техники, часто зависящей больше от времени жизни устройства, чем от интенсивности его работы). Вариантом этой ситуации является изначальное отсутствие в ЗИПе требуемого блока из-за слишком оптимистичной начальной оценки его надёжности. Тогда время простоя будет состоять из времени оповещения эксплуатирующим персоналом ответственных за ремонт лиц о неисправности, получения ремонтной организацией или подразделением неисправного блока, поиска и приобретения нового аналогичного, его проверки, настройки, отправки в эксплуатирующую организацию и замены. Практика показывает, что время простоя в таком случае практически невозможно сократить до величины менее двух месяцев (учитывая, что один только срок приобретения некоторых комплектующих может достигать 60 дней и более).

Решим простые пропорции, вытекающие из формулы коэффициента готовности:

Тиспр1 / (Тиспр1 + 2 месяца) = 0.95

и

Тиспр2 / (Тиспр2 + 2 месяца) = 0.99

для типовых величин коэффициента готовности 0.95 и 0.99.

Получаем: Тиспр1 = 38 месяцев (3 года) и Тиспр2 = 188 месяцев (16 лет).

Таким образом, для обеспечения коэффициента готовности Кг = 0.95 необходимо применять в эксплуатируемом изделии (и его ЗИПе) блоки с ожидаемым сроком службы 3 года и при этом восполнять ЗИП не более чем за 2 месяца. Такие условия представляются реалистичными, и стратегия восстановления работоспособности изделия путём замены отказавших блоков из ЗИПа в данном случае вполне адекватна.

Иная картина вырисовывается для Кг = 0.99. Для достижения коэффициента готовности 0.99 требуется обеспечить, чтобы либо ожидаемый срок службы всех блоков превышал 16 лет, либо ремонт при отсутствии запчастей на объекте выполнялся быстрее, чем за 2 месяца, либо всегда в течение 16 лет на объекте находился исправный ЗИП для всех блоков. Первые два требования удовлетворить при современном состоянии дел представляется нереальным. Последнее требование невозможно удовлетворить при пассивном хранении ЗИП, так как велика вероятность, что через 16 лет, когда выйдет из строя какой-то блок, его замена из ЗИП тоже окажется вышедшей из строя. Единственной возможностью удовлетворить это требование является постоянный контроль работоспособности и замена при выходе из строя всех блоков, в том числе и запасных. Способом обеспечения такого контроля является стратегия горячего резервирования.

Выводы:

1. Для современной вычислительной техники, при типовых условиях эксплуатации и обслуживания, возможно достижение коэффициента оперативной готовности 0.95 при стратегии восстановления работоспособности изделия путём замены отказавших блоков из ЗИПа.

2. Для современной вычислительной техники, при типовых условиях эксплуатации и обслуживания, достижение коэффициента оперативной готовности 0.99 невозможно путём только использования ЗИПа и требует использования горячего резервирования или другого метода постоянного контроля всех блоков, в том числе и запасных.

ссылка на оригинал статьи https://habrahabr.ru/post/281723/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *