Опыт обеспечения надёжности вычислительной техники при продолжительной эксплуатации

от автора

Заканчивается 10-летие эксплуатации малой серии сконструированных под моим руководством компьютеризированных систем, и можно, не претендуя на всеобщность выводов, тем не менее, по случаю юбилея, подвести некоторые итоги в части надёжности работы вычислительной техники на продолжительных интервалах времени.

Изделие, опыт эксплуатации которого мы рассматриваем, предназначено для проведения измерений в реальном масштабе времени и состоит из ряда электронных модулей собственной разработки и иерархически организованной группы компьютеров: промышленной рабочей станции верхнего уровня типа ICP PPC-5150 под управлением Windows, промышленного управляющего компьютера типа ICP WS-855 с одной процессорной платой Rocky-C800 под управлением DOS и встраиваемого компьютера Fastwel CPU-188 под управлением DOS. Единицей эксплуатации на объекте является группа из двух изделий, резервирующих друг друга, и группового комплекта ЗИП (запчастей и принадлежностей). Всего имеется порядка 10 объектов эксплуатации в различных населённых пунктах России (соответственно, 20 изделий). Гарантийный срок эксплуатации изделий составляет 10 лет, назначенный срок эксплуатации – 20 лет.

В целом, эксплуатация изделий за 10 лет прошла успешно. Благодаря удачно выбранной политике резервирования (полный горячий резерв плюс априорно наименее надёжные блоки и модули в ЗИПе), не было ни одного случая невозможности использовать изделие по целевому назначению.

Можно привести основные выводы в области надёжности для разработчиков компьютерных систем, полученные по результатам эксплуатации вышеупомянутой серии и, отчасти, других изделий.

1. Значительное число отказов изделий (в нашем случае – порядка 50%) связано с выходом из строя серийно выпускаемых компьютерных комплектующих.

2. Существует начальный период эксплуатации (несколько месяцев), в течении которого проявляются присущие комплектующим дефекты, не успевшие проявиться при тестировании у изготовителя. Статистика неисправностей на начальном периоде связана, по-видимому, с нераспознанным заводским браком, и существенно отличается от статистики дальнейшего периода (после года и далее), связанной с деградацией характеристик в ходе эксплуатации. Большинство неисправностей, обнаруженных в начальном периоде, в дальнейшем не повторяются.

3. Если компьютерные комплектующие изделия выходят из строя на втором-третьем году эксплуатации, можно с большой вероятностью утверждать, что такие же комплектующие будут выходить из строя и в дальнейшем. Из этого можно сделать вывод о целесообразности создания дополнительного ремонтного запаса по результатам двух-трёх лет эксплуатации, пока комплектующие данного типа ещё не сняты с производства.

4. Компьютеры типа PPC-5150 и их составные части выходили из строя многократно, в то время как WS-855 и CPU-188 и их составные части – ни разу после начального периода. Предположительно, это связано с более высокой степенью интеграции, более высокой частотой и более высокой температурой в PPC-5150.

5. Существует очень значительная зависимость вероятности выхода из строя электронных модулей от объекта их эксплуатации. Эта зависимость не сводится к человеческому фактору, так как за время формирования нашей выборки эксплуатирующий персонал на объектах менялся, а характер статистики – нет. Предположительно, причины сводятся к качеству электропитания или климатическим особенностям.

6. В компактных системных блоках, производители склонны выбирать нестандартные конструктивные решения и менять их по мере производственной необходимости. Это приводит к тому, что, например, номинально общая серия ICP PPC-5150 распадается на ряд конструктивно несовместимых между собой моделей. При отказе, например, материнской платы в старой PPC-5150, установить на её место плату от новой PPC-5150 невозможно (по крайней мере, без лобзика и эпоксидной смолы), и приходится заменять системный блок целиком. [Здесь могло бы быть упоминание о фирме Apple].

7. При проектировании изделий с продолжительным сроком службы повышенное внимание необходимо уделять встроенным источникам питания (батарейкам), срок службы которых ограничен. Если стандартные элементы питания, вроде, скажем, CR2030 на материнской плате, можно рассчитывать без труда заменить через несколько лет, то с интегрированными модулями и микросборками, включающими элемент питания в свой неразборный конструктив, могут возникнуть значительные проблемы при их снятии с производства.

8. Системный блок компьютера, положенный целиком в ЗИП, может оказаться очень кстати. Эксплуатирующему персоналу гораздо проще заменить системный блок целиком, а потом, совместно с изготовителем, разбираться с локализацией неисправности, чем пытаться найти неисправную деталь на месте. Вообще, практика показывает, что единственным видом ремонтных работ, который целесообразно поручать эксплуатирующему персоналу, не имеющему специальной квалификации, является замена неисправных блоков или модулей целиком.

ссылка на оригинал статьи https://habrahabr.ru/post/281945/