Ноя
11

Жара и отказоустойчивость




  • Утечка

  • Где водятся волшебники или “Солнышко, подвези до угла”!


  • Тем, кто не знает, что такое ЦОД и/или High availabilty cluster, читать этот пост вряд ли стоит. И не говорите, что вас не предупреждали.

    Несколько дней назад вышла из строя крупная вычислительная система одного из министерств РФ. Система проектировалась и создавалась с учётом требований по отказоустойчивости, и требования эти были достаточно жёсткими. В результате был создан классический High availabilty cluster – два одинаковых сервера подключены к одному дисковому массиву. Серверы полностью дублируют друг друга, ну а массивы современные сами по себе имеют высокую надёжность – отказ любого элемента в них не влечёт выхода из строя самого массива. В общем, всё по уму и по книжкам. Конечно, катастрофоустойчивого решения создать не получилось, но это и не требовалось по условиям задачи.

    Так вот, без всяких там катастроф эта система сейчас балансирует на грани полной потери всей наработанной информации!

    Дело было так. В Москве этим летом жарко. Сильно жарко. Поэтому один из кондиционеров, стоящих в серверной, «заплакал». Несколько лет назад я видел такое – из кондея внезапно вылилось около ведра воды, и водичка продолжала течь, пока не отрубили питание. Здесь было что-то похожее – кондиционер умер, водичка из него полилась и стекла в аккурат на дисковый массив упомянутого кластера.

    Дисковые массивы, конечно, надёжны, но несколько литров воды – это та ещё доза. Кластер остановился. Персонал засуетился, выяснил, что произошло и начал думать, как восстановить работу.

    По книжкам и по проекту восстановление делалось бы так: дисковый массив ремонтируется или меняется на новый. При этом данные могут оказаться потерянным – тогда их восстанавливают из резервной копии, которую делают ежедневно с помощью ленточной библиотеки.

    И всё бы ничего, если бы не нюанс: ленточная библиотека стоит в том же шкафу, что и дисковый массив. Причём над последним. Ну а поскольку водичка на нашей планете течёт снизу вверх, на ум лезут неприятные мысли: а что вода успела сделать, пока протекала через ленточную библиотеку?

    Ни разу не пробовал опускать в воду LTO-картриджи. Потому не берусь предсказывать, чем всё кончится в данном случае. Но одно я понял точно: при проектировании новых систем всегда буду советовать ставить дисковые массивы и ленты в разные шкафы. Ибо дерьмо случается.


  • Утечка

  • Где водятся волшебники или “Солнышко, подвези до угла”!



  • Социальные сети

    Рубрики

    Последние записи