Восстановление данных с RAID массива на контроллере Adaptec 6405
Последние пару дней прошли как в страшном сне в результате трагического ухода из жизни серверной материнской платы ASUS Z10PR-D16 (за что отдельное спасибо электрикам). Бесперебойник (к сожалению не управляемый) держался до последнего, отчаянно пища, но ему так никто и не пришёл на помощь и сервак вырубился аварийно.
После того как сервер ASUS RS500-E8-RS4 никак не отреагировал на кнопку включения питания, я ещё не осознавал всего масштаба утраты, самые ценные данные можно было поднять из бэкапа на NAS (уже научен горьким опытом), однако там было далеко не всё. На умершем серваке у меня RAID (10) массив из 4-x SATA дисков на весьма не плохом контроллере Adaptec 6405, что само по себе уже вселяло уверенности в сохранности данных... до тех пор пока не попробовал подрубить один из дисков к рабочему компу, чтобы снять эти данные.
Одинокий холодный муравей пробежал по моей спине, когда комп не увидел файловой системы на диске. Скажу честно, до сегодняшнего дня мне ещё никогда не доводилось восстанавливать информацию с RAID. Весь мой опыт сводился к тому, чтобы заменить вышедший из строя диск в самом рэйде, да и то это случалось всего пару раз и на разных контроллерах.
Дело в том, что технология RAID (в моём случае RAID 10, это когда два RAID 1 объединяются в RAID 0) подразумевает не просто дублирование информации на несколько дисков, как многие ошибочно думают. Процесс записи на диски происходит по определенному алгоритму, потому просто подключив диск из массива к компьютеру мы нифига не увидим.
Я попробовал натравить на один диск из рэйда программу R-Studio, но результат не впечатлил. Да, какие-то файлы и отдельные папки находятся, но целиком восстановить информацию таким способом, в разумные сроки, вряд ли получится.
Как восстановить данные с RAID массива на аппаратном контроллере Adaptec 6405?
Найти полезную информацию по данной проблеме в сети не удалось, как не старался - либо банальщина для откровенных чайников, написанная такими же чайниками, либо уже набившее оскомину "гуглить не пробовали?" от всевозможных "знатоков" (ну это когда сказать нечего, а казаться умным хочется).
Пришла мысль попробовать перекинуть RAID-контроллер Adaptec 6405 (обычный PCIe) вместе с дисками (обязательное условие соблюдения последовательности дисков в RAID) на другую платформу. В загашнике как раз пылился уже не молодой, но вполне рабочий сервер HP. К счастью, всё получилось как нельзя лучше, RAID не просто оказался целёхонек но, что самое удивительное, Windows 2008R2 без вопросов запустилась на новом железе, так что на сервере можно было сразу продолжить работу. Впрочем, задача такая уже не стояла, требовалось только снять недостающие данные.
Возможно кому-то моё решение покажется очевидным, вот только мне такой вариант нигде не встречался. Были большие сомнения в плане того где хранится информация о конфигурации RAID массива и как поведёт себя контролер на другом железе.
Не смогли ответить заработает ли такой вариант и поставщики, постоянно занимающиеся сборкой и продажей серверов, где он и брался - никто о подобным опытом восстановления RAID не делился. В подавляющем большинстве статей описывается восстановление массива при повреждении одного из дисков, но там везде были рабочие сервера.
Ещё довелось насладиться мерзким писком контроллера Adaptec 6405. Дело в том, что в моём сервере HP, салазок для четвертого винта не было и в корзине на этом месте стояла заглушка, потому 4-ый диск пришлось вставить без салазок. В общем, контроллер этого диска не увидел и истошно заголосил что типа беда, диска не хватает. Пришлось его успокаивать с помощью специальной утилиты Adaptec Storage Manager, нажав кнопочку с колокольчиком Silence (тишина). Благодаря избыточности массива RAID 10, отсутствие одного из дисков на целостность информации никак не влияет.
Альтернативные варианты восстановления данных с RAID и пара слов о сервере ASUS
Если бы моя затея с подкидываем контроллера Adaptec 6405 на другой компьютер не прокатила, наметил для себя пару запасных вариантов восстановления RAID.
Для начала планировал попробовать программно собрать массив из имеющихся дисков с помощью программы RAID Reconstructor (по хорошему сперва надо бы сделать образ каждого диска и проводить эксперименты уже с ними) или приобрести аналогичную материнскую плату ASUS Z10PR-D16, взамен вышедшей из строя (её ещё поищешь, так как вышло уже второе поколение, да и не дешевое это удовольствие). Правда, не покидает надежда что материнка просто ушла в какой-то защитный режим (опять лишь моя теория), в документации об этом ни слова, а техподдержка ASUS её пока не подтвердила и не опровергла, но об этом чуть ниже...
Отдельно хотелось рассказать о техподдержке ASUS. Как оказалось, про технические вопросы по телефону можно забыть, тут консультируют только по продажам (какого болта тогда это называется техподдержкой?), а всё остальное через сайт, предварительно заполнив соответствующую форму о вашем сервере. Но и тут тебе ответят лишь в течение 2-х дней, да и толка от первой линии обороны техподдержки никакого... предлагаются банальные варианты - попробовать другой блок питания (их на сервере сразу 2 штуки), сбросить BIOS и подключиться к ASMB-модулю для проверки логов.
Одно радует, что вся эта история привела к правильным выводам и выделены финансы для того, чтобы сделать всё по уму, а не в режиме максимальной экономии.
Комментариев: 3
Спасибо что делитесь подобной информацией бесплатно, это редкость в наше время. Теперь знаю как действовать, но надеюсь что такого не произойдёт.
Сегодня удалось-таки вывести материнскую плату сервера ASUS Z10PR-D16 из этого "пограничного" состояния. Правда точно сказать, что конкретно повлияло на восстановление работы, затрудняюсь ответить.
Сервер пролежал обесточенным, без жестких дисков, памяти и платы RAID контроллера практически неделю. То есть, фактически с материнской платы было всё снято. Несколько раз были переставлены перемычки очистки BIOS и переключения RAID контроллера на встроенный.
Первый удачный запуск сервера был без RAID и с единственной планкой памяти. Очень странное поведение, так как сервер вообще не подавал признаков жизни на подобные манипуляции ни сразу после аварийного отключения, ни после в течение пары дней. Специально описал всё, что делалось предельно подробно, может кто найдёт тут решение своей проблемы.
RAID - это хорошо, когда всё работает. Стоит произойти нештатной ситуации, начинаются танцы с бубном. Ситуации часто уникальны и стандартные алгоритмы к ним неприменимы. Информации по восстановлению данных действительно немного.
Отсюда вывод: ежедневный backup критически важных данных, желательно на другую машину.
Организаций много разных с разными возможностями, бюджетом, квалификацией персонала и пр. И RAID, призваный сократить риск потери данных, часто в реальных условиях становится источником дополнительных проблем.
Сам неоднократно сталкивался с подобными ситуациями...