Infortrend GS: конец истории


Так как компания Infortrend запретила мне использовать их “интеллектуальную собственность” и иные материалы после публикации статьи “Infortrend GS: страх, ненависть и безысходность", картинку пришлось делать самому.

И вот прошёл примерно год с момента прошлой публикации. Думаю ни для кого не станет сюрпризом конец этой истории. Могу сразу сказать, что слава богу, для нас лично всё закончилось хорошо, а вот для компании Infortrend, судя по всему, не очень. Но начну я с другой истории.

Вернёмся примерно на полгода назад. Примерно осенью 2018 года на хабре вышел обзор на Infortrend GS-серии от кого-то из наших Российских дистрибьютеров. Да простит меня автор - не помню от кого именно (у меня отвратительная память на имена). Естественно я не смог обойти стороной этот пост и к паре уже имеющихся комментов добавил вопрос об исправлении нашего бага. Вспомнил я про этот пост только через пару дней, и очень удивился, когда не смог его найти снова. Ну не смог и не смог, не очень то и хотелось, тем более я подозревал, каким может быть ответ на мой вопрос. Но пару месяцев назад, на одной из технических конференций в Москве, мне поведали продолжение этой истории. Оказывается, пост был согласован автором с Infortrend и представители компании имели с ним прямую связь и при этом читали комменты к посту. Примерно минут через 15 после моего комментария они связались с автором и попросили пост удалить со словами, что им нечего ответить на мой комментарий. Уж не знаю, сделан был акцент на меня по причине того, что эту историю рассказывали лично мне, или всё-таки это было связано с тем, что там была ещё пара не очень лестных комментариев, но из контекста рассказа мне стало понятно, что где-то на Тайване меня знают лично и считают чуть ли не врагом компании №1. Мне даже как-то приятно стало. Я то на Тайване никого не знаю, а меня знают 🙂

Но вернёмся к истории с нашим Infortrend GS 3060RL. Точнее вернуться нам придётся уже в февраль 2019 года, когда прошёл ровно год, как этот массив встал у нас в ЦОДе. Был обычный день и ничто не предвещало беды. В рамках внедрения новой системы мониторинга оборудования, инженерам группы эксплуатации СХД была поставлена задача добавить на подконтрольном им оборудовании ещё один SNMP сервер. К выполнению данной задачи они и приступили. Но каково же было их удивление, когда после внесения адреса второго SNMP сервера и нажатия на кнопку сохранения настроек дежурные инженеры сообщили о том, что система мониторинга сообщила о недоступности половины путей до данной системы. По итоге мы получили один недоступный контроллер, но слава богу половина путей всё ещё была активна и работа систем не была нарушена. Спустя полчаса ожидания все поняли, что интерфейс управления не переехал на второй контроллер и система остаётся неуправляема. Конечно в это время уже был открыт кейс и всё, что смог предложить саппорт, это перезагрузка массива. Наверное в понимании компании Infortrend перезагрузка продуктивной системы хранения данных это такая же рядовая операция как перезагрузка вашего ноутбука после установки обновлений Windows раз в неделю. Но, как я говорил в прошлой статье, год назад мы приняли решение о том, что на данной системе будут располагаться некритичные данные, которые спокойно относятся к простою или полной потери данных, т.к. их восстановление хоть и трудозатратный процесс, но вполне возможный. Было согласовано регламентное окно для перезагрузки массива.
Спустя неделю команда эксплуатации, совместно с инженерами в ЦОДе, приступила к перезагрузке массива. 30 минутное ожидание после выключения питания не привело ни к чему. Пути до лунов были в оффлайне, а интерфейс управления был недоступен. Совместно с сетевой группой даже был временно поднят DHCP сервер в этом VLAN, т.к. во время тестов мы уже сталкивались с тем, что после перезагрузки на массиве терялись сетевые настройки и он переходил на работу в режиме DHCP по-умолчанию. Но и это не дало никаких результатов. Передав все эти данные в саппорт мы стали ждать ответа. Работы проходили в выходной день, я уже был в курсе ситуации, запасся пивом и чипсами и следил за происходящим из дома через чат. Лично для меня, не стало неожиданностью то, что массив не поднялся. Я вполне ожидал такого поведения или просто полной потери все настроек с последующей потерей данных. Ввиду того, что саппорт Infortrend’а (по крайней мере нам) оперативно никогда не отвечал, работы в тот день были завершены.
В понедельник мы получили ответ от саппорта, который в очередной раз не смог поверить, что такая ситуация может быть и запросил фотографии всех индикаторов, которые только есть на массиве. В частности индикацию с контроллеров. Как дальше выяснилось - оба контроллера из-за каких то ошибок не могли загрузиться. Естественно, т.к. доступ к контроллерам был утерян полностью, мы не могли собрать лог-файлы или дампы, как того хотел саппорт и могли им предоставить только видео индикации контроллеров.
https://disk.yandex.ru/i/Of7RVR3N2g2oYA - видео с загрузкой контроллеров.
Естественно саппорту этого было недостаточно: "As of now, we only have video of 7-segment, no Log Files, No memory dump this information is not sufficient enough to find out the root cause.»
Так что ключевым предложением было заменить контроллеры: "Therefore, we recommend to process the RMA replacement on both controllers and once we receive the controller we will conduct the Failure Analysis Report.». Пока контроллеры были в пути, было предложено обходное решение.
Вот кто догадается - какие дальнейшие действия предложил саппорт? Лично у меня фантазии бы не хватило. Нам было предложено запустить систему без дисков. Я до сих пор сочувствую инженеру, который в тот день работал в ЦОДе, что ему мало того что пришлось вынуть 60 дисков, так ещё и разложить их там, чтобы потом без ошибок поставить обратно в том же порядке ибо никто не был уверен в том, что после этого мы данные не потеряем. Но самое интересное - без дисков массив запустился, сделал это без ошибок и со всеми старыми настройками, лишь без последнего изменения с внесением второго SNMP сервера. Вот тут удивился даже я. Получается что мы столкнулись с двумя проблемами одновременно. С одной стороны у нас завис контроллер и менеджмент на нём, ввиду указания дополнительных настроек, с другой стороны у нас были какие-то проблемы с дисками и/или рейд-группами, которые целый год работали прекрасно, но мешали контроллерам подняться после перезагрузки. Хотя сам саппорт эти 2 проблемы связывал между собой и предлагал попробовать подключиться консольным кабелем (который хоть и называл mini USB serial console, но был какой-то специальный и продавался только на алиэкспресе) чтобы сбросить настройки SNMP. Но данная система, на сколько мне известно, не хранит данные на дисках, у него нет выделенных дисков под ОС или что-то такое, всё храниться на флэшках на самих контроллерах. Если проблема всё-таки в SNMP, как извлечение дисков помогло загрузке?
Пока мы восстанавливали данные на другие системы, массив простоял около месяца в ожидании новых контроллеров. Когда же они приехал и были установлены в массив не изменилось ровным счётом ничего. Они так же не могли загрузиться.

К моему глубочайшему сожалению, в этот момент наша история разворачивается на 90 градусов в другую сторону, т.к. от нашего дистрибьютора (который наблюдал за этим кейсом со стороны) поступило предложение выкупить данную систему. Ведь формально год назад компания Infortrend не признала каких-то проблем в системе с их стороны, и на тогдашнее предложение дистрибьютора вернуть нам деньги в обмен на систему отказала. В этот же раз дистрибьютор, т.к. работаем мы с ним довольно часто и много, решил всё же избавить нас от проблем за свой счёт.

А вот так выглядит наша страница саппорт сайта с кейсами, где нет ни одного кейса. Ни тех, что заводились год назад, когда мы запускали систему, ни последнего.

Что же в итоге? Вместо Infortrend была заказана другая система. Думаю некоторые уже догадались по первой картинке, что именно это за система. А кто не понял этого лёгкого троллинга - приобрели мы аналогичную систему на 60 дисков от компании NetApp, а именно, уже давно проверенную временем (да и нами самими ибо есть уже две такие системы у нас в эксплуатации) E-серию, E2860.

Добавить комментарий