Топ-5 наиболее часто возникающих поломок в серверной

width:200px

28.04.11, Чт, 15:39, Мск,

Несмотря на то, что серверная является в большинстве компаний наиболее защищенным местом, поломки в ней все-таки возможны. Какие слабые места есть у серверных комнат, TAdviser рассказали эксперты.

В зависимости от функциональной нагрузки поломки в серверной могут быть разными. Если в вашей серверной стоит почтовый сервер, сервер хранилище файлов и сервер AD, то о каких-то серьезных проблемах говорить не приходится (при условии что «железо» в серверной не представляет из себя собранный на коленке «зоопарк»), говорит эксперт «Компас» Виктор Кононов.

Андрей Беляков, руководитель отдела департамента сетевой интеграции ЛАНИТ, напоминает, что в любой компании серверная – одно из наиболее защищенных помещений. Там поддерживается постоянный температурный режим, обеспечены бесперебойное питание и постоянный мониторинг оборудования. Тем не менее, оборудование серверной всё же выходит из строя.

Серверное помещение, кроме собственно вычислительного оборудования, содержит в себе совокупность инженерных систем - каналы связи, электропитание, охлаждение, пожаротушение, контроль доступа и прочее. Неисправности могут возникать в любой из этих подсистем, и быть, например, причиной каскада неисправностей в других, зависимых подсистемах. Также немалую долю сбоев вызывает «человеческий фактор», считает Александр Дубский, ведущий инженер департамента вычислительных систем компании КРОК.

1. Жесткие диски

По данным компании ЛАНИТ, первенство по частоте поломок удерживают жесткие диски. Многолетняя статистика остальных неисправностей приведена в таблице. Как зародилась масштабная коррупционная схема при внедрении ИТ в ПФР при участии «Техносерва» и «Редсис». Подробности 38.6 т

Частота поломок элементов серверов, %


Олег Замощин, руководитель отдела системной поддержки компании «Микротест» напоминает, что выход из строя дисков в серверах и системах хранения данных могут приводить к частичной либо полной потере данных, на них содержащихся. Спасают в данном случае отказоустойчивые технологии – RAID и другие.

Вообще же проблемы с жесткими дисками на серверах возникают, как правило, чаще, чем, с чем-либо еще. Это возникает от того что на серверах традиционно и в силу желания сэкономить используются такие же диски как и на пользовательских компьютерах, но вот нагрузка на них в серверной значительно больше, говорит Виктор Кононов.


2. RAID контроллеры

Отказоустойчивость ЦОД обеспечивается за счет RAID контроллеров, но и они не 100% надежны, констатируют эксперты. Виктор Кононов отметил, что, как правило, они очень объемны по своему размеру и довольно дорогостоящи. «Нередко руководство компаний начинает экономить на системах резервного копирования для них», - признал он.

В то же время выход из строя хотя бы одного из пяти жестких дисков рейда приводит к выходу из строя всего рейда. Случай из практики «Компас»: сервер баз данных на основе «сказевого» рейда, на сервере сгорает довольно уникальный блок питания, серверов с разъёмами для подключения этого рейда в компании больше нет, то есть переподключить рейд куда-нибудь, чтобы скачать с него данные, невозможно.

Правда, при использовании правильно подобранного «рейда» выход из строя одного диска не приводит к отказу системы, говорит Алексей Карпов, директор департамента инженерных систем компании «Астерос».

3. Блоки питания и электропитание

Чаще всего поломки в серверной вызывает сбой основного электропитания, который (при отсутствии резервного или нехватки его мощности и времени автономной работы) приводит к недоступности сервисов и, как правило, к выходу из строя аппаратных компонентов оборудования, иногда к выходу из строя систем полностью если они не имеют дублирующих компонентов, говорит Олег Замощин.

Однако это проблема успешно решается установкой резервных источников бесперебойного питания, рассказал Алексей Карпов. По этой же причине в ЦОД и серверных используются две независимые линии питания. Если у компании очень высокие требования к работоспособности серверов – например, допустимое время простоя дата-центров для аэропортов 1 минута в год, – то используются более дорогие способы, чтобы гарантировать электроснабжение. В частности, это использование дизельно-генераторной установки или еще более радикальный метод – строительство территориально распределенных ЦОД.

В случае выхода из строя блоков питания при наличии дублирования проблем для сервисов не возникает. При отсутствии дублирования – проблемы схожие с предыдущим пунктом. Источники бесперебойного питания (ИБП) также могут выходить из строя, не стоит сбрасывать этот вариант со счетов.

4. Системы кондиционирования

Большое число отказов оборудования серверной приходится на кондиционеры. Это связано с их конструктивными особенностями, в частности – с отсутствием внутреннего резервирования. Минимизировать возможные последствия их отключения можно избыточностью (дублированием) и строгим соблюдением правил монтажа и эксплуатации. Будет не лишним иметь в штате обученный персонал и склад запасных частей либо договор с эксплуатирующей организацией – это сократит время устранения неисправности.

Дмитрий Бутмалай, начальник отдела сетевых решений департамента системных решений IBS рассказал, что чаще всего выходит из строя то, что содержит движущиеся части, или имеет меньший ресурс, то есть как раз вентиляторы, а также упомянутые выше жесткие диски и блоки питания. «Чтобы избежать таких поломок, необходимо сотрудничать с «правильным», проверенным системным интегратором, который спроектирует, построит отказоустойчивый ЦОД и будет осуществлять его дальнейшее сервисное обслуживание», - отметил он.

5. Электронные компоненты

Александр Дубский назвал сразу несколько электронных компонентов, которые тоже зачастую оказываются уязвимы. Это платы расширения (адаптеры), системные платы, модули памяти, процессоры, трансиверы. Они выходят из строя с примерно одинаковой частотой.

На стабильность их работы влияют разные факторы, говорит Александр, такие как температура окружающей среды, пыль, влага и примеси в воздухе, электромагнитные поля, в том числе магнитное излучение Солнца, статическое электричество.

Кроме этого по его словам, поломки этих компонентов нередко возникают из-за нарушений в технологических процессах их производства. Современные тенденции вынуждают производителей наращивать мощности, повышать технические показатели своей продукции. Это достигается, например, увеличением числа микрокомпонентов на единицу площади, увеличением плотности записи информации, увеличением скорости вращения шпинделей в накопителях информации и так далее. Обратной стороной этих процессов является повышение вероятности отказа компонента, заключил эксперт.

Полностью отказоустойчивых систем нет, признают эксперты: рано или поздно подводит любое даже самое дорогостоящее оборудование. Поэтому немаловажное значение имеет еще и правильное проектирование информационных систем, с учетом их критичности для бизнеса и с применением передовых технологий по построению отказоустойчивых и катастрофоустойчивых сервисов, а также технологий обеспечения целостности данных.

Специалисты также говорят, что обновление оборудования серверных идёт очень высокими темпами и современные модели допускают горячую замену практически любых элементов (включая модули памяти) и обеспечивают бесперебойную работу.