2010/05/25 14:31:42

Система хранения данных - СХД

Система хранения данных (СХД) — это конгломерат специализированного оборудования и программного обеспечения, который предназначен для хранения и передачи больших массивов информации. Позволяет организовать хранение информации на дисковых площадках с оптимальным распределением ресурсов.

Каталог СХД-решений и проектов доступен на TAdviser.

Содержание

«Физика» хранения

Возможно, самая увлекательная часть компьютерной истории – это хроника систем хранения данных (CXД), потому что в этой области было большое разнообразие и в физике, и в системной организации, к тому же много лет здесь все было очень наглядно. Компьютеры довольно скоро лишились зрительной привлекательности, на смену красивым и разнообразным вакуумным лампам и отдельным полупроводниковым компонентам (триодам и диодам) пришли одноликие интегральные схемы и микропроцессоры. Теперь мы можем различать по надписям что-то, заключенное в корпуса разных размеров, различающихся количеством контактов. Физика полупроводниковых новаций в конечном итоге сводится к поиску научных и технологических решений, обеспечивающих увеличение плотности транзисторов на подложке. Эти важнейшие достижения не имеют внешнего вида и для потребителя сводятся к цифрам 0.18, 0.13, 0.11… Впрочем, сегодня то же самое можно сказать и о дисках – внешне это коробки нескольких типоразмеров, различающиеся содержимым.

За 60–70 лет СХД эволюционировали от простейших карт и лент с дырочками, использовавшихся для хранения программ и данных, до накопителей на твердом теле. На этом пути было создано множество непохожих друг на друг устройств – это и магнитные ленты, и барабаны, и диски, и оптические диски. Часть из них осталась в прошлом: это перфорированные носители, магнитные барабаны, гибкие (флоппи) диски и оптические диски, а другие живут и будут жить долго. То, что сегодня ушло, можно посмотреть и поностальгировать в музее устаревших медийных технологий Museum Of Obsolete Media. И в то же время, казалось бы обреченное, остается. В свое время предсказывали конец магнитным лентам, однако сегодня их существованию ничто не мешает, точно то же самое относится и к жестким вращающимся дискам (HDD), пророчества об их конце лишены какого-либо основания, они достигли такого уровня совершенства, что за ними сохранится их собственная ниша, невзирая ни на какие новации.

На нынешнем многоуровневом пейзаже СХД присутствуют ленточные библиотеки для резервного копирования и архивации, быстрые и медленные диски HDD, твердотельные диски SSD на флэш-памяти, мимикрирующие (интерфейсы, форм-фактор) под HDD прежде всего для согласования с существующим программным обеспечением и конструктивами, а также новейшие флэш-накопители в формате карт, подключаемых по интерфейсу NVMe. Эта картина сложилась под влиянием нескольких факторов, среди которых схема Джона фон Неймана, которая делит память на оперативную, непосредственно доступную процессору, и вторичную, предназначенную для хранения данных. Это деление укрепилось после того, как на смену сохраняющей свое текущее состояние ферритовой памяти пришла полупроводниковая, требующая загрузки программ для начала работы. И конечно же влияет удельная стоимость хранения, чем быстрее устройство, тем эта стоимость выше, поэтому в обозримом будущем останется место и для лент, и для дисков. Подробнее об эволюции СХД читайте здесь.

Как хранили данные раньше

Носители данных, использующие перфорацию

Перфокарты

До появления компьютеров на протяжении столетий в простейших устройствах с программным управлением (ткацкие станки, шарманки, часы-карильоны) использовали перфорированные носители самых разных форматов и размеров и барабаны со штифтами. Сохраняя этот принцип записи, Герман Холлерит, основатель компании TMC, позже вошедшей в IBM, сделал открытие. Именно, в 1890 году он осознал, как можно использовать перфокарты для записи и обработки данных. Он реализовал эту идею при обработке статистических данных, полученных в ходе переписи населения, а позже перенес ее и в другие приложения, чем обеспечил благополучие IBM на десятилетия вперед.

Почему именно карты? Их можно сортировать и к ним может быть обеспечен, условно говоря, «прямой доступ» с тем, чтобы на специальном устройстве-табуляторе, следуя несложной программе, частично автоматизировать обработку данных.

Формат карт менялся, и с 20-х годов международным стандартом стали 80-колонные карты. Монополия на них до начала 60-х принадлежала IBM.

Эти простые картонки с прямоугольными отверстиями оставались доминирующим носителем данных на протяжении нескольких десятилетий, они производились миллиардами. Об объемах потребления карт можно судить хотя бы по одному примеру Центра расшифровки немецких радиограмм в Блечли Парке: неделя работы – 2 миллиона карт, это среднего размера грузовик! Послевоенный бизнес тоже строился на хранении данных на картах. Говоря о перфокартах, следует помнить, что они использовались в Германии для сбора данных о людях, подлежащих уничтожению.

Перфоленты

Казалось бы, перфоленты – более практичные носители, но в бизнесе они практически не использовались, хотя устройства для ввода и вывода были существенно проще и легче. Их распространению мешал последовательный доступ, меньшая емкость и низкие скорости ввода и вывода, сложность архивации. Узкие 5-колонные перфоленты с 1857 года использовали для подготовки и последующей передачи данных по телеграфу, с тем чтобы не ограничить скорость ввода физическими возможностями оператора и тем самым лучше использовать пропускную способность канала. Широкие 24-колонные перфоленты были созданы для записи программ в электромеханическом калькуляторе Harvard Mark I в 1937 году. Как носитель, не подверженный воздействию разного электромагнитного и гамма-изучения, перфоленты широко использовались в качестве бортовых устройств, они до сих пор используются в некоторых оборонных системах.

Подробнее об эволюции СХД читайте здесь.

Магнитные ленты

Способ записи звука на катушечный магнитный носитель, сначала на проволоку был предложен в 1928 году. Магнитофон такого типа использовался в UNIVAC-1. Началом истории компьютерных магнитных лент считается IBM Model 726, входившая в состав компьютера IBM Model 701. Ширина ленты для IBM Model 726 и других устройств того времени была равна одному дюйму, но такие ленты оказались неудобны в эксплуатации. Из-за их большой массы требовались мощные приводы, поэтому вскоре им на смену пришли полудюймовые «открытые ленты» (open reel), в которых перемотка осуществлялась с одной бобины на другую (reel-to-reel). Они имели три плотности записи 800, 1600 и 6250. Такие ленты со съемными кольцами для защиты от записи стали стандартом для архивирования данных до конца 80-х годов.

В Model 726 использовали катушки от кинопленки, соответственно ширина ленты оказалось равной одному дюйму, а диаметр бобины – 12 дюймам. Model 726 была способна сохранять 1,4 Мбайт данных, плотность 9-дорожечной записи составляла 800 бит на дюйм; при движении ленты со скоростью 75 дюймов в секунду в компьютер передавалось 7500 байт в секунду. Сама магнитная лента для Model 726 была разработана компанией 3M (теперь Imation).

Довольно скоро от дюймовых лент отказались, из-за их веса при работе в старт-стопном режиме требовались слишком мощные приводы и вакуумные карманы, и на длительный период установилось почти монопольное господство полудюймовых «открытых лент» (open reel), в которых перемотка осуществлялась с одной бобины на другую (reel-to-reel). Плотность записи повысилась с 800 до 1600 и даже 6250 бит на дюйм. Эти ленты со съемными кольцами для защиты от записи были популярны на компьютерах типа ЕС и СМ ЭВМ. полудюймовых «открытых лент» (open reel), в которых перемотка осуществлялась с одной бобины на другую (reel-to-reel). Плотность записи повысилась с 800 до 1600 и даже 6250 бит на дюйм. Эти ленты со съемными кольцами для защиты от записи были популярны на компьютерах типа ЕС и СМ ЭВМ.

Стимулом к дальнейшему развитию стало то, что в середине 80-х емкости жестких дисков стали измеряться сотнями мегабайт или даже гигабайтами поэтому для них понадобились накопители резервирования, соответствующей емкости. Неудобства открытых лент были понятны, даже в быту кассетные магнитофоны быстро вытеснили катушечные. Естественный переход к картриджам происходил двумя путями: один – создавать специализированные устройства, ориентированные на компьютеры (по линейной технологии): второй – обратиться к технологиям, изобретенным для видеозаписи и аудиозаписи с вращающимися головками (по винтовой технологии). С тех пор сложилось разделение на два лагеря, которое придает рынку накопителей неповторимую специфику.

За тридцать лет было разработано несколько десятков стандартов картриджей, наиболее распространенный сегодня стандарт LTO (Linear Tape-Open), в процессе которых картриджи совершенствовались, повышалась их надежность, емкость, скорость передачи и другие эксплуатационные характеристики. Современный картридж – это сложное устройство, снабженное процессором и флэш-памятью.

Переходу на картриджи способствовало то, что сейчас ленты работают исключительно в потоковом режиме. Картриджи используются либо в автономных устройствах, либо в составе ленточных библиотек. Первой роботизированную библиотеку на 6 тыс. картриджей выпустила компания StorageTek в 1987 году.

Аналитики и производители дисков не раз предрекали лентам кончину. Известен лозунг «Tapes must die», но они живы и будут жить долго, потому что рассчитаны на многолетнее хранение больших архивов. Размер бизнеса, связанного с производством лентопротяжек, лент и ленточных библиотек в 2017 году оценивался примерно в $5 млрд. И чем больше становятся объемы информации, которые можно сохранить на жестких дисках, тем больше потребность в архивировании и создании резервных копий. На чем? Разумеется, на лентах: экономически оправданной по стоимости хранения альтернативы магнитным лентам пока не найдено. Нынешнее 8-е поколение стандарта LTO позволяет штатно сохранить до 12 Тб, а в компрессированном режиме 30 Тб, перспективе эти цифры возрастут на порядок и более, при смене поколений повышаются не только количественные показатели, но и другие эксплуатационные характеристики.

Подробнее об эволюции СХД читайте здесь.

Магнитный барабан

Временным способом для разрешения противоречий между технологией последовательной записи на ленту и необходимостью прямого доступа к данным на внешнем устройстве стал магнитный барабан, точнее цилиндр с неподвижными головками. Его изобрел австриец Густав Тучек в 1932 году

Магнитным является не барабан, у которого, как известно, рабочей поверхностью служит днище, а цилиндр с нанесенным на его боковую поверхность ферримагнитным покрытием, разделенным на дорожки, а они, в свою очередь, делятся на секторы. Над каждой из дорожек размещена собственная головка чтения/записи, причем все головки могут работать одновременно, то есть операции чтения/записи осуществляются в параллельном режиме.

Барабаны использовались не только в качестве периферийного устройства. До перехода на ферритовые сердечники оперативная память была чрезвычайно дорогой и ненадежной, поэтому в ряде случаев барабаны играли роль оперативной памяти, были даже компьютеры, называвшиеся барабанными. Обычно магнитные барабаны использовались для оперативной (часто изменяемой) или важной информации, к которой был нужен быстрый доступ. В условиях ограничений на размер оперативной памяти из-за ее дороговизны на них хранилась копия операционной системы, записывались промежуточные результаты выполнения программ. На барабанах впервые была реализована процедура свопинга, представляющая виртуализацию памяти за счет пространства на барабане, а позже и на диске.

Накопители на магнитных барабанах имели емкость меньше, чем диски, но работали быстрее, потому что в отличие от дисков в них головки неподвижны, что исключает время, требуемое для подвода к нужной дорожке.

Барабаны активно использовались вплоть до начала 80-х годов, некоторое время они жили параллельно с дисками. Барабанами комплектовалась ЭВМ БЭСМ 6 и ее современники. Из открытых источников известно, что последние барабаны простояли в системах управления ракетами Минитмэн до середины 90-х годов.

Подробнее об эволюции СХД читайте здесь.

Гибкие диски

Активная жизнь гибких (floppy) дисков растянулась на 30 лет с конца семидесятых до конца девяностых. Они оказались чрезвычайно востребованными в связи тем, что ПК появились раньше, чем у пользователей появилась возможность передачи данных по сети. В этих условия флоппики служили не только по прямому назначению для хранения резервных копий, но, пожалуй, в большей степени для обмена данными между пользователями, вот почему их еще называют sneaker, как кроссовки, типичную обувь программистов. Обмениваясь флоппиками, они создавали своего рода сеть – sneakernet.

Существовало 3 основных типа дисков и множество различных модификаций. Флопии-диски диаметром 8 дюймов были созданы в 1967 году в IBM, они задумывались как устройство первоначальной загрузки (bootstrap) для мэйнфреймов IBM/370 на замену более дорогой постоянной памяти (non-volatile read-only memory), ею комплектовалось предшествующее поколение IBM/360. Однако, осознав коммерческую ценность новинки, в 1971 IBM превратила флоппи в самостоятельный продукт, а в 1973 году руководитель разработки Алан Шугарт создал компанию Shugart Associates, ставшую ведущим производителей 8-ми дюймовых дисков с максимальной емкостью 1,2 Мбайта. Эти большие диски использовали на ПК, выпускавшихся до появления IBM XT. Особую популярность этот тип дискет получил благодаря операционной системе CP/M Гарри Килдала.

Что же касается дискет с диаметром 5,25 дюйма, то их появление напоминает анекдот о Николае II, который дольно своеобразно объясняет увеличенную ширину российской железнодорожной колеи по сравнению с европейской. В нашем случае Эн Ванг, хозяин компании Wang Laboratories, встретился в баре с выходцами из Shugart Associates, которые предложили сделать для его компьютеров более дешевый дисковод, но они не могли решиться на конкретный диаметр. Тогда Ванг взял коктейльную салфетку и сказал, что ему кажется, что размер должен быть таким. Пятидюймовые диски емкостью 360 и 720 Кб выпускали до конца девяностых годов, они были современниками компьютеров IBM XT и IBM AT, операционных систем MS-DOS и DR-DOS, верно служа становлению новой отрасли.

Предложенный в 1983 году Sony альтернативный картридж имел размер 90,0 мм × 94,0 мм, но его по традиции стали называть 3,5 дюймовым. В американской профессиональной среде он зовется стиффи (stiffy disk, перевод стоит посмотреть в словаре). После ряда усовершенствований в 1987 году был принят отраслевой стандарт 3,5-inch HD (High Density) с емкостью 1,44 Мб. Поначалу такими дисками комплектовали IBM PS/2 и Macintosh IIx, а позже он стал универсальным стандартом для PC и Macintosh. Попытки сделать во второй половине девяностых диски большей емкости Extended Density (ED) 2,88 Мб, а также казавшиеся перспективными магнитооптические Floptical disk 25 Мб, SuperDisk 120-240 Мб и HiFD 150-240 Мб рыночного успеха не имели.

Подробнее об эволюции СХД читайте здесь.

Почему возникла необходимость в СХД

Из проведенного исследования IDC Perspectives следует, что хранение данных занимает второе место среди расходов на ИТ и составляет примерно 23% от всех расходов. По информации The InfoPro, Wave 11 «прирост расходов на СХД в средней компании Fortune 1000 превышает 50% в год».

По общему мнению аналитиков, в организациях по всему миру ежеминутно вырастают объемы хранимой и обрабатываемой информации. Уникальная информация становится все дороже, ее объём каждый год увеличивается многократно, а её хранение требует затрат. Ввиду этого организации стремятся не только формировать развитие инфраструктуры хранения данных, но и изыскивать возможности улучшения и повышения экономической эффективности СХД: снижения энергопотребления, расходов на сервис, общей стоимости владения и закупки систем резервного копирования и хранения.

Рост объемов данных, возросшие требования к надежности хранения и быстродействию доступа к данным делают необходимым выделение средств хранения в отдельную подсистему вычислительного комплекса (ВК). Возможность доступа к данным и управления ими является необходимым условием для выполнения бизнес-процессов. Безвозвратная потеря данных подвергает бизнес серьезной опасности. Утраченные вычислительные ресурсы можно восстановить, а утраченные данные, при отсутствии грамотно спроектированной и внедренной системы резервирования, уже не подлежат восстановлению.

Происходит заметное развитие потребности не только в приобретении СХД корпоративными клиентами, но и в строгом учете, аудите и мониторинге использования дорогостоящих ресурсов. Нет ничего хуже остановки бизнес-процессов из-за невозможности своевременно получить необходимые данные (или полной их утраты), а ведь это может повлечь за собой необратимые последствия.

Факторы, способствующие развитию СХД

Основным фактором был рост конкуренции и усложнение ее характера во всех сегментах рынка. В Западной Европе эти явления можно было наблюдать и раньше, а в Восточной Европе — в последние пять лет. Пять лет назад у мобильного оператора было 25-25 млн зарегистрированных SIM-карт, а сегодня — 50-70 млн. Таким образом, мобильной связью от этих компаний обеспечен практически каждый житель страны, а ведь есть еще региональные операторы. Вот реальный уровень конкуренции: на рынке не осталось никого, кто не имел бы мобильного телефона. И теперь операторы не могут экстенсивно расти за счет продажи своих продуктов тем, у кого аналогичных продуктов еще нет. Им нужны клиенты, которые работают с конкурентами, и необходимо понять, как их получить. Надо разобраться в их поведении, в том, чего они хотят. Чтобы извлечь полезную информацию из доступных данных, необходимо поместить их в хранилище[1].

Еще один фактор — появление на рынке множества компаний, которые предлагают свои решения для поддержки бизнеса предприятий: ERP, биллинговые системы, системы поддержки принятия решений и т. д. Все они позволяют собирать детальные данные самого разного характера в огромных объемах. При наличии в организации развитой ИТ-инфраструктуры эти данные можно собрать вместе и проанализировать их.

Следующий фактор — технологического характера. До некоторого времени производители приложений самостоятельно разрабатывали разные версии своих решений для разных серверных платформ или предлагали открытые решения. Важной для отрасли технологической тенденцией стало создание адаптируемых платформ для решения различных аналитических задач, которые включают аппаратную составляющую и СУБД. Пользователей уже не волнует, кто сделал для их компьютера процессор или оперативную память, — они рассматривают хранилище данных как некую услугу. И это важнейший сдвиг в сознании.

Технологии, которые позволяют использовать хранилища данных для оптимизации операционных бизнес-процессов практически в реальном времени не только для высококвалифицированных аналитиков и топ-менеджеров, но и для сотрудников фронт-офиса, в частности для сотрудников офисов продаж и контактных центров. Принятие решений делегируется сотрудникам, стоящим на более низких ступенях корпоративной лестницы. Необходимые им отчеты, как правило, просты и кратки, но их требуется очень много, а время формирования должно быть невелико.

Сферы применения СХД

Традиционные хранилища данных можно встретить повсеместно. Они предназначены для формирования отчетности, помогающей разобраться с тем, что произошло в компании. Однако это первый шаг, базис.

Людям становится недостаточно знать, что произошло, им хочется понять, почему это случилось. Для этого используются инструменты бизнес-аналитики, которые помогают понять то, что говорят данные.

Вслед за этим приходит использование прошлого для предсказания будущего, построение прогностических моделей: какие клиенты останутся, а какие уйдут; какие продукты ждет успех, а какие окажутся неудачными и т.д.

Некоторые организации уже находятся на стадии, когда хранилища данных начинают использовать для понимания того, что происходит в бизнесе в настощее время. Поэтому следующий шаг — это «активация» фронтальных систем при помощи решений, основанных на анализе данных, зачастую в автоматическом режиме.

Объемы цифровой информации растут лавинообразно. В корпоративном секторе этот рост вызван, с одной стороны, ужесточением регулирования и требованием сохранять все больше информации, относящейся к ведению бизнеса. С другой стороны, ужесточение конкуренции требует все более точной и подробной информации о рынке, клиентах, их предпочтениях, заказах, действиях конкурентов и т.д[2].

В государственном секторе рост объемов хранимых данных поддерживает повсеместный переход к межведомственному электронному документообороту и создание ведомственных аналитических ресурсов, основой которых являются разнообразные первичные данные.

Не менее мощную волну создают и обычные пользователи, которые выкладывают в интернет свои фотографии, видеоролики и активно обмениваются мультимедийным контентом в социальных сетях.

Требования к СХД

Какой критерий выбора дисковых СХД для Вас важнее? Результат опроса на сайте www.timcompany.ru, февраль 2012 года
Какой критерий выбора дисковых СХД для Вас важнее? Результат опроса на сайте www.timcompany.ru, февраль 2012 года

Группа компаний ТИМ в 2008 году провела опрос среди клиентов с целью выяснить, какие характеристики наиболее важны для них при выборе СХД[3]. На первых позициях оказались качество и функциональность предлагаемого решения. В то же время расчет совокупной стоимости владения для российского потребителя явление нетипичное. Заказчики чаще всего не до конца осознают какие их ожидают издержки, например, затраты на аренду и оснащение помещения, электроэнергию, кондиционирование, обучение и зарплату квалифицированного персонала и проч.

Когда возникает необходимость приобрести СХД, максимум, что оценивает для себя покупатель, это прямые затраты, проходящие через бухгалтерию на приобретение данного оборудования. Впрочем, цена по степени важности оказалась на девятом месте из десяти. Безусловно, заказчики учитывают возможные трудности, связанные с обслуживанием техники. Обычно их избежать помогают пакеты расширенной гарантийной поддержки, которые обычно предлагают в проектах.

Практика компании AvroRAID показывает, что к покупке новой СХД или обновлению существующей потребителей подталкивает целый ряд проблем.

Причины приобретения СХД

Файл:AvroRAID.png

Источник: AvroRAID, 2010.

Из чего состоит СХД

Как правило, система хранения данных содержит следующие подсистемы и компоненты:

СХД часто предполагает монтаж в стандартный 19-дюймовый шкаф и содержит жёсткие диски, внешние интерфейсы для подключения хостов (серверов) и несколько блоков питания. Внутри располагаются процессорные блоки, контроллеры дисков, портов ввода-вывода, кэш-память и другие необходимые компоненты.

Файл:structure.gif

Пример структурной схемы СХД. 1. Контроллер, включающий центральный процессор (или несколько), интерфейсы для коммутации с жёсткими дисками и внешними портами, кэш-память. 2. Внешний интерфейс, в данном случае Fibre Channel. 3. Жёсткие диски – ёмкость расширяется дополнительными полками. 4. Кэш-память обычно зеркалируется, чтобы не потерять данные при выходе из строя одного из модулей.

Имеющиеся в системе диски можно разбивать на группы и объединять в RAID различных уровней. Получившееся дисковое делится на логические блоки (LUN) – к ним получают доступ хосты и «видят» их как локальные жёсткие диски. Количество RAID-групп, LUN-ов, логика работы кэша, доступность LUN-ов конкретным серверам настраивается администратором.

Дисковые массивы

В конце 90-х удачно сошлись две новации – научная база RAID и выпускаемые массовым тиражом винчестеры. Если собрать их вместе, оказалось возможным создать коммерческий накопитель кластерного типа, способный конкурировать с дисками IBM по техническим показателям при существенно меньшей цене.

Гигантизм дисков, выпускавшихся до появления винчестеров, находился в противоречии с незамысловатой логикой этих устройств. Их логика была примитивна, она почти полностью соответствовала физической инфраструктуре (сектора и дорожки). И, как малотиражные и специализированные изделия, они были дороги.

В 1988 году Майкл Рюттгерс, который в дальнейшем стал главным стратегом EMC, предложил разработать дисковую систему, состоящую из винчестеров, и поставлять их для мэйнфреймов, совместимых с IBM, и для AS/400. Другой, пожалуй, самый удачливый специалист по СХД Моше Янаи выдвинул идеологию кэш-памяти Integrated Cached Disk Array (ICDA), в результате родился прародитель дисковых кластеров EMC Symmetrix.

Осенью 1990 года, когда EMC представила Symmetrix, ставший легендой дисковых массивов, модель 4200 ICDA имела емкость 24 Гбайт, кэш-память 256 Мбайт и контроллер на базе 32-разрядного процессора. Symmetrix за несколько лет вывел компанию на позицию ведущего поставщика накопителей для мэйнфреймов. По данным IDC, ее доля на рынке накопителей для мэйнфреймов возросла с 1% (в 1990 г.) до 42,5% (в 1996 г.).

Symmetrix был дешев для мэйнфреймов, но слишком дорог для Unix-серверов и тем более для х86 серверов, поэтому немало компаний рвануло в открывшийся сегмент рынка, они предложили продукты, уступающие Symmetrix по качеству, но не столь дорогие. В последующем на рынке появилось множество моделей дисковых массивов самого разного назначения.

Ключевые требования к СХД

На практике к СХД подключается не один сервер, а многие десятки и сотни. Это диктует ряд ключевых требований к системам такого рода[4]:

Надёжность и отказоустойчивость. В СХД предусмотрено полное или частичное резервирование всех компонент – блоков питания, путей доступа, процессорных модулей, дисков, кэша и т.д. Обязательно наличие системы мониторинга и оповещения о возможных и существующих проблемах.

Доступность данных. Обеспечивается продуманными функциями сохранения целостности данных (использование технологии RAID, создание полных и мгновенных копий данных внутри дисковой стойки, реплицирование данных на удаленную СХД и т.д.) и возможностью добавления (обновления) аппаратуры и программного обеспечения в горячем режиме без остановки комплекса;

Средства управления и контроля. Управление СХД осуществляется через web-интерфейс или командную строку, есть функции мониторинга и несколько вариантов оповещения администратора о неполадках. Доступны аппаратные технологии диагностики производительности.

Производительность. Определяется числом и типом накопителей, объёмом кэш-памяти, вычислительной мощностью процессорной подсистемы, числом и типом внутренних и внешних интерфейсов, а также возможностями гибкой настройки и конфигурирования.

Масштабируемость. В СХД обычно присутствует возможность наращивания числа жёстких дисков, объёма кэш-памяти, аппаратной модернизации и расширения функционала с помощью специального ПО. Все перечисленные операции производят без значительного переконфигурирования и потерь функциональности, что позволяет экономить и гибко подходить к проектированию ИТ-инфраструктуры.

Типы СХД

Дисковые СХД

Используют для оперативной работы с данными, а также для создания промежуточных резервных копий.

Существуют следующие виды дисковых СХД[5]:

  • СХД для рабочих данных (высокопроизводительное оборудование);
  • СХД для резервных копий (дисковые библиотеки);
  • СХД для долговременного хранения архивов (системы CAS).

Ленточные СХД

Предназначены для создания резервных копий и архивов.

Существуют следующие виды ленточных СХД:

  • отдельные накопители;
  • автозагрузчики (один накопитель и несколько слотов для лент);
  • ленточные библиотеки (более одного накопителя, множество слотов для лент).

Варианты подключений СХД

Для подключения устройств и жестких дисков внутри одного хранилища используются различные внутренние интерфейсы:

Наиболее распространенные внешние интерфейсы подключения СХД:

Популярный интерфейс межузлового кластерного взаимодействия Infiniband теперь также используется для доступа к СХД.

Варианты топологий СХД

Традиционный подход к хранилищам данных состоит в непосредственном подключении серверов к системе хранения Direct Attached Storage, DAS (Direct Attached Storage). Помимо Direct Attached Storage, DAS, существуют устройства хранения данных, подключаемые к сети, — NAS (Network Attached Storage), a также компоненты сетей хранения данных — SAN (Storage Area Networks). И NAS-, и SAN-системы появились в качестве альтернативы архитектуре Direct Attached Storage, DAS. Причем каждое решение разрабатывалось как ответ на растущие требования к системам хранения данных и основывалось на использовании доступных в то время технологиях.

Архитектуры сетевых систем хранения были разработаны в 1990-х гг., и их задачей было устранение основных недостатков систем Direct Attached Storage, DAS. В общем случае сетевые решения в области систем хранения должны были реализовать три задачи: снизить затраты и сложность управления данными, уменьшить трафик локальных сетей, повысить степень готовности данных и общую производительность. При этом архитектуры NAS и SAN решают различные аспекты общей проблемы. Результатом стало одновременное сосуществование двух сетевых архитектур, каждая из которых имеет свои преимущества и функциональные возможности.

Системы хранения прямого подключения (DAS)

Основная статья: DAS

Устройства хранения Direct Attached Storage, DAS, также известные как SAS (Server Attached Storage), т. е. системы, подключаемые непосредственно к серверу, были разработаны много лет назад для расширения емкости хранения существующих серверов. В те времена при необходимости увеличения числа томов, связанных с приложениями, к серверу добавлялись новые диски либо приобретался новый сервер. Принимая во внимание технологические ограничения того времени (узкая полоса пропускания, медленные сети, дорогостоящие микропроцессоры) и относительно низкие требования к емкости и времени доступа, системы DAS были вполне адекватным решением.

Direct Attached Storage, DAS — это, по сути, расширение дисковой системы хранения отдельно взятого сервера. Клиенты получают доступ к данным, обращаясь к этому серверу через сеть. То есть сервер имеет блочный доступ к данным на СХД, а уже клиенты пользуются файловым доступом.

Image:DAS.gif

Устройства хранения данных, подключаемые к сети (NAS)

Основная статья: Network Attached Storage

Основная задача систем NAS — упростить совместное использование файлов. На базовом уровне устройства NAS — это оборудование, которое подключается непосредственно к локальной сети. В этом состоит их основное отличие от систем с индивидуальными серверами с прямым подключением изолированных накопителей.

Сети хранения данных (SAN)

Основная статья: Storage Area Networks

SAN — отдельная сеть хранения данных, которая обладает высокой производительностью и масштабируемостью, может расширяться как вертикально (путем добавления дополнительных дисков и полок расширения к единому дисковому хранилищу), так и горизонтально (с добавлением новых хранилищ в инфраструктуру сети). В этом случае серверы получают доступ к дисковым накопителям посредством сети SAN, и не нагружают локальную сеть. При необходимости можно организовать транспорт данных между сетями хранения.

Эти решения стали ответом не только на недостатки систем DAS и NAS, но, что более важно, на проблемы перегрузки каналов связи и задержки в локальных IP-сетях (10/100-Мбит/с). Впервые концепция SAN была предложена в 1998 г. Как и многие другие современные компьютерные технологии, она была заимствована из мира мэйнфреймов, где применялась, например, в центрах обработки данных для подключения компьютеров к системам хранения и распределенным сетям.

Многоуровневое хранение данных

Многоуровневое хранение данных (Data multy tiering) можно рассматривать как один из компонентов более широкого давнего понятия виртуализации памяти.

Термин virtual по отношению к памяти и СХД возник в 1959 году для обозначения виртуальной по своей сути внешней памяти на дисках, используемой для расширения внутренней памяти, которую в ту пору собирали из магнитных сердечников. Она по определению была очень маленькой, но при этом чрезвычайно дорогой. Маленькую и дорогую память подменяли прозрачным для процессора способом более дешевой дисковой памятью несравненно большего размера. В современных системах хранения точнее вести речь об интеграции хранения, замене физических адресов и номеров устройств логическими адресами и логическими номерами устройств и о более эффективных методах управления.

Появление SSD дало новый импульс к продолжению работ по виртуализации, нынешний этап называют Automated Tiered Storage (AST), на нем автоматически выполняются процедуры DataTiering, то есть перемещения данных по уровням хранения.

Появление SSD дало новый импульс к продолжению работ по виртуализации, нынешний этап называют Automated Tiered Storage (AST), на нем автоматически выполняются процедуры DataTiering, то есть перемещения данных по уровням хранения.

Необходимость в миграции данных связана с природой данных. Кривая распределения числа обращений к данным по времени напоминает гауссову кривую – количество обращений к свежим данным, требующим быстрого доступа, невелико, по мере старения данных оно возрастает, а далее падает и к архивированным данным на медленных устройствам количество обращений существенно меньше пикового. Это свойство данных побуждает к созданию многоуровневых СХД, на нынешнем уровне развития технологии можно реализовать 4-х уровневую модель: на 0 уровне – SSD, на них хранятся наиболее востребованные данные; на 1 уровне – быстрые диски SAS; на 2 уровне – медленные диски SAS или SANA, на 3 уровне – ленты. Принятая прежде трехуровневая схема из дисков SAS, SATA и лент устарела.

AST можно считать развитием ранее известного управления иерархическим хранением данных Hierarchical Storage Management (HSM), созданного в 1974 году для дисковой библиотеки IBM 3850, которая совместно с дисками впервые позволила образовать единое пространство данных. Возможно, использование нового названия отражает ускорение процессов миграции до уровня реального времени, что позволяет использовать SSD.

AST – это процесс перманентного перемещения данных между разными по стоимости устройствами в соответствии с «температурой» данных: чем данные горячее, тем дороже и соответственно быстрее может быть устройство, то есть SSD, а холодные данные можно переместить на ленту. Для этого AST по заданным алгоритмам периодически просматривает данные и осуществляет перемещение, руководствуясь температурой.

Следует различать функции AST с той ролью, которую играет кэш-память на флэш, подключаемая по NVMe. Принцип работы кэша проще, чем AST, любой кэш является инструментом, в него на время копируется фрагмент из более медленной памяти. Кэш – простой ускоритель, AST – оптимизирует использование ресурсов СХД.

Следует различать функции AST с той ролью, которую играет кэш-память на флэш, подключаемая по NVMe. Принцип работы кэша проще, чем AST, любой кэш является инструментом, в него на время копируется фрагмент из более медленной памяти. Кэш – простой ускоритель, AST – оптимизирует использование ресурсов СХД.

Работа с корпоративными данными является одной из важнейших составляющих цифровых изменений в компаниях. Эта работа требует наличия эффективных средств, поддерживающих интерфейс между иерархически организованными многоуровневыми системами хранения, аналитическими и другими технологиями, непосредственно служащими целям бизнеса. Такой интерфейс дает возможность трансформировать пассивно хранящиеся данные в важнейший актив предприятия, позволяющий извлекать полезные для принятия решений знания из накопленных данных. С возрастанием объема данных и появлением больших данных, значение взаимосвязи между данными и бизнесом многократно возрастает.

Отвечая на запросы, возникающие со стороны современного бизнеса, компания КРОК предложила собственную концепцию «Умное хранение данных», в соответствии с которой их хранение организуется с учетом их дальнейшего использования и возможности извлечения из них максимума полезной информации. Внедрение «Умного хранения данных» позволяет получить бизнес-преимущества за счет более эффективного использования корпоративной информации. Технологии, заложенные в концепцию «Умное хранение данных», распространяется как на структурированные данные, хранящиеся в реляционных СУБД, так и на стремительно возрастающие объемы неструктурированных данных. Совместно с партнером Dell EMС КРОК предоставляет возможность создавать производительную инфраструктуру для хранения данных на базе линейки массивов Dell EMC Unity. Благодаря гибкости и простоте управления можно легко объединять облачные среды, возможности all flash и гибридных СХД для перехода на новый уровень цифровой трансформации.

«Умное хранение данных» повышает экономическую эффективность работы с информацией за счет ее распределения по хранилищам, исходя из востребованности при одновременном соблюдении доступности данных для аналитических систем. К тому же поддержка рабочих процессов средствами «Умного хранения данных» позволяет повысить их надежность, поскольку данные хранятся и обрабатываются в общей и защищенной от сбоев среде. Перейти к новому подходу к хранению данных с помощью технологий Dell EMC можно максимально быстро и без капитальных затрат, воспользовавшись моделью Hardware as a Service.

Подробнее об эволюции СХД читайте здесь.

Программный и аппаратный RAID

Все существующие СХД делятся на использующие аппаратный RAID и специализированное ПО для расчета RAID – программный RAID[6]. Последние системы являются более экономичными. Теперь многие задачи обработки и хранения данных значительно эффективнее решаются в рамках СХД с программным RAID. Например - резервирование системных дисков и виртуальных машин, хранение и обработка видео, работа с крупными файлами в системах документооборота.

После лидерства программного RAID в начале девяностых годов на смену ему пришел аппаратный, и до недавнего времени именно он преобладал на рынке СХД. Программному RAID отводилась роль недорогих любительских и домашних систем хранения. Сейчас имеется класс задач, которым вполне достаточно программного RAID, предоставляемого непосредственно ОС Windows, Unix и другими. СХД с программным RAID из категории систем начального уровня вышли на корпоративный рынок.

Файл:RAID.gif

Составляющие программного RAID

Развитие направления СХД с программным RAID во многом определяют компании, выпускающие стандартные комплектующие: процессоры с новыми встроенными командами, коммутаторы и корзины, поддерживающие более производительные протоколы передачи данных. Серверные комплектующие нового поколения и их привлекательная цена, инновационные алгоритмы расчета, – все это позволило СХД с программным RAID превзойти по характеристикам аналоги с аппаратным RAID.

Производители СХД с программным RAID используют всю мощь нового поколения аппаратных комплектующих и на один-два года опережают производителей аппаратных RAID-массивов по срокам выпуска новых моделей. В то время как производителям аппаратного RAID необходимо модернизировать производственный процесс, для СХД с программным RAID достаточно протестировать новую корзину или процессор, - и новая модель готова к поставке.

Среди достоинств программного RAID можно отметить высокую производительность на платформе x86-64, недорогие, доступные и взаимозаменяемые серверные комплектующие, а также привлекательную стоимость обработки и хранения данных. При этом стоимость модернизации системы будет довольно низкой за счет покомпонентного обновления аппаратных и программных средств, а также их значительно больших функциональных возможностей. Программный RAID позволяет реализовать шифрование на уровне кода процессора, например, Intel Core i7). Подобные системы обладают повышенной отказоустойчивостью N+2 и даже N+3.

Об интересе российских потребителей к СХД на основе программного RAID свидетельствует ряд факторов. Крупные российские интеграторы включили в свои предложения системы хранения на основе программного RAID. В прайс-листах российских сборщиков серверов и систем хранения подобные системы занимают примерно 20-30%. Владельцы ЦОДов размещают ресурсы на программных RAID в соответствии с практиками многоуровневого хранения данных (см. далее).

Мировой рынок СХД

Основная статья: СХД (мировой рынок)

На фоне кризиса и летящих вниз объемов продаж на мировом ИТ-рынке, сегмент систем хранения данных остается не только стабильным, но и растет.

Разработчики систем хранения данных

Условно всех производителей СХД можно разделить на мировых лидеров (бренды «А»), других крупных изготовителей (бренды «Б») и локальных (местных) сборщиков. До недавнего времени на российском рынке СХД был представлен ограниченный набор решений, базирующихся в основном на архитектурах DAS (Direct Access Storage) или SAN (Storage Area Networks) на основе протокола Fibre Channel.

Компании из первой группы завоевали наивысший авторитет на рынке. Они располагают широкой партнерской и сервисной сетью по всему миру, вкладывают огромные средства в разработку новой продукции и маркетинг, имеют миллиардные финансовые обороты (в частности, в секторе систем хранения данных)и т.д. На продукцию ведущих мировых производителей (А-бренды) приходится основная доля продаж внешних дисковых СХД, как в количественном, так и в денежном выражении.

Ведущие мировые разработчики СХД:

Рынок СХД переживает бурный подъем, и закономерно на нем продолжается череда поглощений независимых разработчиков крупными игроками. В частности, Dell приобрела Compellent Technologies, ранее HP поглотила компанию 3PAR (нимало поторговавшись с той же Dell), EMC присоединила к своей линейке продуктов Kazeon и Isilon Systems.

Поскольку СХД неотделимы от вычислительных ресурсов, то неудивительно, что многие крупнейшие мировые производители систем хранения являются одновременно и лидерами на серверном рынке. Из перечисленных выше производителей только три занимаются исключительно СХД — это EMC, Hitachi и NetApp.

Из производителей СХД, представленных в нашей стране, отметим компании, которые относятся к упомянутому выше классу «Б».

Набирающая популярность концепция публичных облаков оказывает влияние на сегмент СХД. Владельцы публичных облаков менее склонны к выплате бренд-премии, что может открыть широкие возможности для производителей второго эшелона, нишевых или новых игроков[7].

Отечественные производители дисковых СХД (например, компания DEPO Computers (Депо Электроникс)) собирают свои системы на базе компонентов зарубежных производителей, в том числе Microsemi (ранее Adaptec), Chenbro, Falconstore, Intel, LSI Logic, Lustre и других. В целом же СХД местного производства поставляются преимущественно в небольшие проекты. Кроме того, важно отметить, что в сегменте СХД наблюдается стойкая тенденция к вытеснению отечественных компаний мировыми.

Важным отличием систем А-брендов от СХД местного производства является наличие у них специального ПО, предназначенного для восстановления и защиты данных, резервного копирования, удаленного управления и мониторинга, «управления жизненным циклом информации» (Information Lifecycle Management, ILM), диагностики и т.д. ПО с похожими функциями разрабатывает и множество независимых компаний, поэтому его можно приобрести отдельно. Конечно, при отсутствии проблем с совместимостью.

Стоимость СХД очень сильно зависит от функциональных возможностей и дополнительных опций – модулей расширения, типа жестких дисков, сервисного обслуживания и т.д[8].

Российский рынок СХД

Основная статья: Рынок СХД в России

В последние несколько лет российский рынок СХД успешно развивается и растет. Так, в конце 2010 года выручка производителей систем хранения, проданных на российском рынке, превысила $65 млн, что по сравнению со вторым кварталом того же года больше на 25% и на 59% 2009-го. Общая емкость проданных СХД составила примерно 18 тыс. терабайт, что является показателем роста больше чем на 150% в год.

Российский рынок систем хранения данных развивается чрезвычайно динамично в силу того, что он ещё очень молод. Отсутствие унаследованного оборудования не оказывает на него значительного влияния, поскольку из-за взрывного роста объемов данных старые системы попросту не отвечают требованиям клиентов и «вымываются» значительно быстрее, чем, например, древние серверы и рабочие станции.

Стремительный рост объемов данных все чаще вынуждает отечественные компании приобретать внешние дисковые системы хранения. Этому в немалой степени способствует и традиционная тенденция снижения стоимости ИТ-компонентов. Если раньше внешние СХД воспринимались только как атрибут крупных организаций, то теперь потребность в этих системах не отвергают даже небольшие компании[9].

Основные этапы проектов создания хранилищ данных

Хранилище данных — очень сложный объект. Одним из основных условий для его создания является наличие грамотных специалистов, понимающих, что они делают, — не только на стороне поставщика, но и на стороне клиента. Потребление СХД становится неотъемлемой частью внедрения комплексных инфраструктурных решений. Как правило, речь идет о внушительных инвестициях на 3-5 лет, и заказчики рассчитывают, что в течение всего срока эксплуатации система в полной мере будет отвечать предъявляемым со стороны бизнеса требованиям.

Далее, необходимо обладать технологиями создания хранилищ данных. Если вы начали создавать хранилище и разрабатываете для него логическую модель, то у вас должен быть словарь, определяющий все основные понятия. Даже такие расхожие понятия, как «клиент» и «продукт», имеют сотни определений. Только получив представление о том, что означают те или иные термины в данной организации, можно определить источники необходимых данных, которые следует загрузить в хранилище.

Теперь можно приступить к созданию логической модели данных. Это критически важный этап проекта. Надо от всех участников проекта создания хранилища данных добиться согласия относительно актуальности этой модели. По завершении этой работы становится понятно, что в действительности нужно клиенту. И только потом имеет смысл говорить о технологических аспектах, например о размерах хранилища. Клиент оказывается лицом к лицу с гигантской моделью данных, которая содержит тысячи атрибутов и связей.

Необходимо постоянно помнить, что хранилище данных не должно быть игрушкой для ИТ-департамента и объектом затрат для бизнеса. И в первую очередь хранилище данных должно помогать клиентам решать их самые критичные проблемы. Например, помочь телекоммуникационным компаниям предотвратить утечку клиентов. Для решения проблемы необходимо заполнить определенные фрагменты большой модели данных, и затем помогаем выбрать приложения, которые помогут решить эту проблему. Это могут быть очень несложные приложения, скажем Excel. Первым делом стоит попытаться решить основную проблему с помощью этих инструментов. Пытаться заполнить всю модель сразу, использовать все источники данных будет большой ошибкой. Данные в источниках необходимо тщательно проанализировать, чтобы обеспечить их качество. После успешного решения одной-двух проблем первостепенной важности, в ходе которого обеспечено качество необходимых для этого источников данных, можно приступать к решению следующих проблем, постепенно заполняя другие фрагменты модели данных, а также используя заполненные ранее фрагменты.

В каталоге TAdviser перечислен ряд российских компаний, имеющих отношение к поставкам и внедрению СХД и предоставлению сопутствующих услуг. Одновременно стоит понимать, что в ряде крупных проектов некоторые вендоры могут участвовать напрямую, в первую очередь, НР и IBM. Некоторые заказчики в этом случае чувствуют себя увереннее, всецело полагаясь на сервисную поддержку ведущих мировых производителей. Безусловно, стоимость владения в этом случае заметно повышается.

Тенденции и перспективы

2018

Проблемой №1 для большинства крупных корпоративных заказчиков стала на сегодняшний день разнородная инфраструктура СХД: организациям нередко приходится поддерживать десятки СХД различных классов и поколений от разных производителей, поскольку разные приложения предъявляют разные требования к хранению данных. Так, критически важным транзакционным системам (биллинговым, процессинговым, ERP и т.п.) требуются высокая надежность и производительность, свойственные СХД верхнего ценового сегмента. Для аналитических систем нужны высокая производительность и низкая стоимость в расчете на единицу хранения, поэтому для них резервируются СХД с твердотельными дисками (SSD). А, например, для работы с файлами нужны функциональность и низкая стоимость, поэтому здесь применяются традиционные дисковые массивы. В разнородной инфраструктуре уровень утилизации СХД оказывается низким, общая стоимость владения (TCO) — непомерно высокой, управляемость — слабой, к тому же сложность такой инфраструктуры хранения, как правило, велика[10].

Еще одна серьезная проблема — модернизация СХД. Зачастую СХД, приобретенная три-пять лет назад, уже не справляется с растущими объемами данных и требованиями к скорости доступа к ним, поэтому приобретается новая система, на которую переносятся данные с прежней. По сути, заказчики, повторно платят за объемы хранения, требуемые для размещения данных и, кроме того, несут расходы на установку новой СХД и перенос данных на нее. При этом прежние СХД, как правило, еще не настолько устаревшие, чтобы отказываться от них полностью, поэтому заказчики пытаются приспособить их под другие задачи.

2009

Стремительная эволюция ежегодно вносит серьезные изменения в основные тренды развития СХД. Так, в 2009 году во главу угла ставилась способность экономично распределять ресурсы (Thin Provisioning), последние несколько лет проходят под знаком работы СХД в "облаках". Спектр предлагаемых систем отличается разнообразием: огромное количество представленных моделей, различные варианты и комбинации решений от начального уровня до Hi-End класса, решения под ключ и покомпонентная сборка с применением самой современной начинки, программно-аппаратные решения от российских производителей.

Стремление к сокращению расходов на ИТ-инфраструктуру требует постоянного баланса между стоимостью ресурсов СХД и ценностью данных, которые на них хранятся в данный момент времени. Для принятия решения о том, как наиболее эффективно размещать ресурсы на программных и аппаратных средствах, специалисты ЦОД руководствуются не только подходами ILM и DLM, но и практикой многоуровнего хранения данных. Каждой единице информации, подлежащей обработке и хранению, присваиваются определенные метрики. В их числе степень доступности (скорость предоставления информации), важность (стоимость потери данных в случае аппаратного и программного сбоя), период, через который информация переходит на следующую стадию.

Пример разделения систем хранения в соответствии с требованиями к хранению и обработке информации по методике многоуровневого хранения данных.

Вместе с тем, возросли требования к производительности транзакционных систем, что предполагает увеличение количества дисков в системе и соответственно выбор СХД более высокого класса. В ответ на этот вызов производители снабдили системы хранения новыми твердотельными дисками, превосходящими прежние по производительности более чем в 500 раз на `коротких` операциях чтения-записи (характерных для транзакционных систем).

Популяризация облачной парадигмы способствовала повышению требований к производительности и надежности СХД, поскольку в случае отказа или потери данных пострадают не один-два подключенных напрямую сервера — произойдет отказ в обслуживании для всех пользователей облака. В силу той же парадигмы проявилась тенденция к объединению устройств разных производителей в федерацию. Она создает объединенный пул ресурсов, которые предоставляются по требованию с возможностью динамического перемещения приложений и данных между географически разнесенными площадками и поставщиками услуг.

Определенный сдвиг отмечен в 2011 году в области управления `Большими данными`. Раньше подобные проекты находись на стадии обсуждения, а теперь они перешли в стадию реализации, пройдя весь путь от продажи до внедрения.

На рынке намечается прорыв, который уже случился на рынке серверов, и, возможно, уже в 2012 году мы увидим в массовом сегменте СХД, поддерживающие дедупликацию и технологию Over Subscribing. В итоге, как и в случае серверной виртуализации, это обеспечит масштабную утилизацию емкости СХД.

Дальнейшее развитие оптимизации хранения будет заключаться в совершенствовании методов сжатия данных. Для неструктурированных данных, на которые приходится 80% всего объема, коэффициент сжатия может достигать нескольких порядков. Это позволит существенно снизить удельную стоимость хранения данных для современных SSD-носителей, обеспечив максимальную производительность.

См. также

Источники

Примечания