Система хранения и передачи данных

Количество информации, хранимой на наших компьютерах, увеличивается с каждым днем. Тысячи фотографий, музыкальных записей, сотни фильмов и сериалов – все это с безумной скоростью уничтожает свободное пространство на жестких дисках наших компьютеров.

Купить и поставить очередной HDD не всегда подходящее решение, ведь в корпусе ПК банально может не хватать места, особенно если у вас ноутбук. Использование внешних жестких дисков зачастую неудобно в эксплуатации – достать, подключить и т.д.

Хочется получить доступ к нужной нам фотографии или музыкальной композиции без возни с проводами, или одновременно с разных устройств в вашей сети. И в такой ситуации на помощь могут прийти сетевые хранилища данных.

Сетевое хранилище (NAS (англ. Network Attached Storage), сетевая система хранения данных) – по сути, это небольшой компьютер с дисковым массивом, подключенный к сети.

Сетевое хранилище работает 24 часа в сутки 7 дней в неделю и обеспечивает доступ к информации в любое время.

Сетевые хранилища обладают дополнительными функциями, такими как: хранение и резервирование данных, разграничение доступа, поддержка приложений закачки и т.д.

Система хранения и передачи данных

От обычного ПК сетевые хранилища отличаются компактными размерами, используемой аппаратной начинкой и программным обеспечением, заточенным на специфические для сетевых хранилищ функции.

 Сетевые хранилища не предназначены для выполнения вычислительных задач, хотя запуск других программ на нём возможен.

Обычно, сетевые хранилища не имеют экрана и клавиатуры, а управляются и настраиваются по сети, часто с помощью браузера.

Система хранения и передачи данных

Технические характеристики

Количество накопителей в комплекте – число установленных накопителей информации в сетевом хранилище. Именно число уже установленных, а не мест под накопители. NAS могут поставляться как с установленными накопителями информации (1, 2, 4 и т.д.), так и без них (в этом случае вам необходимо приобрести жесткие диски или SSD отдельно).

Форм-фактор устанавливаемых накопителей – название говорит само за себя. В настоящий момент в сетевые хранилища можно установить жесткие диски форм-фактора 3,5” или 2,5”, некоторые хранилища поддерживают установку как 2,5” так и 3,5” накопителей информации.

Система хранения и передачи данных

Суммарный объем накопителей в комплекте – объем доступного пользователю пространства для размещения информации на сетевом хранилище.

Количество отсеков для накопителей – количество накопителей, устанавливаемых в корпус сетевого хранилища. Большинство сетевых хранилищ предназначенных для домашнего использования ограничены 1 или 2 отсеками, но встречаются разновидности хранилищ с 4 или 8 отсеками.

Система хранения и передачи данных

Максимальный объем одного накопителя – далеко не все сетевые хранилища могут использовать жесткие диски большого объема (6-8 ТБ), поэтому следует обратить внимание на данную характеристику при выборе накопителей для вашего сетевого хранилища. Но, если вы покупаете сетевое хранилище с уже установленными накопителями, то данная характеристика для вас важна только в случае замены комплектных накопителей на экземпляры с большим объемом.

Возможность горячей замены HDD – при наличии нескольких накопителей сетевые хранилища могут обладать возможностью горячей замены HDD, т.е. замены диска в случае его поломки без выключения устройства.

Частота процессора – частотные характеристики используемого в сетевом хранилище процессора.

В сетевых хранилищах часто применяются процессоры на ARM архитектуре, так что прямой аналогии с процессорами, используемыми в ПК, проводить не стоит. Влияет на общую производительность сетевого хранилища.

При необходимости использования на сетевом хранилище дополнительных программ выбирайте хранилища с более производительным процессором.

Объем оперативной памяти –  показатель влияет на общую производительность сетевого хранилища. При необходимости использования на сетевом хранилище дополнительных программ рекомендуется выбирать хранилища с большим объемом ОЗУ.

Wi-Fi – возможность подключения сетевого хранилища к сети по беспроводному каналу связи Wi-Fi. Данная функция поможет избавиться от лишних проводов, однако скорость может быть ниже, чем у проводного соединения.

Количество портов Ethernet – количество портов для подключения к проводной сети. Помимо количества портов важной характеристикой является также скорость сетевого интерфейса.

Она влияет на оперативность обмена информацией с сетевым хранилищем.

Фактически стандартном для современных сетевых хранилищ является скорость сетевого интерфейса в 1 Гбитс, это позволит комфортно работать с сетевым хранилищем.

Система хранения и передачи данных

Тип и количество портов USB – наличие портов USB на сетевом накопителе позволяет подключать дополнительные внешние носители информации, например, для резервного копирования. В некоторых случаях сетевое хранилище обладает функциями принт-сервера, что позволяет подключить принтер и использовать его как сетевой.

Количество портов eSATA – возможность подключения внешних накопителей информации по интерфейсу eSATA (External SATA).

Поддержка сетевого протокола iSCSI – поддержка сетевым накопителем передачи информации по протоколу iSCSI. iSCSI — протокол, который базируется на TCP/IP и разработан для установления взаимодействия и управления системами хранения данных, серверами и клиентами.

Система хранения и передачи данных

Поддерживаемые уровни RAID – технология виртуализации данных, которая объединяет несколько дисков в логический элемент для избыточности и повышения производительности.

  • RAID 0 — позволяет повысить скорость. Информация записывается на оба/несколько дисков одновременно.
  • RAID 1 — зеркальный дисковый массив. Информация записывается на один диски и дублируется на второй, поэтому, если один из дисков сломается, данные не пропадут.
  • RAID 5 — дисковый массив с чередованием. Позволяет как повысить скорость, так и обеспечить надежность. Минимальное количество дисков для такого массива — 3.
  • JBOD — простое объединение нескольких HDD в один масив, информация записывается на один диск, а после его заполнения на следующий.

Программная платформа и поддерживаемые режимы работыКроме предоставления доступа к информации, сетевые хранилища обладают и другими функциями:

Система хранения и передачи данных

FTP сервер– возможность использования устройства в качестве FTP сервер. FTP сервер позволяет разграничивать доступ пользователей к информации и проводить аутентификацию пользователей. Также протокол FTP поддерживает возможность докачки файлов при разрыве соединения.

UPnP/DLNA-сервер — набор стандартов, позволяющих совместимым устройствам передавать и принимать по домашней сети различный медиа-контент (изображения, музыку, видео), а также отображать его в режиме реального времени. Вы сможете напрямую просматривать контент с NAS на смартфонах, планшетах, телевизорах и любых других с поддержкой функции DLNA.

  • Поддержка ip-видеонаблюдения – позволяет организовать на основе сетевого хранилища систему видеонаблюдения при помощи IP видеокамер.
  • Система хранения и передачи данных
  • Поддержка Apple Time Machine — поддержка резервного копирования для компьютеров с Mac OS.

Доступ к хранилищу через «облако» — удаленный доступ к сетевому хранилищу в вашей сети из любой точки мира. Как правило, доступ осуществляется через сайт-посредник — сервис предоставляется производителем сетевого хранилища.

Система хранения и передачи данных

Установка приложений – возможность устанавливать приложения для реализации дополнительных функций. Например, установка DropBox, загрузчик по http, ftp и р2р ссылкам и т.д.

Советы по выбору

Основные задачи NAS:

  1. Хранение большой объем информации;
  2. Обеспечение доступа к данным с разных устройств;
  3. Создание резервных копий (как системных дисков, так и другой информации(фотографии, документы, и т.д.).
  4. Разграничение прав доступа к данным.

Назначение и бюджет

Если хотите сэкономить и не заморачиваться с выбором HDD, то покупайте сетевое хранилище с установленными накопителями информации.

В этом случае, вам не придется беспокоиться о совместимости дисков с хранилищем, правильности их подключения и настройки. Устройство сразу готово к работе, достаточно включить и настроить.

Кроме того, простые сетевые накопители продаются по цене близкой к стоимости аналогичных жестких дисков. Наиболее бюджетные решения — NAS с одним предустановленным жестким диском.

Дороже по стоимости сетевые хранилища с двумя предустановленными дисками. Подобные устройства позволят вам либо хранить больше информации, либо обеспечить повышенную отказоустойчивость (объединение дисков в RAID 1).

  1. Система хранения и передачи данных
  2. Хранилища без носителей информации в комплекте подойдут для домашнего использования, особенно если у вас уже куплены диски.

При использовании в небольших офисах обратите внимание на более надежные и функциональные сетевые хранилища. Как правило, подобные NAS поставляются без носителей информации, оснащаются двумя сетевыми интерфейсами и более производительно аппаратной начинкой, чтобы справляться с высокой нагрузкой.

  • Определение характеристик
  • Главный аспект выбора NAS, это суммарный объем, который исходит из емкости накопителей и их количества. Чтобы определиться с объемом, необходимо учитывать:
  1. Массив информации для переноса на сетевое хранилище,информация на всех устройствах вашей сети;
  2. Приблизительный объем , который вы запишите в ближайшие пару лет.

Сложив эти две величины (и добавив 25% прозапас) вы узнаете примерный объем накопителей сетевого хранилища. Минимальный размер – 2 ТБ, подойдет разве что для хранения фотографий, музыки и документов. А вот для обеспечения резервного копирования этого объема уже не хватит, особенно если в сети больше одного компьютера.

Оптимальное решение для домашнего использования — сетевые хранилища объемом 4 – 6 ТБ. Этого гарантированно хватит как для резервного копирования с 2-3 компьютеров, так и для хранения мультимедийных файлов.

Вы профессиональный фотограф или просто увлеченный любитель? Тогда вам точно не обойтись без сетевого хранилища для хранения ваших работ и для резервного копирования только что отснятого и еще не обработанного материала.

Поверьте, случаи потери фотографий из-за отказа жесткого диска не редки, а отсутствие резервной копии поставит крест на всей работе команды фотографа.

Так что сетевое хранилище объемом 6-8 ТБ отличное решение для хранения и резервирования.

Количество устанавливаемых накопителей влияет не только на максимальный объем сетевого хранилища, но и на возможность создания RAID масивов для обеспечения повышенной производительности или отказоустойчивости. Так, например, защититься от потери данных поможет поддержка RAID 1 (зеркальный) или RAID 5.

В первом случае, в сетевом хранилище необходимы, как минимум,  два жестких диска (доступный пользователю объем дисковой системы будет равен объему одного диска), а во втором случае – минимум три диска (также часть дискового пространства будет отведена на служебные нужды).

Подобная конфигурация позволяет сохранить информацию при поломке одного из дисков.

Программные функции

Читайте также:  Геморрой при беременности - Ваш Онлайн доктор

Обладателям «умных» телевизоров пригодится функция UPnP/DLNA-сервера, для просмотра медиаконтента без необходимости сохранения на устройстве.

Сетевое хранилище можно использовать не только как большой жесткий диск, подключенный к сети. Отдельные устройства позволяют устанавливать дополнительные приложения, например торрент-трекер, различные менеджеры закачки, dropbox и т.д. Это значительно расширит возможности вашего NAS.

Еще одной интересной особенностью сетевых хранилищ является поддержка ip-видеонаблюдения для организации видеоархива и избавит от необходимости приобретения отдельного видеорегистратора.

Итоги

Выбор сетевого хранилища можно свести к нескольким простым шагам:

  1. Нужен ли накопитель информации в комплекте. Если да, то достаточно ли одного, или необходимо два и более для обеспечения большей емкости или повышенной отказоустойчивости.
  2. Определить необходимый вам объем дискового пространства
  3. Определить какие дополнительные функции и задачи будет выполнять сетевое хранилище и убедится в их наличии в выбранных образцах.

Хранение данных: NAS, SAN, SDS простыми словами

Хранение данных — одно из важнейших направлений развития компьютеров, возникшее после появления энергонезависимых запоминающих устройств. Системы хранения данных разных масштабов применяются повсеместно: в банках, магазинах, предприятиях. По мере роста требований к хранимым данным растет сложность хранилищ данных.

Надежно хранить данные в больших объемах, а также выдерживать отказы 

физических носителей — весьма интересная и сложная инженерная задача.

Хранение данных

Под хранением обычно понимают запись данных на некоторые накопители данных, с целью их (данных) дальнейшего использования.

Опустим исторические варианты организации хранения, рассмотрим подробнее классификацию систем хранения по разным критериям.

Я выбрал следующие критерии для классификации: по способу подключения, по типу используемых носителей, по форме хранения данных, по реализации.

По способу подключения есть следующие варианты:

  • Внутреннее. Сюда относятся классическое подключение дисков в компьютерах, накопители данных устанавливаются непосредственно в том же корпусе, где и будут использоваться. Типовые шины для подключения — SATA, SAS, из устаревших — IDE, SCSI.

подключение дисков в сервере

подключение дисков в сервере

  • Внешнее. Подразумевается подключение накопителей с использованием некоторой внешней шины, например FC, SAS, IB, либо с использованием высокоскоростных сетевых карт.

дисковая полка, подключаемая по FC

дисковая полка, подключаемая по FC

По типу используемых накопителей возможно выделить:

  • Дисковые. Предельно простой и вероятно наиболее распространенный вариант до сих пор, в качестве накопителей используются жесткие диски
  • Ленточные. В качестве накопителей используются запоминающие устройства с носителем на магнитной ленте. Наиболее частое применение — организация резервного копирования.
  • Flash. В качестве накопителей применяются твердотельные диски, они же SSD. Наиболее перспективный и быстрый способ организации хранилищ, по емкости SSD уже фактически сравнялись с жесткими дисками (местами и более емкие). Однако по стоимости хранения они все еще дороже.
  • Гибридные. Совмещающие в одной системе как жесткие диски, так и SSD. Являются промежуточным вариантом, совмещающим достоинства и недостатки дисковых и flash хранилищ.

Если рассматривать форму хранения данных, то явно выделяются следующие:

  • Файлы (именованные области данных). Наиболее популярный тип хранения данных — структура подразумевает хранение данных, одинаковое для пользователя и для накопителя.
  • Блоки. Одинаковые по размеру области, при этом структура данных задается пользователем. Характерной особенностью является оптимизация скорости доступа за счет отсутствия слоя преобразования блоки-файлы, присутствующего в предыдущем способе.
  • Объекты. Данные хранятся в плоской файловой структуре в виде объектов с метаданными.

По реализации достаточно сложно провести четкие границы, однако можно отметить:

  • аппаратные, например RAID и HBA контроллеры, специализированные СХД.

RAID контроллер от компании Fujitsu

RAID контроллер от компании Fujitsu

  • Программные. Например реализации RAID, включая файловые системы (например, BtrFS), специализированные сетевые файловые системы (NFS) и протоколы (iSCSI), а также SDS

 пример организации LVM с шифрованием и избыточностью в виртуальной машине Linux в облаке Azure
пример организации LVM с шифрованием и избыточностью в виртуальной машине Linux в облаке Azure

пример организации LVM с шифрованием и избыточностью в виртуальной машине Linux в облаке Azure

Давайте рассмотрим более детально некоторые технологии, их достоинства и недостатки.

DAS

Direct Attached Storage — это исторически первый вариант подключения носителей, применяемый до сих пор.

Накопитель, с точки зрения компьютера, в котором он установлен, используется монопольно, обращение с накопителем происходит поблочно, обеспечивая максимальную скорость обмена данными с накопителем с минимальными задержками.

Также это наиболее дешевый вариант организации системы хранения данных, однако не лишенный своих недостатков.

К примеру если нужно организовать хранение данных предприятия на нескольких серверах, то такой способ организации не позволяет совместное использование дисков разных серверов между собой, так что система хранения данных будет не оптимальной: некоторые сервера будут испытывать недостаток дискового пространства, другие же — не будут полностью его утилизировать:

Конфигурации систем с единственным накопителем применяются чаще всего для нетребовательных нагрузок, обычно для домашнего применения.

Для профессиональных целей, а также промышленного применения чаще всего используется несколько накопителей, объединенных в RAID-массив программно, либо с помощью аппаратной карты RAID для достижения отказоустойчивости иили более высокой скорости работы, чем единичный накопитель.

Также есть возможность организации кэширования наиболее часто используемых данных на более быстром, но менее емком твердотельном накопителе для достижения и большой емкости и большой скорости работы дисковой подсистемы компьютера.

SAN

Storage area network, она же сеть хранения данных, является технологией организации системы хранения данных с использованием выделенной сети, позволяя таким образом подключать диски к серверам с использованием специализированного оборудования.

Так решается вопрос с утилизацией дискового пространства серверами, а также устраняются точки отказа, неизбежно присутствующие в системах хранения данных на основе DAS. Сеть хранения данных чаще всего использует технологию Fibre Channel, однако явной привязки к технологии передачи данных — нет.

Накопители используются в блочном режиме, для общения с накопителями используются протоколы SCSI и NVMe, инкапсулируемые в кадры FC, либо в стандартные пакеты TCP, например в случае использования SAN на основе iSCSI.

Давайте разберем более детально устройство SAN, для этого логически разделим ее на две важных части, сервера с HBA и дисковые полки, как оконечные устройства, а также коммутаторы (в больших системах — маршрутизаторы) и кабели, как средства построения сети. HBA — специализированный контроллер, размещаемый в сервере, подключаемом к SAN. Через этот контроллер сервер будет «видеть» диски, размещаемые в дисковых полках. Сервера и дисковые полки не обязательно должны размещаться рядом, хотя для достижения высокой производительности и малых задержек это рекомендуется. Сервера и полки подключаются к коммутатору, который организует общую среду передачи данных. Коммутаторы могут также соединяться с собой с помощью межкоммутаторных соединений, совокупность всех коммутаторов и их соединений называется фабрикой. Есть разные варианты реализации фабрики, я не буду тут останавливаться подробно. Для отказоустойчивости рекомендуется подключать минимум две фабрики к каждому HBA в сервере (иногда ставят несколько HBA) и к каждой дисковой полке, чтобы коммутаторы не стали точкой отказа SAN.

Недостатками такой системы являются большая стоимость и сложность, поскольку для обеспечения отказоустойчивости требуется обеспечить несколько путей доступа (multipath) серверов к дисковым полкам, а значит, как минимум, задублировать фабрики.

Также в силу физических ограничений (скорость света в общем и емкость передачи данных в информационной матрице коммутаторов в частности) хоть и существует возможность неограниченного подключения устройств между собой, на практике чаще всего есть ограничения по числу соединений (в том числе и между коммутаторами), числу дисковых полок и тому подобное.

NAS

Network attached storage, или сетевое файловое хранилище, представляет дисковые ресурсы в виде файлов (или объектов) с использованием сетевых протоколов, например NFS, SMB и прочих.

Принципиально базируется на DAS, но ключевым отличием является предоставление общего файлового доступа.

Так как работа ведется по сети — сама система хранения может быть сколько угодно далеко от потребителей (в разумных пределах разумеется), но это же является и недостатком в случае организации на предприятиях или в датацентрах, поскольку для работы утилизируется полоса пропускания основной сети — что, однако, может быть нивелировано с использованием выделенных сетевых карт для доступа к NAS. Также по сравнению с SAN упрощается работа клиентов, поскольку сервер NAS берет на себя все вопросы по общему доступу и т.п.

Unified storage

Универсальные системы, позволяющие совмещать в себе как функции NAS так и SAN. Чаще всего по реализации это SAN, в которой есть возможность активировать файловый доступ к дисковому пространству.

Для этого устанавливаются дополнительные сетевые карты (или используются уже существующие, если SAN построена на их основе), после чего создается файловая система на некотором блочном устройстве — и уже она раздается по сети клиентам через некоторый файловый протокол, например NFS.

SDS

Software-defined storage — программно определяемое хранилище данных, основанное на DAS, при котором дисковые подсистемы нескольких серверов логически объединяются между собой в кластер, который дает своим клиентам доступ к общему дисковому пространству.

Наиболее яркими представителями являются 

GlusterFS и Ceph, но также подобные вещи можно сделать и традиционными средствами (например на основе LVM2, программной реализации iSCSI и NFS).N.B. редактора: У вас есть возможность изучить технологию сетевого хранилища Ceph, чтобы использовать в своих проектах для повышения отказоустойчивости, на нашем практическим курсе по Ceph. В начале курса вы получите системные знания по базовым понятиям и терминам, а по окончании научитесь полноценно устанавливать, настраивать и управлять Ceph. Детали и полная программа курса здесь.Пример SDS на основе GlusterFS

Читайте также:  Июльская погода против людей

Пример SDS на основе GlusterFS

Из преимуществ SDS — можно построить отказоустойчивую производительную реплицируемую систему хранения данных с использованием обычного, возможно даже устаревшего оборудования.

Если убрать зависимость от основной сети, то есть добавить выделенные сетевые карты для работы SDS, то получается решение с преимуществами больших SANNAS, но без присущих им недостатков.

Я считаю, что за подобными системами — будущее, особенно с учетом того, что быстрая сетевая инфраструктура более универсальная (ее можно использовать и для других целей), а также дешевеет гораздо быстрее, чем специализированное оборудование для построения SAN.

Недостатком можно назвать увеличение сложности по сравнению с обычным NAS, а также излишней перегруженностью (нужно больше оборудования) в условиях малых систем хранения данных.

Гиперконвергентные системы

Подавляющее большинство систем хранения данных используется для организации дисков виртуальных машин, при использовании SAN неизбежно происходит удорожание инфраструктуры.

Но если объединить дисковые системы серверов с помощью SDS, а процессорные ресурсы и оперативную память с помощью гипервизоров отдавать виртуальным машинам, использующим дисковые ресурсы этой SDS — получится неплохо сэкономить.

Такой подход с тесной интеграцией хранилища совместно с другими ресурсами называется гиперконвергентностью. Ключевой особенностью тут является способность почти бесконечного роста при нехватке ресурсов, поскольку если не хватает ресурсов, достаточно добавить еще один сервер с дисками к общей системе, чтобы нарастить ее.

На практике обычно есть ограничения, но в целом наращивать получается гораздо проще, чем чистую SAN. Недостатком является обычно достаточно высокая стоимость подобных решений, но в целом совокупная стоимость владения обычно снижается.

Облака и эфемерные хранилища

Логическим продолжением перехода на виртуализацию является запуск сервисов в облаках. В предельном случае сервисы разбиваются на функции, запускаемые по требованию (бессерверные вычисления, serverless).

Важной особенностью тут является отсутствие состояния, то есть сервисы запускаются по требованию и потенциально могут быть запущены столько экземпляров приложения, сколько требуется для текущей нагрузки.

Большинство поставщиков (GCP, Azure, Amazon и прочие) облачных решений предлагают также и доступ к хранилищам, включая файловые и блочные, а также объектные.

Некоторые предлагают дополнительно облачные базы, так что приложение, рассчитанное на запуск в таком облаке, легко может работать с подобными системами хранения данных. Для того, чтобы все работало, достаточно оплатить вовремя эти услуги, для небольших приложений поставщики вообще предлагают бесплатное использование ресурсов в течение некоторого срока, либо вообще навсегда.

Из недостатков: могут заблокировать аккаунт, на котором все работает, что может привести к простоям в работе. Также могут быть проблемы со связностью иили доступностью таких сервисов по сети, поскольку такие хранилища полностью зависят от корректной и правильной работы глобальной сети.

Павел Демкович

Схд (система хранения данных): как выбрать, характеристики, вендоры

#Hardware #netapp #схд

Система хранения данных (СХД) — комплекс аппаратных и программных средств, который предназначен для хранения и оперативной обработки информации, как правило, большого объема.

Информация — это файлы, в том числе медиа, структурированные (СУБД) и неструктурированные данные (big data), резервные копии, архивы.

В качестве носителей информации используются жесткие диски, в основном SSD (системы All Flash Array), а также гибридные решения, сочетающие SSD- и HDD-накопители в одной СХД.

От пользовательского жесткого диска СХД отличаются сложной архитектурой, возможностью объединять хранилища в сеть передачи данных, наличием отдельного ПО для управления системой хранения, продвинутыми технологиями резервного копирования, сжатия и виртуализации.

Системы хранения данных различаются по нескольким параметрам, от выбора которых зависит применение СХД.

Подобрать СХД

Уровни хранения

Блочное хранилище

СХД используется как обычный диск, который можно форматировать, устанавливать на него ОС, создавать логические диски. Данные хранятся не файлами, а блоками, что ускоряет операции ввода-вывода.

Чаще используется в сетях типа SAN (Storage Attached Network). Подходит для высокопроизводительных вычислений, СУБД, хранения больших объемов данных, в качестве сред разработки (Dev/Test).

Из недостатков: а) сложность настройки и обслуживания, которые требуют соответствующей квалификации; б) высокая стоимость.

Файловое хранилище

Данные хранятся в виде файлов, которые размещаются в каталогах. Такая СХД используется для хранения «холодной» информации, которая не требуется для операционных вычислений.

На файловых хранилищах, как правило, строятся NAS (Network Attached Storage). Недостатки: при накоплении больших объемов данных усложняется иерархия папок, и скорость работы СХД постепенно снижается.

Не подходит для нагрузок, которые требуют высокой скорости отклика.

Объектное хранилище

Тип СХД, который ориентирован на работу с большими неструктурированными данными объемом до петабайтов. Информация хранится не в виде файлов, а в виде «объектов» с уникальными идентификатором и метаданными. Поэтому объектное хранилище похоже по структуре на БД.

Используется в аналитике, big data, машинном обучении, для хранения «тяжелых» медиа-файлов и резервных копий, разработки и эксплуатации приложений в облаке, хостинга веб-сайтов. По скорости уступает блочному хранилищу в задачах, связанных с транзакционными нагрузками.

Сетевой доступ

NAS (network-attached storage)

Файловый сервер, который включен в локальную сеть. Доступ к дисковому хранилищу организован через протоколы NFS (в UNIX/Linux-системах) или CIFS (Windows).

NAS используется для работы с данными файлового типа, к которым нужен коллективный одновременный доступ — например, к общим документами Word и Excel.

NAS работает «поверх» существующей локальной сети, через общие коммутаторы/маршрутизаторы.

SAN (storage area network)

Сеть, которая годится для использования разнотипных хранилищ (диски, оптические приводы, ленточные массивы), но которые воспринимаются операционной системой как единое логическое хранилище данных, или как сетевой логический диск. Протоколы: iSCSI (IP-SAN) и FibreChannel (FC). Для подключения компьютеров используются адаптеры HBA (Host Bus Adapter). В SAN применяется в основном блочный тип хранения данных.

Разделение SAN/NAS уже не так строго, как было в начале 2000-х, поскольку с появлением протокола iSCSI производители стали выпускать гибридные решения.

Отказоустойчивость

Для оценки способности СХД восстанавливаться после сбоев используют два показателя — RPO и RTO.

RPO (recovery point objective)

Период, за который будут потеряны данные, — между моментом аварии и временем, когда создалась последняя резервная копия. Если RPO равен 12 часам, при выходе из строя хранилища возможна потеря данных, накопившихся за последние 12 часов. RPO влияет на выбор технологии аварийного восстановления и зависит от стоимости потери конкретного объема данных.

RTO (recovery time objective)

Время, за которое восстанавливается доступ к СХД. Значение RTO важно для оценки стоимости простоя системы.

Резервное копирование

Частота создания бэкапов выбирается исходя из конкретных задач и требуемого уровня защиты. То же касается и размещения: рабочие данные и их резервную копию можно хранить в географически распределённых СХД (например, в дата-центрах, расположенных в разных странах и даже континентах).

Кроме бэкапов, делают снэпшоты — моментальные «снимки», которые используют для отката на последнюю рабочую версию системы.

Чтобы резервные копии занимали меньше места, применяется дедупликация. При этом в копию переписываются только те данные, которые изменились. Различие между резервными копиями в среднем не превышает 2%, поэтому дедупликация помогает сэкономить дисковое пространство.

Как выбрать СХД

В первую очередь нужно понимать, какие задачи она будет решать. Перед обращением к поставщику (или интегратору) следует определиться с несколькими базовыми параметрами.

Тип данных

Разные типы данных требуют разной скорости доступа, технологий обработки, компрессии и так далее. К примеру, СХД для работы с большими медиа-файлами отличается от той, что подходит для работы с транзакционной СУБД, или от системы, которая будет работать с неструктурированными данными для нейросети.

Объем данных

От этого зависит выбор дисковых накопителей. Иногда можно обойтись SSD потребительского класса — если известно, что емкость СХД даже в худшем случае не будет превышать 300 Гб, а скорость доступа не критична.

Отказоустойчивость

Необходимо представлять, какова стоимость потери данных за определенное время. Это поможет рассчитать RPO и RTO, а также избежать лишних затрат на резервное копирование.

Производительность

Если СХД закупается под новый проект (сервис), о нагрузке которого судить сложно, лучше пообщаться с коллегами, которые уже решали эту задачу. Или обратиться к опытному поставщику, который подобные проекты уже запускал. Идеальный вариант — потестировать СХД.

Вендор

Иногда даже для ресурсоемкого сервиса подойдет бюджетное или среднеуровневое решение (StarWind, Huawei, Fujitsu). Однако у топовых производителей — NetApp, HPE, Dell EMC — линейка продуктов достаточно широкая, и сравнительно недорогие СХД здесь также можно найти. В любом случае, желательно сильно не расширять количество вендоров на одной инфраструктуре.

Азбука хранения данных: словарь для выбора СХД — Техника на vc.ru

Специалисты, которые отвечают за выбор СХД, часто сталкиваются со множеством терминов: чего стоят только репликация, дедупликация и компрессия. Многие из них могут оказаться непонятными – особенно если человек раньше мало интересовался темой хранения данных.

Какие основные понятия необходимо знать ИТ-директору или системному администратору, принимая решение о выборе СХД – рассказывает генеральный директор компании «Аэродиск» Вячеслав Володкович.

 Unsplash

Ответственный специалист может столкнуться со сложностями ещё на первых этапах выбора СХД – определяя, какой тип системы необходим компании. В целом СХД могут быть реализованы в трёх вариантах: DAS, SAN и NAS.

Читайте также:  Новая опасность для европы — q-лихорадка

Накопители DAS (Direct Attached Storages) напрямую подключаются к устройствам, управляющим их работой. Например, по такому принципу работает компьютер с жёстким диском или другим внешним устройством, хранящим данные.

Однако изначально термин применялся к мейнфреймам – большим высокопроизводительным серверам.

Системы вида DAS появились первыми, но они не обеспечивали необходимую скорость передачи данных – а ещё не могли предоставить условия для их совместного использования. Поэтому сегодня более распространены два других типа СХД, а именно NAS и SAN.

NAS или Network-attached Storage – это сетевое хранилище данных; система хранения, которая предоставляет файловый доступ к сети. Здесь сервер получает доступ к сети, выполненной на определённой файловой системе. И эта файловая система уже установлена на СХД. В случае NAS доступ к сети чаще всего реализован в виде протоколов NFS (Network File System) или SMB (Server Message Block).

В свою очередь SAN – это сети хранения данных. Как правило они представлены в виде внешних хранилищ на нескольких сетевых блочных устройствах и реализованы в виде протокола FC (Fiber Channel) или iSCSI (Internet Small Computer System Interface).

Чаще используется Fiber Channel – он основан на оптических сетях и способен обеспечить высокую пропускную способность и низкий уровень задержек. При этом протокол iSCSI основан на классических IP-сетях, и его внедрение связано с меньшими затратами.

Системы SAN предоставляют блочный доступ непосредственно к устройству хранения – диску или наборов дисков в виде RAID-групп или логических устройств. Такие логические устройства называются LUN или Logical Unit Number. И одно логическое устройство доступно одному серверу или кластеру серверов.

Таким образом, сервер (точнее операционная система сервера), который получает блочный доступ к системе хранения, форматирует LUN в свою файловую систему в зависимости от задач.

Если он работает на ОС Microsoft Windows, то это файловая система NTFS или ReFS; если продукты VMware – файловая система VMFS.

А если сервер работает на Linux, то он может воспроизводить целую «гирлянду» файловых систем Extfs, Ext2, Ext3, XFS и тому подобных.

Unsplash

После того, как специалист разобрался с типами СХД, а также видами доступа к данным и различными протоколами, возникает ещё один вопрос – как правильно оценить производительность системы? Здесь на помощь приходят три ключевых показателя: IOPS, то есть количество операций ввода-вывода в секунду; latencу или задержка, а также MBS – количество мегабайт в секунду.

Количество переданных мегабайт в секунду характеризует скорость потока чтения и записи данных, измеряемого в мегабайтах в секунду.

А показатель IOPS (Input/Output Operations Per Second) говорит о том, какое максимальное количество операций чтения или записи может выдержать СХД в зависимости от размера блока данных.

Эти операции могут быть очень разными: отличаться размерами блока и глубиной очереди, иметь случайный или последовательный характер.

Что касается показателя latency, то он используется в двух случаях: при чтении и записи информации. Для оценки задержки при чтении он показывает, какое время проходит с момента получения задания до отправки информации. А для оценки задержки при записи – сколько времени занимает весь процесс с момента получения информации до подтверждения записи.

Показатели производительности имеют ключевое значение при тестировании СХД – и акцент на том или ином показателе зависит от задач, которые будут стоять перед системой.

Например, компания создаёт высоконагруженную транзакционную систему управления базами данных – скажем, PostgreSQL или Oracle. В таком случае необходимо воспроизвести характерную для этой СУБД нагрузку.

Выполнив тест, можно понять, как примерно будет себя вести система хранения при решении задач СУБД, а также на какие показатели обращать особое внимание, каких значений они будут достигать.

Для примера с транзакционными СУБД обычно подходит тест, который эмулирует случайный характер чтения и записи (как правило в соотношении 70 на 30) с небольшим блоком данных (как правило от 4-х до 64-х килобайт в секунду). Выполнив подобный тест, можно в первом приближении сделать вывод о возможности использования СХД для целей транзакционной СУБД.

Приведём ещё один пример. Представим, что заказчик хочет понять, какое максимальное количество операций ввода-вывода в секунду может давать СХД в этой конфигурации, независимо от задержек и количества передаваемых мегабайт в секунду.

В таком случае выбирается максимально комфортный для системы размер блока данных – обычно это либо один, либо четыре килобайта; а также последовательный характер записи. Если выбрать случайный характер записи или специфичную глубину, то определить максимальный показатель IOPS не получится.

То же касается и других максимальных характеристик.

Универсальный рецепт качественного тестирования СХД заключается в следующей формуле: выбрали задачу, узнали, как правильно её тестировать, подготовили тестовый стенд, протестировали, записали результат.

Unsplash

При выборе СХД могут возникать вопросы и в области программного обеспечения: системами необходимо эффективно управлять, и для этого используется широкий спектр технологий.

Например, для защиты данных применяются снэпшоты – мгновенные «снимки» данных, один из вариантов быстрых резервных копий, которые содержатся в СХД.

Они позволяют быстро восстановить данные, накопленные за небольшой промежуток времени – скажем, за час.

Однако снэпшоты не могут полностью заменить систему резервного копирования и выступают в качестве её дополнения.

К примеру, если резервное копирование в компании выполняется раз в сутки, а данные были потеряны, снэпшоты позволяют более «гранулировано» подходить к восстановлению данных.

При этом восстановление снэпшотов, в отличие от резервных копий, может проходить довольно быстро. Но если СХД выйдет из строя из-за внутренних проблем, снэпшоты уже не помогут – ведь они сами хранятся на ней.

В целом снэпшоты бывают двух видов: пересылка при записи или redirect on write, а также копирование при записи – copy on write.

Снэпшоты вида redirect on write не снижают производительности СХД, при этом не почти не занимают дополнительного объема (они ничего не копируют).

Этим они отличаются от copy on write, при которых данные копируются, что создает дополнительную нагрузку на СХД и «съедает» часть полезного объема.

Основным средством обеспечения катастрофоустойчивости СХД выступает репликация – постоянное копирование данных в другие источники. Она бывает двух видов: синхронная и асинхронная. И репликация снова не может заменить резервное копирование, как не может заменить и снэпшоты.

Как это работает? Представим ситуацию: на площадке в Московской области были записаны данные, а у системы хранения данных настроена репликация с площадкой в Твери. Если площадка в Московской области выйдет из строя, эти данные можно будет использовать с СХД в Твери.

В синхронном режиме эти данные записываются одновременно на две СХД, и они не будут считаться записанными, пока гарантированно не окажутся записанными на обеих площадках.

Это более надёжный подход, однако он приводит к временным задержкам и требует каналов связи с высокой пропускной способностью – а значит, и более высоких затрат.

В случае применения асинхронной репликации данные сначала записываются на основную СХД и сразу становятся доступными, а на вторую площадку записываются в позже. В этом случае расходы будут ниже, но данные на другой площадке будут появляться с запозданием. И его уровень зависит от реализации системы.

Unsplash

Однако дополнительные функции СХД могут использоваться не только для защиты данных. Например, технология компрессии позволяет экономить дисковое пространство, а вместе с тем и вычислительные ресурсы СХД.

В её основе лежит идея сжатия данных – за счёт этого они и занимают меньше места.

Однако компрессия подходит не для всех типов данных: например, хорошо работая для текстовых данных, она практически бесполезна для медиаконтента.

Компрессия часто работает в связке с дедупликацией, устранением дублирующих блоков данных, которая также направлена на экономию пространства в системе.

Приведём простой пример: секретарь компании, в которой тысяча человек, разослал всем сотрудникам письмо с PDF-файлом. Каждый сотрудник получил письмо – и в результате в хранилище может попасть тысяча копий файла.

Дедупликация позволит предотвратить этот процесс, и вместо тысячи копий сохранить только один файл.

Принцип работы дедупликации заключается в том, что при записи проходит проверка, дублируется ли блок данных. Если данные уникальны, блок записывается и занимает пространство.

А если нет – система предоставляет ссылку на существующий блок, чтобы когда он понадобился пользователю или серверу, он мог просто перейти по ссылке. Дедупликация становится оптимальным решением для СХД, которые работают с большим количеством одинаковых данных.

Наиболее яркий пример – большая ферма виртуальных машин, где хранятся их шаблоны и образы.

Конечно, это далеко не все понятия, с которыми может столкнуться системный администратор или ИТ-директор при выборе СХД. Характеристик систем намного больше; а вопросы управления и производительности – шире и сложнее.

К тому же это только общие термины из мира хранения данных: без внимания остались более узкие вопросы виртуальных RAID-ов, гиперконвергенции, QOS-ов и так далее.

Однако всё это другие темы – и разговор для совсем другой статьи.

Какие еще термины важно знать, чтобы правильно выбрать СХД? Делитесь в х!

Leave a Comment

Ваш адрес email не будет опубликован. Обязательные поля помечены *