Международная конференция разработчиков
и пользователей свободного программного обеспечения

Гибридные системы хранения данных.

Александр Клыга, Minsk, Belarus

LVEE 2018

The concept to create hybrid data storage is covered. Main approaches to implement hybrid data storage systems are reviewed as well as modern development tendencies in FOSS.

В основе создания гибридных систем хранения данных лежит принцип объединения в единое пространство хранения твердотельных и механических накопителей. В зависимости от подхода объединения дисков в массивы используется либо технология кэширования, при которой в медленным дискам добавляется кэш на быстрых флеш-дисках, либо реализуется архитектура многослойных СХД1. Выбор конкретного подхода в реализации гибридных СХД определяется типом используемых накопителей, требуемыми параметрами быстродействия и надежности хранения данных. В большинстве решений программного-определяемых систем хранения данных, например, Ceph6, Gluster7 используется оба подхода в реализации гибридных СХД. В файловых системах, например, таких как BtrFS5, Bcachefs3 и ZFS4 предпочтение отдается технологиям кэширования данных. Однако, массовое развитие производства флеш-накопителей, активное использование нового интерфейса NVM Express2, и возрастающие требования к доступности данных, меняют концепцию создания гибридных СХД.

Ключевой проблемой гибридной СХД является более высокое время отклика данных по сравнение с флеш-массивами (All-Flash Array, AFA), и не оптимальное использование возможностей флеш-накопителей с интерфейсом NVM Express, но при этом они обеспечивают более низкую цену хранения данных на механических накопителях (как правило, жесткие диски большой емкости с низкой скоростью вращения шпинделя).

Первым вариантом создания гибридных СХД с низким временем доступа к данным является использование многоуровневой1 схемы организации хранения данных, где на первом уровне располагаются AFA массивы хранения, а на втором и при необходимости на третьем уровне массивы хранения данных на механических накопителях (рисунок ниже).

AFA-массивы на первом уровне (L1) при такой архитектурной реализации выступают в роли самостоятельных СХД, обеспечивающих высокую производительность для критически важных данных. По мере «остывания» данных они в режиме теневого копирования переносятся на второй уровень хранения на механических дисках с высокой скоростью вращения шпинделя. Удаление данных на первом уровне производится когда их показатель их востребовательности ниже установленного уровня определенного показателем «температуры данных», при этом при необходимости их резервная копия сохраняется на втором уровне хранения.

Данные со второго уровня хранения (L2) так же по мере «остывания» теневым копированием переносятся на третий архивный уровень (L3) на котором используются механические накопители большой емкости, но с низкой скоростью вращения шпинделя. Для хранения данных с некритичным временем доступа, в пользовательском пространстве создается точка монтирования на второй уровень (L2) СХД. Управление размещением данных на уровнях и организацией доступа к ним осуществляется с помощью контроллера SDS (software-defined storage), например, на базе решения openSDS8.

Основные преимущества данного варианта создания гибридной СХД:

  • возможность обеспечения хранения данных с учетом требований к критичности времени доступа к данным;
  • на каждом уровне отдельное хранилище данных может использоваться как самостоятельно устройства с функцией централизованного управления и возможностями резервного хранения данных;
  • использование функционала теневого копирования для резервирования данных между отдельными хранилищами или уровнями;
  • единый центр управления хранением данных на базе решений FOSS.

Основные недостатки:

  • невозможность использования технологии тиринга между уровнями хранения данных;
  • высокая нагрузка на внутреннюю шину подключения хранилищ данных между уровнями из-за операций теневого копирования;
  • сложность создания архитектуры и настройки под заданные параметры производительности.

Вторым вариантом реализации гибридного СХД с низким временем доступа является использование возможностей накопителей с интерфейсом NVM Express, с двухуровневой схемой структурной схемой СХД с использованием технологии тиринга на первом уровне хранилища данных в массивах AFA (рисунок ниже). В основе этого варианта лежит концепция использования накопителей с интерфейсом NVM Express в качестве элементов хранения данных RAM пользователя, и основным хранилищем данных на AFA-массивах. Между двумя слоями в AFA первого уровня (L1) используется технология тиринга, когда «теплые данные из первого слоя переносятся во второй слой. Если же места для хранения данных исчерпано, либо данные стали «остывшими» они переносятся на второй уровень хранения (L2).

Этот вариант реализации гибридной СХД позволяет оптимально использовать возможности всех типов флеш-накопителей, а при необходимости возможности по хранению данных могут расширены за счет добавления новых уровней.

Основные преимущества данного варианта создания гибридной СХД:

  • возможность обеспечения высокой доступности данных;
  • более простая схема реализации хранилища данных;
  • использование функционала технологии тиринга и теневого копирования для резервирования данных между отдельными уровнями;
  • высокая доступность данных для пользователя.

Ссылки

1 Многослойные и многоуровненые системы хранения данных // LVEE 2017. https://lvee.org/ru/abstracts/238

2 NVM Express: the official site. http://www.nvmexpress.org/

3 Bcachefs: An advanced new filesystem for Linux. https://bcachefs.org

4 ZFS: Zettabyte File System (OpenZFS project). https://open-zfs.org

5 Btrfs: Btrfs is a modern CoW filesystem for Linux: // btrfs official site. https://btrfs.wiki.kernel.org/index.php/Main_Page

6 Ceph: The future of storage. https://ceph.com/

7 Gluster: Storage for your Cloud. https://gluster.org

8 OpenSDS Project. https://www.opensds.io/

Abstract licensed under Creative Commons Attribution-ShareAlike 3.0 license

Назад