Международная конференция разработчиков
и пользователей свободного программного обеспечения

Система управления распределенным набором виртуальных машин

Денис Пынькин, ООО «Т-Линукс», denis.pynkin@t-linux.by

LVEE 2009

Описывается организация управления распределенной системой виртуальных машин с использованием PBS Torque на базе платформы ALT Linux.
Показан, способ задействования PBS в качестве системы управления и мониторинга большого количества физических и виртуальных узлов для организации инфраструктурного уровня облачных вычислений.

В последнее время большую популярность в мире набирают сервисы, основанные на облачных вычислениях. Однако подходы к организации таких сервисов различаются как по методам, так и по сути. При этом одним из важнейших компонентов для организации облачных вычислений является вычислительная инфраструктура, которую часто называют IaaS («Infrastructure as a Service»).

Разрабатываемое решение направлено на обеспечение управления и мониторинга для виртуальных машин, работающих на кластере выделенных физических хостов.

К числу наиболее сложных проблем, возникающих при организации виртуальной вычислительной инфраструктуры, являются: распределение ресурсов для новых задач, отслеживание текущего статуса физических узлов, обеспечение связи между планировщиком ресурсов и физическими узлами, отслеживание пользовательских задач и многие другие.

Эти проблемы успешно решены в различных PBS («Portable Batch System»), применяемых для организации научных вычислений в распределенных GRID-сегментах. Если представить виртуальную машину в виде задачи пользователя, то появляется возможность использовать системы такого класса для управления вычислительной инфраструктурой.

Особенностью организации расширяемых распределенных вычислительных систем является невозможность собирать данные о всей системе по запросу. Вместо этого используется обмен данными в асинхронном режиме. Поэтому при разработке системы появилась проблема хранения структуры всей распределенной системы и текущего статуса виртуальных машин, которая была решена с помощью использования LDAP — проверенной временем, распределенной и легко расширяемой иерархической базы данных, в комбинации со средствами мониторинга PBS.

Рис.1. Структура взаимодействия основных компонентов системы управления

Важной особенностью является невозможность для вычислительных узлов вносить изменения в LDAP напрямую. Для разрешения конфликтов на глобальном уровне вводится дополнительный элемент — монитор, отслеживающий изменения состояния виртуальных машин — это специальный вычислительный узел, которым может быть как физический, так виртуальный хост.

При изменении статуса виртуальной машины физический хост посылает уведомление монитору об этом событии, а тот, в свою очередь, разрешает конфликт и, при необходимости, вносит изменения в базу LDAP.

Каждый узел самостоятельно отслеживает состояние виртуальных машин, которые он обслуживает, при этом используется как локальная информация, так и информация из LDAP. Для подключения хоста в качестве вычислительного узла, обеспечивающего поддержку виртуальной инфраструктуры, достаточно его настроить для использования совместно с PBS-сервером и добавить узел в базу данных LDAP. При этом у монитора появляется возможность отслеживать статус физических узлов с помощью средств PBS.

В качестве фронтэнда системы управления используется alterator — универсальная модульная система управления, разрабатываемая для дистрибутивов ALT Linux. С ее помощью обеспечивается централизованное управление распределенной вычислительной инфраструктурой с использованием web-интерфейса.

список литературы

  1. Википедия — Infrastructure as a service
  2. TORQUE Resource Manager
  3. Alterator