План работы ЦКП ИСП РАН


Сведения о календарной загрузке научного оборудования

Ввиду того, что инфраструктура Центра коллективного пользования ИСП РАН построена на базе сервис-ориентированной облачной платформы Asperitas, предоставление вычислительных ресурсов осуществляется по модели динамического выделения мощностей (on-demand). Физическое оборудование (серверы, системы хранения, GPU-ускорители) не закрепляется статически за конкретными пользователями, а образует единый пул ресурсов. Доступ к ресурсам предоставляется в виде виртуальных машин, контейнеров или выделенных узлов (bare-metal) по запросу через личный кабинет пользователя или API.

Ключевой принцип распределения ресурсов: приоритезация по уровню задач

В ЦКП ИСП РАН действует многоуровневая система приоритетов, направленная на стимулирование проектов с высокой интеллектуальной составляющей и максимальной добавочной наукоемкостью. Распределение ресурсов осуществляется дифференцированно в зависимости от уровня используемых сервисов (IaaS, PaaS, SaaS) и соответствия проекта приоритетным направлениям научно-технологического развития (НТР).

Атомарное потребление ресурсов (выделение «голых» CPU/GPU в модели IaaS без использования платформенных сервисов) рассматривается как наименее приоритетное и удовлетворяется по принципу наличия прогноза по простою ресурсов.

Ключевые принципы распределения

1. Приоритет по направлениям исследований — поддержка проектов, соответствующих приоритетам НТР.

2. Приоритет по уровню задач и сервисов — чем выше уровень используемых сервисов (SaaS → PaaS → IaaS специальные случаи → IaaS атомарные ресурсы) и выше добавочная наукоемкость, тем выше приоритет доступа к ресурсам.

3. Стимулирование платформенного подхода — использование базовых цифровых платформ ИСП РАН является значимым критерием для повышения приоритета проекта.

Приоритет 1 (Наивысший) — Стратегические исследования и консорциумы

  • Ресурсная поддержка исследований, выполняемых по приоритетным направлениям НТР в рамках государственных программ.
  • Ресурсная поддержка научно-технологических консорциумов, проводящих междисциплинарные исследования по приоритетным направлениям НТР с использованием цифровых базовых платформ ИСП РАН (Платформа ДИИ, «Талисман», «Фабрика моделей», Lingvodoc и др.).
  • Данный уровень соответствует модели SaaS (программное обеспечение как услуга) и предполагает предоставление конечных решений для конкретных научных направлений (медицина, сельское хозяйство, социология, психология, физика высоких энергий, генетика, инженерный анализ и пр.).
  • Также сюда относятся проекты в области системного программирования, специальные случаи и задачи поиска оптимальных решений (в том числе на базе отечественной аппаратуры), требующие инфраструктурного уровня сервисов IaaS (инфраструктура как услуга).

Приоритет 2 (Высокий) — Междисциплинарные платформенные проекты (PaaS)

  • Ресурсная поддержка междисциплинарных исследований, выполняемых по приоритетным направлениям НТР с использованием цифровых базовых платформ ИСП РАН.
  • Данный уровень соответствует модели PaaS (платформа как услуга) и включает поддержку исследований в области создания целевых цифровых платформ (CI/CD конвейеры, базы данных, аналитические инструменты).

Приоритет 3 (Средний) — Тематические научные и образовательные проекты (IaaS специальные случаи)

  • Ресурсная поддержка научных и образовательных проектов, соответствующих приоритетным направлениям НТР (включая студенческие работы, курсы и пр.), но не задействующих специализированные платформы верхнего уровня.

Приоритет 4 (Низший) — Запросы на атомарные ресурсы (IaaS базовый)

  • Проекты, которым требуется исключительно выделение «сырых» вычислительных мощностей (vCPU, RAM, GPU) без использования цифровых платформ и сервисов высокого уровня.
  • Данный тип заявок удовлетворяется только при наличии свободных мощностей, не востребованных проектами более высоких приоритетов. В периоды высокой загрузки выполнение таких запросов может быть отложено или приостановлено.

Метрики загрузки оборудования

Ввиду динамической природы облачной инфраструктуры, календарная загрузка оценивается по агрегированным показателям:

1. Общая загрузка вычислительных мощностей (CPU)
  • Метрика: Потребление vCPU от общего пула.
  • Средняя загрузка: ~75% (с учётом резервирования под проекты Приоритета 1 и 2).
2. Загрузка парка графических ускорителей (GPU)
  • Метрика: Время использования GPU (часы) / занятость памяти.
  • Текущая загрузка: ~95%. Доступ GPU для проектов Приоритета 4 возможен исключительно в периоды низкой активности очередей (например, ночные часы или выходные дни) при наличии свободных мощностей.
3. Загрузка систем хранения данных (СХД)
  • Метрика: Занятый объем (ТБ) / операции ввода-вывода (IOPS).
  • Текущий уровень заполнения: ~65% от общей емкости Ceph.

Календарное планирование и управление очередями

  • Планирование: Система управления проектами и квотами автоматически учитывает приоритет заявки при постановке в очередь (batch-система). Проекты Приоритета 1 и 2 имеют право на резервирование ресурсов (до 30 дней) под «тяжелые» задачи (обучение LLM, геномные расчеты, моделирование физических процессов, PINN).
  • Плановые работы: Техническое обслуживание платформы Asperitas проводится без остановки сервисов. Отключение физического оборудования производится не чаще 1 раза в квартал в период наименьшей активности с уведомлением за 14 дней.

Мониторинг

Актуальные данные о текущей загрузке и информация о статусе очереди и приоритетах доступных ресурсах доступны в режиме реального времени и отражаются в личном кабинете пользователя.