Суперкомпьютер НИУ ВШЭ научился обнаруживать неэффективные задачи пользователей

Отдел суперкомпьютерного моделирования НИУ ВШЭ занимается разработкой системы «HPC TaskMaster» для автоматического обнаружения неэффективных и некорректно запущенных вычислительных задач пользователей на суперкомпьютере. Какие возможности предоставляет новая система, читайте в материале.

Суперкомпьютер НИУ ВШЭ научился обнаруживать неэффективные задачи пользователей

 

 

С момента появления суперкомпьютеров обеспечение эффективности их использования является важнейшей задачей. Все суперкомпьютеры в своей степени уникальны за счет различных технических характеристик и программного обеспечения, поэтому универсальных систем анализа эффективности задач не существует. Для крупных вычислительных кластеров разрабатывают собственные системы мониторинга, и суперкомпьютер cHARISMa не стал исключением.

Первая версия такой системы уже запущена на суперкомпьютере cHARISMa, и все пользователи имеют доступ к ней: lk.hpc.hse.ru. Система не только собирает и визуализирует данные о задачах, но и производит анализ эффективности задач, опираясь на обнаруженные индикаторы проблем. Разработка таких систем является масштабной научной работой, так как для анализа задач требуется внедрение математических методов и методов обработки при помощи искусственного интеллекта.

На суперкомпьютере cHARISMa ежегодно выполняется более 200 тысяч запусков научных и учебных задач. Система HPC TaskMaster призвана помочь пользователям эффективнее выполнять свои вычисления. Она предоставляет информативные отчеты о характеристиках выполненных задач, указывает на явные ошибки запуска и рекомендации по повышению эффективности. Автоматически определяя проблемные задачи, система позволяет эффективнее использовать ресурсы всего суперкомпьютера, экономя дорогостоящее машинное время и ускоряя работу для всех пользователей.

Система HPC TaskMaster разработана на языках Python и JavaScript с использованием открытого программного обеспечения Telegraf, InfluxDB и Grafana.

 

Принцип работы HPC TaskMaster

 

Система доступна для всех пользователей суперкомпьютера cHARISMa в едином личном кабинете пользователей суперкомпьютера по адресу https://lk.hpc.hse.ru/. Перейдя на сайт, выберите раздел «Мои вычисления», в котором будут отображены ваши выполняющиеся и завершенные задачи на суперкомпьютере.

Для каждой задачи формируется собственный отчет вместе с интерактивными графиками.

 

В отчете содержится как общая информация о задаче, так и средние показатели используемых ресурсов задачи

 

Система автоматически определяет неэффективно использованные ресурсы и на основе анализа выдает вывод о работе задачи

 

Кроме отчетов пользователям доступна сводная статистика об их задачах

 

HPC TaskMaster активно развивается и улучшается путем добавления нового функционала. Приглашаем научное сообщество, студентов и всех желающих программистов к участию в нашем OpenSorce проекте.

Исходные коды проекта открыты: https://git.hpc.hse.ru/open-source/hpc-taskmaster.