Суперкомпьютер НИУ ВШЭ научился обнаруживать неэффективные задачи пользователей
С момента появления суперкомпьютеров обеспечение эффективности их использования является важнейшей задачей. Все суперкомпьютеры в своей степени уникальны за счет различных технических характеристик и программного обеспечения, поэтому универсальных систем анализа эффективности задач не существует. Для крупных вычислительных кластеров разрабатывают собственные системы мониторинга, и суперкомпьютер cHARISMa не стал исключением.
Первая версия такой системы уже запущена на суперкомпьютере cHARISMa, и все пользователи имеют доступ к ней: lk.hpc.hse.ru. Система не только собирает и визуализирует данные о задачах, но и производит анализ эффективности задач, опираясь на обнаруженные индикаторы проблем. Разработка таких систем является масштабной научной работой, так как для анализа задач требуется внедрение математических методов и методов обработки при помощи искусственного интеллекта.
На суперкомпьютере cHARISMa ежегодно выполняется более 200 тысяч запусков научных и учебных задач. Система HPC TaskMaster призвана помочь пользователям эффективнее выполнять свои вычисления. Она предоставляет информативные отчеты о характеристиках выполненных задач, указывает на явные ошибки запуска и рекомендации по повышению эффективности. Автоматически определяя проблемные задачи, система позволяет эффективнее использовать ресурсы всего суперкомпьютера, экономя дорогостоящее машинное время и ускоряя работу для всех пользователей.
Система HPC TaskMaster разработана на языках Python и JavaScript с использованием открытого программного обеспечения Telegraf, InfluxDB и Grafana.
Принцип работы HPC TaskMaster
Система доступна для всех пользователей суперкомпьютера cHARISMa в едином личном кабинете пользователей суперкомпьютера по адресу https://lk.hpc.hse.ru/. Перейдя на сайт, выберите раздел «Мои вычисления», в котором будут отображены ваши выполняющиеся и завершенные задачи на суперкомпьютере.
Для каждой задачи формируется собственный отчет вместе с интерактивными графиками.
В отчете содержится как общая информация о задаче, так и средние показатели используемых ресурсов задачи
Система автоматически определяет неэффективно использованные ресурсы и на основе анализа выдает вывод о работе задачи
Кроме отчетов пользователям доступна сводная статистика об их задачах
HPC TaskMaster активно развивается и улучшается путем добавления нового функционала. Приглашаем научное сообщество, студентов и всех желающих программистов к участию в нашем OpenSorce проекте.
Исходные коды проекта открыты: https://git.hpc.hse.ru/open-source/hpc-taskmaster.