Разработка принципов построения и реализация прототипа системы обеспечения оперативного контроля и эффективной автономной работы суперкомпьютерных комплексов

Авторы

  • Александр Сергеевич Антонов
  • Вадим Владимирович Воеводин
  • Владимир Валентинович Воеводин
  • Сергей Анатольевич Жуматий
  • Дмитрий Александрович Никитенко
  • Сергей Игоревич Соболев
  • Константин Сергеевич Стефанов
  • Павел Артемович Швец

Ключевые слова:

суперкомпьютер; надежность суперкомпьютера; отказоустойчивость суперкомпьютера; мониторинг суперкомпьютера; аварии суперкомпьютера; отказы суперкомпьютера; автономная работа суперкомпьютера; модель функционирования суперкомпьютера.

Аннотация

Современный суперкомпьютерный комплекс – это сложная, дорогостоящая и крайне энергонасыщенная система. Каждый из компонентов комплекса потенциально ненадежен и может выйти из строя практически в любой момент. Последствия могут быть различными, от завершения отдельных заданий до выхода из строя всего комплекса, поэтому необходим оперативный контроль, позволяющий гарантировать сохранность компонентов и эффективную автономную работу суперкомпьютера в целом. В НИВЦ МГУ разрабатывается программный комплекс для оперативного контроля и автоматического реагирования на аварийные ситуации в работе суперкомпьютерных систем. В основу комплекса положена модель суперкомпьютерной системы, представленная в виде мультиграфа. Такой подход позволяет обеспечить полноту определения аварийных ситуаций, а также вести учет накопленного опыта эксплуатации больших и сверхбольших вычислительных систем. Работа рекомендована Программным комитетом Международной суперкомпьютерной конференции «Научный сервис в сети Интернет: все грани параллелизма».   

Загрузки

Опубликован

2018-23-10

Выпуск

Раздел

******************************