Перейти к основному контенту

Тег: LSF

#NVIDIA продолжает свое движение в сторону становления настоящим #HPC гигантом. Вчера стало известно о том, что NVIDIA купила компанию Bright Computing, известную своим программным обеспечением Bright Cluster Manager (#BCM). BCM являться пожалуй единственным законченным набором инструментов, который позволяет почти без боли и консоли разворачивать настоящие суперкомпьютеры с правильно настроенными из коробки планировщиками #PBS, #LSF, #Slurm, параллельными файловыми системами и прочими необходимыми надстройками. При этом, все делается через удобный WEB-UI. Была даже бесплатная версия для кластеров до 8 узлов. Страшно сказать: у BCM даже была своя собственная система доставки драйверов для #Infiniband (Mellanox, кстати, тоже поглощён NVIDIA) с дополнительным уровнем тестирования на совместимость и стабильность!

https://blogs.nvidia.com/blog/2022/01/10/bright-computing-hpc/

https://blogs.nvidia.com/blog/2022/01/10/bright-computing-hpc/

#TotalCAE хвастают тем, что написали слой интеграции между SLURM и #ANSYS #RSM.

Напомню, ANSYS RSM позволяет без проблем ставить задачи ANSYS на таких высокопроизводительных системах, как #PBS, #LSF, #GridEngine, #Torque, #MOAB и даже Windows HPC Cluster, но не SLURM.

TotalCAE взяли и написали свой собственный слой интеграции. Это прикольно, но проще было взять стандартный транслятор SLURM-PBS.

#HPC

https://www.totalcae.com/learn/slurm-ansys-remote-solver-manager-rsm/ 🔗 SLURM with ANSYS Remote Solver Manager (RSM) - TotalCAE Blog

http://ift.tt/2zt3EbO https://www.totalcae.com/learn/slurm-ansys-remote-solver-manager-rsm/

Как подружить ANSYS 18 и кластер

Как подружить ANSYS 18 и кластер https://quantumhpc.com/en/blog/how-to-configure-ansys-rsm-v18-with-a-pbs-pro-cluster

Отличная статья/комикс о том, как настроить взаимодействие #ANSYS 18 и кластерного #HPC планировщика очереди задач (#workload manager/#scheduler) #Altair #PBS Pro через новый ANSYS #RSM. Все дело в том, что RSM, утилита взаимодействия решателей ANSYS с вычислительными ресурсам, в 18-ой версии сильно изменилась. Хотя, на мой взгляд, это здорово пошло ей на пользу.

Хоть статья и написана про PBS Pro, но настройка #IBM #LSF, MS HPC Cluster, Grid Engine будет проходить точно также - все настройки унифицированы.

Централизованное управление GPU вашего датацентра

NVIDIA Data Center GPU Manager Simplifies Cluster Administration | NVIDIA Technical Blog Today’s data centers demand greater agility, resource uptime and streamlined administration to deal with the ever-increasing computational requirements of HPC, hyperscale and enterprise workloads. devblogs.nvidia.com

Централизованное управление GPU вашего датацентра https://devblogs.nvidia.com/parallelforall/nvidia-data-center-gpu-manager-cluster-administration/

#NVIDIA объявила о выходе Data Center GPU Manager (#DCGM) предназанвенного для централизованного мониторинга и управления #GPU и #GPGPU вашего датацентра или кластера (у кого что). ПО имеет интерфейсы к основным игрокам #HPC рынка: Bright Custer Manager (#BCM), #Altair #PBS Works и #IBM Spectrum #LSF и позволяет производить низкоуровневую диагностику аппаратной части, конфигурирование драйверов и прочие низкоуровневые фишки.

Nvidia DCGM 1.0 Release Candidate доступен для скачивания по регистрации (https://developer.nvidia.com/data-center-gpu-manager-dcgm-access). О том, будет ли данное ПО бесплано, или потребуется приобретение лицензий пока не сообщается, но что-то мне подсказывает, что с учетом последних действий NVIDIA нам всем придется раскошелиться.

С удивлением для себя узнал, что у #Platform #LSF (Load Sharing Facility) принадлежащего компании #IBM теперь есть бесплатная версия выходящая под брендом IBM #Spectrum LSF #Community Edition.

IBM Developer IBM Developer is the source for hands-on training and in-demand learning on relevant technologies such as generative AI, data science, Java, and more. www.ibm.com

Ограничения есть, но они не такие критичные, как может показаться.

IBM бесплатно предоставляет данную версию HPC Clustre Meanager + Workload Manage + Platfrom MPI + Web UI которая может использоваться на кластерах с 10 узлами. Система способна управлять 1000 заданий!

Между прочим 20 узлов - это от 256 до 1024 ядер процессоров в зависимости от архитектуры узлов!

Service Management Connect - IBM Spectrum LSF Product Family - Downloads