GCMP

GPU集群管理平台（GPU Cluster Management Platform）

Java

GCMP(GPU Cluster Management Platform） GPU集群管理平台

代码基于Spring Boot，底层用k8s进行GPU分配和执行训练任务。

实现对多台GPU服务器文件、镜像、GPU调度的统一管理。

GPU集群由一台master节点和多台从节点组成，最好以一台不带GPU的服务器作为master节点，如果没有的话把其中一台GPU服务器作为master节点也可以。

每台服务器上都要，配置参考请移步docker及nvidia-docker2安装步骤

如果主节点是不带GPU服务器的话，主节点上只需要docker，不需要nvidia-docker2。

请移步docker远程配置，开启java远程对docker的访问。

整体有点复杂，如果遇到问题google一下或者留言都可以。

如果master节点是用的GPU服务器，并且希望master节点上的GPU也参与调度，执行以下命令

kubectl taint node k8s-master node-role.kubernetes.io/master-

建表脚本：gcmp.sql

java程序运行在主节点上，以下几个是关键配置：

第一次启动时先进行初始化，访问 http://127.0.0.1:8090/admin ，其会自动跳转到初始化页面。

用户 - 登录

用户 - 我的任务

用户 - 我的文件

用户 - 我的镜像

用户 - 公共镜像

用户 - 公共数据集

管理员 - 用户管理

管理员 - 任务管理

管理员 - 文件管理

管理员 - 公共镜像管理

管理员 - 公共数据集管理

服务器空闲资源资源

用户使用指南，请移步user guide

管理员使用指南，请移步 admin guide