用多台DGX服务器进行集群运算,如何部署和调度可以最高效率?
蓝海大脑深度学习液冷服务器专家推荐一些架构比如DGX POD 的上面有很多做集群管理调度的,Kubernets on NVIDIA GPU(KONG)是NVIDIA指定的调度软件,还有DCGM(NVIDIA Data Center GPU Manage)等类似的调度系统。此外NVIDIA和蓝海大脑高性能服务器事业部合作优化推出了液冷服务器,因为数据流到了集群规模时已经不仅仅跟GPU相关,跟存储和网络都紧密相关,具体哪种方案是最优的,我们会有一些相关的架构推荐给开发者使用。
蓝海大脑 京ICP备18017748号-1