有什么方便的实验室共享 GPU 方案?

查看 225|回复 20
作者:Cineray   
实验室一台服务器大概有 10 多个人用,以前都是使用一个账号,大家合理分配时间。
现在老师要求各自建立自己的账号,但是有一个问题,因为大家的运行环境不一样,包括 cuda/python 版本等。
所以我想建立一个隔离环境,大家有一定的 sudo apt 权限,但是又不会因为环境冲突装坏系统。
目前看到的是有的用 docker/LCX ,感觉有些臃肿,求问有没有更好的方式?
如果有管理器就更好了,方便及时添加/删除用户。
另外我们有多台机器,有什么好的方法可以智能分配账号/算力资源吗?
dododada   
docker 。
我记得站里有个这种帖子的。
jiny2048   
装好必要的软件,不给 sudo 权限,每个人自己用 conda
多台服务器用 ansible 分发/管理帐号
gpu 没必要做分配/虚拟化,抢占式/商量着来就行了
litguy   
docker 或者 lxd
个人更喜欢后面这个,因为和虚拟机用起来差不多
hallDrawnel   
和 2 楼差不多,不给 sudo 权限,每个人自己用 conda 管理自己的环境就行,驱动管理员负责更新。
然后大家去抢就好了 10 个人。
retanoj   
要是想在操作系统级别支持自定义安装软件,那还是 docker / LCX 吧。
不是臃肿的问题,是你给了 sudo 一定滥用和冲突。
CheckTime   
硬盘够大就行,每个人登录在自己目录下面安装自己的 conda 环境。不用给 sudo 权限,有必须要装的系统包打申请
steveway   
https://github.com/shenuiuin/LXD_GPU_SERVER
目前在用是这个方案,确实如楼上朋友所说,需要硬盘够大。
但其实用下来,除了 lxc 完全隔离之外,小问题还是有不少的,如果实验室对 linux 都比较熟悉,直接分帐号使用就好了。
happyxhw101   
cuda 统一版本
每个人建自己的账户,/home/xxx ,用 conda 安装自己的 python 环境
不给 sudo 权限,需要安装软件的统一一个人负责
Busby   
Docker 大法好。非计算机专业很难保证每个人的水平,还是各玩各的好。
您需要登录后才可以回帖 登录 | 立即注册

返回顶部