用 pve+container(LXC),pve 宿主机上装显卡的 kernel 驱动,container 里装运行时(不过这样驱动版本是需要一致匹配的) 大家各自拿着一个 container 有 root 权限,除了动不了 kernel ,换不了驱动版本外其他都能自己装
不太理解。既然是服务器,当然每个人有自己的账号啊,不然怎么写代码、debug 、看数据? 至于计算资源的分配,用专门的资源调度软件管理不就行了吗,例如 slurm 、htcondor 。 你把作业提交上去,别人的作业结束了,你的任务就开始了啊,大家协商一下最大作业时间就行了,例如 48h 、72h 。 我是做物理的,蒙卡模拟啥的,要是说错了,勿喷!
遇到了同样的情况,4 个人用,而且并没有专人负责服务器的维护工作。 因此为了方便起见,每个人都申请自己独立的拥护,自己维护自己的开发环境,然后配上了足够大容量的硬盘。 GPU 分配就更粗暴了,在微信群里喊一声,用了哪张卡,要用多久,就行了。
我这边用下来有个提醒。楼上说的 Docker 方案,假如 Docker 自身不是 rootless 的,那么有权限使用 docker 的用户实质上都能提权到 root 。我这边就遇到挂载 / 然后搞事的同学。 该帖其它楼的方案,比如 Proxmox VE 用 CT 共享 GPU 或者 LXD 共享,相比 Docker 的坏处是,对于缺少虚拟化经验的同学而言容易接触的资料不如 docker pull 来得多。但是话又说回来,写不明白 Dockerfile 只会连进容器内部敲命令的大有人在。搞不好他还会想装个 openssh-server ,这时候有着完整 systemd 支持的 LXC 容器,比 docker container 那就阳间太多了。 对于 LXD 有一个挺漂亮的 Web 面板,可以试试: https://lxdware.com/