现在的大模型动辄几十 G 几百 G ,如果只是在 GPU 节点本地部署和训练,那么磁盘 I/O 是不需要考虑太多的,但是如果是在集群中部署,一般集群会有专门的计算节点( GPU)和专门的存储节点,计算节点只负责运行 AI 程序,不会有大容量存储本地的模型文件,而交给专门的存储节点存储。
问题来了,如果是以前的 web 微服务,那么瞬时读写数据量不会那么大(对单个程序来说),但是大模型加载需要从磁盘读取,如果要求必须在几秒内或几十秒内读取完毕并加载到计算节点的 GPU 上,那么对存储节点的读写性能和网络性能要求就很高了,
想问一下针对大模型的分布式存储解决方案一般是怎么样的?现在有针对大模型读写 I/O 场景的存储系统优化吗?