公司模型训练框架突然精度出现问题,排查了一番,发现原因和 cupy, torch 的 import 顺序有关. 简单来说,发现 import cupy as cp import torch 和 import torch import cupy as cp 两种顺序会得到不一样的计算结果. 目前怀疑是 torch 和 cupy 在初始化时各自有一些关于 cuda 的设置,这些设置之间冲突. 不知道思路是否正确. 还是比较想知道造成这个现象的原因的. 具体的背景以及复现代码在这里: https://111qqz.com/2023/12/cupy-torch-import-order-impact/