[求助] import cupy 和 import torch 的顺序不同导致了不同的计算结果,如何进一步排查?

查看 13|回复 0
作者:111qqz   
公司模型训练框架突然精度出现问题,排查了一番,发现原因和 cupy, torch 的 import 顺序有关.
简单来说,发现
import cupy as cp
import torch

import torch
import cupy as cp
两种顺序会得到不一样的计算结果.
目前怀疑是 torch 和 cupy 在初始化时各自有一些关于 cuda 的设置,这些设置之间冲突.
不知道思路是否正确. 还是比较想知道造成这个现象的原因的.
具体的背景以及复现代码在这里:
https://111qqz.com/2023/12/cupy-torch-import-order-impact/
您需要登录后才可以回帖 登录 | 立即注册

返回顶部