[ol]
[/ol]
发现这样做有严重的性能问题,假如输入 batch=24,
[ol]
[/ol]
按理说,在双 GPU 上,可以让 batch=48 ,从而每个显卡获的 sub_batch=24, 每个卡显存占用~6G, 核心利用率~100%,总的推理速度~66fps. 实际上 batch=48 直接爆显存了。
可能以上很直接的想法不符合 libtorch 或者说底层 cuda 的工作原理。请问下有朋友遇到过相同问题么?请教下如何解决。(也许需要用torch::nn::parallel::data_parallel来利用多 GPU ,我稍后尝试下)