C++libtorch 多线程多 GPU 推理问题

遇到一个多 GPU 推理问题，模型是 TorchScript ，我想利用两块显卡并行推理，想法很直接：
[ol]

生成两个独立模型，model0 发送到 GPU0 上，model1 发送到 GPU1 上

将一个 batch 的数据均分成两份，sub_batch0 发送到 GPU0 上, sub_batch1 发送到 GPU1 上

在两个 c++线程中（std::thread）进行推理: model0(sub_batch0), model1(sub_batch1)并行推理后收集最终结果。
[/ol]
发现这样做有严重的性能问题，假如输入 batch=24,
[ol]

在单 GPU 上，显存占用~6G ，核心利用率~100%，推理速度~33fps

在双 GPU 上（每个 GPU 获得大小为 12 的 sub_batch ），结果每张卡显存占用~15G （总 16GB ）, 核心占用率不到 50%，推理速度~44fps
[/ol]
按理说，在双 GPU 上，可以让 batch=48 ，从而每个显卡获的 sub_batch=24, 每个卡显存占用~6G, 核心利用率~100%，总的推理速度~66fps. 实际上 batch=48 直接爆显存了。
可能以上很直接的想法不符合 libtorch 或者说底层 cuda 的工作原理。请问下有朋友遇到过相同问题么？请教下如何解决。（也许需要用torch::nn::parallel::data_parallel来利用多 GPU ，我稍后尝试下）

C++libtorch 多线程多 GPU 推理问题

浏览过的版块

热门主题

我的华为手机上，qq的收费装扮没有选项，这

都还没到养鱼的年龄吗，为啥关于养鱼的讨论

无固定车位，充电桩安装问题求助

弄了个 intel 的 Macbook Air 拿来远程 vib

做了一个 SSL 证书管理工具，永久免费 3 个

我的 Apple AirPods 第一代，落下帷幕

去康师傅方便面下沙工厂逛了逛

qoderworkcn 这个 credit 太不经用了

VirtScope·云镜 - 跨虚拟化与容器平台的统

腾讯设计qq版本，要分为安卓，苹果ios，鸿

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

C++libtorch 多线程多 GPU 推理问题

浏览过的版块

热门主题

我的华为手机上，qq的收费装扮没有选项，这

都还没到养鱼的年龄吗，为啥关于养鱼的讨论

无固定车位，充电桩安装问题求助

弄了个 intel 的 Macbook Air 拿来远程 vib

做了一个 SSL 证书管理工具，永久免费 3 个

我的 Apple AirPods 第一代，落下帷幕

去康师傅方便面下沙工厂逛了逛

qoderworkcn 这个 credit 太不经用了

VirtScope·云镜 - 跨虚拟化与容器平台的统

腾讯设计qq版本，要分为安卓，苹果ios，鸿

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

在 Yoo趣儿投放广告