@binux 试过 gpt-4 的图像识别,但是感觉目前精度根本不够,只能识别占比比较大和突出的物品,图片环境状态好像还无法识别,视频的话就更复杂了,虽然视频也是基于每帧的图片,但视觉并不能完全用一帧一帧的方法来识别吧