目前考虑的方案有以下三个:
1 、使用 chatgpt 4, 实验之后感觉效果不错。缺点是速度比较慢,而且 chatgpt4 有使用频率限制,一天处理不了多少图片。不知道有没有其他的平台有提供类似的服务,最好是可以用 api 的方式调用
2 、自己租一台服务器,去跑模型,目前看了一下 minigpt4, 效果未知。有没有其他的模型推荐
3 、人工一张一张处理
大佬们,有没有其他什么好的方案推荐?
描述示例

描述: restaurant menu card

描述:cheesecake store

描述:Advertisement of limited offer in McDonald's