之前玩 8b 左右的,在电脑上用 llama.cpp 跑,还流畅。 然后越玩越大,35b 、70b 、120b 要么直接跑不起来,要么几十分钟生成 要求除了能跑各个知名的开源大模型,比如 qwen2 ,还要能跑 cohere 之类稍冷门的 因为后面可能要生产部署,最好得是国内的。 体验和生产部署分开也行。 目前看,微调的可能行不大。不需要支持微调或者自定义。简单地说:有 api 调就行。 不知道 huggingface space pro 、colab(pro)、openrouter 之类能否满足需求? 还是说需要 vps 型的?