请各位推荐一下,有没有什么速度快支持语言多的翻译模型

查看 7|回复 0
作者:haozi23333   
我现在用的是, https://huggingface.co/google/madlad400-3b-mt 一个量化之后的模型, A5000/RTX4090 可以跑到 90token/s 单任务的速度
例子代码来自 https://github.com/huggingface/candle/blob/main/candle-examples/examples/quantized-t5/main.rs
有没有速度比这个再快点的模型(要尽可能支持主流语言), 或者可以优化执行速度(付费支持, 如果能达到单任务 200~300token/s A5000 的卡, 200$起).
tg 可以直接联系我 @chino23333 微信的话您留我联系您 (国内下午 4 点后在线
您需要登录后才可以回帖 登录 | 立即注册

返回顶部