无需量化，在树莓派上运行 LLaMA2 70B 模型 ...

作者：lwch 发布时间：2023-10-17 16:01:36

想必大家对 transformer 模型的认识已经非常深刻了，这里就不多做介绍了。今天我用纯 go 语言实现了一个项目来做 LLaMA2 模型的推理，其实要在小内存设备上运行大语言模型方法很简单，只需要在运行到某一层时将该层的参数加载到内存中进行计算即可。
项目地址: https://github.com/lwch/llama2.go
各规格模型所需内存大小：
[td]Model[/td]
[td]Precision[/td]
[td]Memory[/td]
[td]Memory(Cached Params)[/td]
7B
bf16
600M+
25G+
13B
bf16
1G+
43G+
70B
bf16
3G+
untest
模型推理方式:
cat loutre de mer
peppermint => menthe poivrée
plush girafe => girafe peluche
cheese =>
EOF
.... 此处省略一堆中间过程
Translate English to French:
sea otter => loutre de mer
peppermint => menthe poivrée
plush girafe => girafe peluche
cheese => fromage
Traanslate French to English:
lait => milk
推理提速:
[ol]

可通过分布式集群来实现矩阵运算达到 tensor 并行

可通过量化手段减少模型大小并提高计算速度
[/ol]

girafe, 模型, french, llama2

无需量化，在树莓派上运行 LLaMA2 70B 模型

相关帖子

浏览过的版块

热门主题

IP地址修改器 5.0.7.5

python 进阶，如何用胶水一样用别人的半成

完犊子了，年领大了，没啥兴趣了

求助zip文件用RAR解压错误，如何解决！

我不怕你们笑话我，我不会挂咸鱼卖东西，来

新注册微信号，需要网络身份证了

微软Windows 11 25H2正式发布！其中包含“

我这4个域名，能超越坛子里所有的坛友吗？

foobar2000 2.25.1 简体中文汉化绿色单文件

我台式电脑主板没有蓝牙功能，买一个蓝牙接

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则