开源大模型的“源”到底是什么?

查看 125|回复 11
作者:ztm0929   
我们都知道开源指的是开放源代码,理论上来说,任何人都可以通过源码仓库实现自构建、自部署、自托管,做出跟原作者类似的应用。
那么大型语言模型的“源”指的是什么?
英文太烂看不懂 hugging face 里的说明😂
我目前理解的只有数据集(一大堆结构化的文本),其他的诸如参数、训练方法、预训练模型具体指的是啥?除了前述这些,还有遗漏的吗?
巧合的是那年 Llama 在 2 月开源,百度文心、阿里通义和腾讯混元都先后实现了“全链路自研”,我比较好奇 Llama 自己是依赖哪位前者?它有声明学习对象吗?
更想引出一个一直疑惑的点,各种五花八门的开源许可证到底是国际通用的、具有实际效力的条款文件,还是纯粹的“君子协议”?😂
Mogamigawa   
码了,我也不懂
malusama   
模型开源不都是开放下载模型权重么?
mumbler   
大模型开源的是权重文件,你可以用自己数据去微调这个权重,而不用从头去训练
shinsekai   
训练好的模型参数+模型结构
或者
用于训练的数据集+训练参数+模型结构
ztm0929
OP
  
@mumbler
@malusama
对,GPT 给我的解答也包含了这个,但如果以这个来定义为“开源”的话,其实各家都有付费服务(例如 OpenAI 的付费 fine-tune ),这么看开源的特色之处主要在于免费?😂
mustcool   
数据集基本都没开源
mumbler   
@ztm0929 #5 fine-tune 付费服务主要是为算力付费,模型都是免费的,至少现在没收你钱
mumbler   
@mustcool #6 数据集肯定有严重的版权问题,没法开源
mauve   


https://gist.github.com/veekaybee/be375ab33085102f9027853128dc5f0e#foundational-deep-learning-papers-in-semi-chronological-order
您需要登录后才可以回帖 登录 | 立即注册

返回顶部