开源大模型的“源”到底是什么？

查看 397|回复 11

作者：ztm0929 发布时间：2024-7-25 20:03:54

我们都知道开源指的是开放源代码，理论上来说，任何人都可以通过源码仓库实现自构建、自部署、自托管，做出跟原作者类似的应用。
那么大型语言模型的“源”指的是什么？
英文太烂看不懂 hugging face 里的说明😂
我目前理解的只有数据集（一大堆结构化的文本），其他的诸如参数、训练方法、预训练模型具体指的是啥？除了前述这些，还有遗漏的吗？
巧合的是那年 Llama 在 2 月开源，百度文心、阿里通义和腾讯混元都先后实现了“全链路自研”，我比较好奇 Llama 自己是依赖哪位前者？它有声明学习对象吗？
更想引出一个一直疑惑的点，各种五花八门的开源许可证到底是国际通用的、具有实际效力的条款文件，还是纯粹的“君子协议”？😂

Mogamigawa 2024-7-25 20:04:31

码了，我也不懂

malusama 2024-7-25 20:05:01

模型开源不都是开放下载模型权重么？

mumbler 2024-7-25 20:05:45

大模型开源的是权重文件，你可以用自己数据去微调这个权重，而不用从头去训练

shinsekai 2024-7-25 20:06:24

训练好的模型参数+模型结构
或者
用于训练的数据集+训练参数+模型结构

ztm0929

2024-7-25 20:07:23

@mumbler
@malusama
对，GPT 给我的解答也包含了这个，但如果以这个来定义为“开源”的话，其实各家都有付费服务（例如 OpenAI 的付费 fine-tune ），这么看开源的特色之处主要在于免费？😂

mustcool 2024-7-25 20:08:00

数据集基本都没开源

mumbler 2024-7-25 20:08:32

@ztm0929 #5 fine-tune 付费服务主要是为算力付费，模型都是免费的，至少现在没收你钱

mumbler 2024-7-25 20:09:04

@mustcool #6 数据集肯定有严重的版权问题，没法开源

mauve 2024-7-25 20:10:01

https://gist.github.com/veekaybee/be375ab33085102f9027853128dc5f0e#foundational-deep-learning-papers-in-semi-chronological-order

开源大模型的“源”到底是什么？

浏览过的版块

热门主题

都还没到养鱼的年龄吗，为啥关于养鱼的讨论

无固定车位，充电桩安装问题求助

弄了个 intel 的 Macbook Air 拿来远程 vib

做了一个 SSL 证书管理工具，永久免费 3 个

我的 Apple AirPods 第一代，落下帷幕

去康师傅方便面下沙工厂逛了逛

qoderworkcn 这个 credit 太不经用了

VirtScope·云镜 - 跨虚拟化与容器平台的统

腾讯设计qq版本，要分为安卓，苹果ios，鸿

每日一贴：数据库为什么会莫名出错

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

开源大模型的“源”到底是什么？

浏览过的版块

热门主题

都还没到养鱼的年龄吗，为啥关于养鱼的讨论

无固定车位，充电桩安装问题求助

弄了个 intel 的 Macbook Air 拿来远程 vib

做了一个 SSL 证书管理工具，永久免费 3 个

我的 Apple AirPods 第一代，落下帷幕

去康师傅方便面下沙工厂逛了逛

qoderworkcn 这个 credit 太不经用了

VirtScope·云镜 - 跨虚拟化与容器平台的统

腾讯设计qq版本，要分为安卓，苹果ios，鸿

每日一贴：数据库为什么会莫名出错

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

在 Yoo趣儿投放广告