尝试梳理了从预训练到 RAG 的数据工程架构,希望大家指点技术栈是否有坑

查看 14|回复 1
作者:xuxin123122   
大家好。
最近一段时间,发现一个痛点:网上的资料大都是教怎么微调、怎么写 Prompt ,但真到了一线,面对几十 TB 的预训练数据怎么清洗?多模态怎么对齐?怎么搭一个高可用的 RAG 数据流水线?网上的系统性实战资料极其匮乏,大家基本都在摸着石头过河。
为了打破这种“信息碎片化”,我和几个伙伴尝试把我们踩过的坑、摸索出的主流方案整理成了一本开源的《大模型数据工程》指南。
但毕竟我们的视野和应用场景有限,很多架构设计可能还不够成熟。所以特别发出来,希望能得到各位行业前辈和一线大佬的点评。
GitHub 地址: https://github.com/datascale-ai/data_engineering_book/
我们在项目中做了以下尝试,:
  • 技术栈选型: 我们选择了 Ray Data 、Spark 和 WebDataset 做分布式处理和存储。想请教下真正处理 PB 级数据的大佬,这套组合在当前的一线业务中还有哪些深坑?有更推荐的现代替代方案吗?
  • 场景覆盖是否有遗漏: 目前我们的内容梳理了四大块:文本预训练数据清洗、多模态处理(图文/音视频)、对齐与合成数据( SFT )、以及应用级 RAG 。这套流水线在大家的实际业务中,还缺失了哪块关键拼图?

    项目采用 MIT 协议,支持中英双语。
    现阶段我们最渴望的是真实的反馈——无论是架构上的探讨、技术选型的建议,还是直接提 Issue 吐槽,对我们来说都非常宝贵。如果大家觉得这个方向是有价值的,顺手点个 Star ⭐️ 也是对我们极大的鼓励!感谢大家!

    数据, 架构, 技术栈

  • lusi1990   
    感谢分享
    您需要登录后才可以回帖 登录 | 立即注册

    返回顶部