尝试梳理了从预训练到 RAG 的数据工程架构，希望大家指 ...

作者：xuxin123122 发布时间：2026-3-4 08:45:29

大家好。
最近一段时间，发现一个痛点：网上的资料大都是教怎么微调、怎么写 Prompt ，但真到了一线，面对几十 TB 的预训练数据怎么清洗？多模态怎么对齐？怎么搭一个高可用的 RAG 数据流水线？网上的系统性实战资料极其匮乏，大家基本都在摸着石头过河。
为了打破这种“信息碎片化”，我和几个伙伴尝试把我们踩过的坑、摸索出的主流方案整理成了一本开源的《大模型数据工程》指南。
但毕竟我们的视野和应用场景有限，很多架构设计可能还不够成熟。所以特别发出来，希望能得到各位行业前辈和一线大佬的点评。
GitHub 地址： https://github.com/datascale-ai/data_engineering_book/
我们在项目中做了以下尝试，：

技术栈选型： 我们选择了 Ray Data 、Spark 和 WebDataset 做分布式处理和存储。想请教下真正处理 PB 级数据的大佬，这套组合在当前的一线业务中还有哪些深坑？有更推荐的现代替代方案吗？

场景覆盖是否有遗漏： 目前我们的内容梳理了四大块：文本预训练数据清洗、多模态处理（图文/音视频）、对齐与合成数据（ SFT ）、以及应用级 RAG 。这套流水线在大家的实际业务中，还缺失了哪块关键拼图？

项目采用 MIT 协议，支持中英双语。
现阶段我们最渴望的是真实的反馈——无论是架构上的探讨、技术选型的建议，还是直接提 Issue 吐槽，对我们来说都非常宝贵。如果大家觉得这个方向是有价值的，顺手点个 Star ⭐️ 也是对我们极大的鼓励！感谢大家！

数据, 架构, 技术栈

尝试梳理了从预训练到 RAG 的数据工程架构，希望大家指点技术栈是否有坑

相关帖子

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则