商汤 + NTU 做了个不用 Vision Encoder 也不用 VAE 的多 ...

博客： https://huggingface.co/blog/sensenova/neo-unify
叫 NEO-unify ，主要卖点是把多模态里最"理所当然"的两个组件都扔掉了：
1.不用 Vision Encoder （ CLIP/SigLIP 之类的）
2.不用 VAE
直接从原始像素出发，理解和生成两条路径都塞在一个叫 MoT （ Mixture-of-Transformer ）的骨干里。文本用自回归交叉熵，图像生成用 pixel flow matching ，统一训练。
比较有意思的几个地方：

图像重建质量上，2B 的模型在 MS COCO 上跑出来 PSNR 31.56 / SSIM 0.85 ，Flux 的 VAE 是 32.65 / 0.91 ，差距没想象中大，而且这是在 90K pretraining step 之后的成绩

把理解分支完全冻住，只训练生成分支，图像编辑居然还能用，ImgEdit 得分 3.32

声称比 Bagel 数据利用率高——同样的 benchmark ，用更少的 token 训出来更高的性能

模型还没开源，团队在 HF 评论区说正在准备，tech report 也在路上。
感觉这个思路（彻底去掉预训练编码器，让模型自己从像素里学表示）如果真能 scale 起来是挺有意思的，现在的多模态基本都依赖 CLIP 系的先验，这条路如果走通了架构会干净不少。
有没有做过类似 UMM 工作的 v 友，这种方向实际上训起来坑多吗？
拿到了他们的 discord server 邀请码： https://discord.gg/vh5SE45D8b

商汤 + NTU 做了个不用 Vision Encoder 也不用 VAE 的多模态模型，结果还挺能打

热门主题

退圈，聚名最低价，1999年注册的动物米，pd

GPT-5 mini 模型会限额度不

香港物理机/云服务器/不限流量/可测试/带宽

全网付费资源4-23更新

是不是三十五岁换工作只能做外包

你们都用 coding plan 做什么？

大佬们，成都有好的月嫂推荐吗？老婆预产期

不限流量的 vps，是不是 netcup 性价比最高

codex 中的 gpt5.5 出来了吗？

开源一个查看 k8s 的菜单栏工具-kubebar

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则