@18k R1 可以理解为。在极其有限的成本下,跑出了较为优秀的效果。但是从性价比上来说,最优秀的模型的训练成本比他高了 N 倍,并没有多出 n 倍的领先优势。 我本地和官网都做了不少测试,和其他网上的测试者观点差不多一致。就是存在很大的波动性。因为目前他是靠高质量数据冷启动的,所以一旦触及到什么鬼知道的情况,就波动很大。。。 举个简单的例子,一个小学数学题。o1 mini 思考 1 秒,结束。deepseek 思考几分钟,反复质疑自己十五次。虽然答案是对的。但是可见其诡异的波动。。。。
最近真的热搜不断,炒太多了,此刻的热搜更是魔幻,创始人回家过年… 不过原来是幻方量化的创始人…天才少年,量化收割散户起家,战略布局购亿元芯片,再造 AI 比肩海外!然后年前一天不忘初心,再割散户开启科技内循环…
@LanhuaMa 如果你不懂就没必要胡说的..蒸馏和偷窃好像并没有什么关系。首先似乎并没有实锤证据表明 deepseek 蒸馏了 chatgpt ,虽然确实是有这种可能,但这种怀疑同样可以用于很多其他 LLM 。 况且蒸馏也不是什么大不了的事啊,你难道是觉得蒸馏是用什么神奇的方法把 gpt 的能力"偷"了过来吗?这只是一种形象化的说法而已,在我看来不过是学术界特有的造词行为...学界蒸馏的模型多的是,甚至模型蒸馏本来就算是一个研究方向。deepseek 在模型的工程训练上还是有独到之处的,更何况他还是开源权重,收到很多赞扬也不稀奇。至于有没有推动炒作那就不是我能知道的事了
@LanhuaMa #10 那完了,论文是谷歌发的,第一个 LLM 也是谷歌做的,结果 closeai “偷窃”来做产品挣大钱那表现再好也是辣鸡。按 Perplexity CEO 在 CNBC 的原话:“Everybody copies everybody in this field.” 所以“偷窃是原罪”,这领域成垃圾桶了🤡