有多少人能够解释清Deepseek的R1和V3区别?
互联网行业喜欢新造名词,故意搞的普通民众不清楚其真实意思,以此来人为制造信息屏障,从而赚的信息差与利润。“不说人话”这点是国内互联网产业最大的毛病,也是各大互联网IT企业的问题,国家应该扶持实体制造业而不应该是虚头巴脑的互联网IT企业。
我用智谱清言对比了下,感觉ds没有那么神(两者都有清华学子参与,真的不是厚此薄彼),我想智谱清言恐怕很多人没有听说过吧,想到人家没有打过这么火的广告…… 专业人士震撼的是V2-V3取得的突破性工程创新,也是众多闭源模型真正忌惮的,6千亿参数MoE架构,基本上实现无故障训练,尽管5M美元单次训练成本可能略有夸大,但训练成本大幅下降是不争的事实,没有一款其他模型能做到,R1是COT自动推理,相对来说是纯算法的。V3另外有几项技术亮点,MTP使得fp8混合精度训练收敛更快,取消了routing loss训练更高效,dualpipe pp并行,infra层面优化得很细,绕开某些cuda限制。这些技术突破说明ds的确是一只高水平团队,不过已公开的信息太多,加之给大家上了一课,免费传授了成功秘籍,不乏野心的业界大佬们应该在暗中谋划如何复制了吧。不出意外大模型可能会跟新能源汽车一样迎来一波爆发,这次爆款长期看对ds是祸是福很难讲。
页:
[1]