|
发表于 2025-2-3 17:22:35
来自手机
|
显示全部楼层
专业人士震撼的是V2-V3取得的突破性工程创新,也是众多闭源模型真正忌惮的,6千亿参数MoE架构,基本上实现无故障训练,尽管5M美元单次训练成本可能略有夸大,但训练成本大幅下降是不争的事实,没有一款其他模型能做到,R1是COT自动推理,相对来说是纯算法的。V3另外有几项技术亮点,MTP使得fp8混合精度训练收敛更快,取消了routing loss训练更高效,dualpipe pp并行,infra层面优化得很细,绕开某些cuda限制。这些技术突破说明ds的确是一只高水平团队,不过已公开的信息太多,加之给大家上了一课,免费传授了成功秘籍,不乏野心的业界大佬们应该在暗中谋划如何复制了吧。不出意外大模型可能会跟新能源汽车一样迎来一波爆发,这次爆款长期看对ds是祸是福很难讲。 |
|