有多少人能够解释清Deepseek的R1和V3区别？-网大论坛

lgyyuuki 发表于 2025-2-2 21:49:44

有多少人能够解释清Deepseek的R1和V3区别？

互联网行业喜欢新造名词，故意搞的普通民众不清楚其真实意思，以此来人为制造信息屏障，从而赚的信息差与利润。

“不说人话”这点是国内互联网产业最大的毛病，也是各大互联网IT企业的问题，国家应该扶持实体制造业而不应该是虚头巴脑的互联网IT企业。

宁汉合流 发表于 2025-2-2 21:55:50

我用智谱清言对比了下，感觉ds没有那么神（两者都有清华学子参与，真的不是厚此薄彼），我想智谱清言恐怕很多人没有听说过吧，想到人家没有打过这么火的广告……

lievenb 发表于 2025-2-3 17:22:35

专业人士震撼的是V2-V3取得的突破性工程创新，也是众多闭源模型真正忌惮的，6千亿参数MoE架构，基本上实现无故障训练，尽管5M美元单次训练成本可能略有夸大，但训练成本大幅下降是不争的事实，没有一款其他模型能做到，R1是COT自动推理，相对来说是纯算法的。V3另外有几项技术亮点，MTP使得fp8混合精度训练收敛更快，取消了routing loss训练更高效，dualpipe pp并行，infra层面优化得很细，绕开某些cuda限制。这些技术突破说明ds的确是一只高水平团队，不过已公开的信息太多，加之给大家上了一课，免费传授了成功秘籍，不乏野心的业界大佬们应该在暗中谋划如何复制了吧。不出意外大模型可能会跟新能源汽车一样迎来一波爆发，这次爆款长期看对ds是祸是福很难讲。

页: [1]

网大论坛's Archiver

有多少人能够解释清Deepseek的R1和V3区别？