网大论坛

 找回密码
 立即注册
查看: 1750|回复: 2

有多少人能够解释清Deepseek的R1和V3区别?

[复制链接]

老战友

Rank: 5Rank: 5

1404

积分

0

贡献

0

奖励
发表于 2025-2-2 21:49:44 | 显示全部楼层 |阅读模式
互联网行业喜欢新造名词,故意搞的普通民众不清楚其真实意思,以此来人为制造信息屏障,从而赚的信息差与利润。

“不说人话”这点是国内互联网产业最大的毛病,也是各大互联网IT企业的问题,国家应该扶持实体制造业而不应该是虚头巴脑的互联网IT企业。

禁止发言

651

积分

0

贡献

200

奖励
发表于 2025-2-2 21:55:50 来自手机 | 显示全部楼层
我用智谱清言对比了下,感觉ds没有那么神(两者都有清华学子参与,真的不是厚此薄彼),我想智谱清言恐怕很多人没有听说过吧,想到人家没有打过这么火的广告……

初出江湖

Rank: 2

75

积分

0

贡献

0

奖励
发表于 2025-2-3 17:22:35 来自手机 | 显示全部楼层
专业人士震撼的是V2-V3取得的突破性工程创新,也是众多闭源模型真正忌惮的,6千亿参数MoE架构,基本上实现无故障训练,尽管5M美元单次训练成本可能略有夸大,但训练成本大幅下降是不争的事实,没有一款其他模型能做到,R1是COT自动推理,相对来说是纯算法的。V3另外有几项技术亮点,MTP使得fp8混合精度训练收敛更快,取消了routing loss训练更高效,dualpipe pp并行,infra层面优化得很细,绕开某些cuda限制。这些技术突破说明ds的确是一只高水平团队,不过已公开的信息太多,加之给大家上了一课,免费传授了成功秘籍,不乏野心的业界大佬们应该在暗中谋划如何复制了吧。不出意外大模型可能会跟新能源汽车一样迎来一波爆发,这次爆款长期看对ds是祸是福很难讲。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

论坛的微信公众号(二维码如下),关注获取更多科教信息

Archiver|手机版|网大论坛 ( (鄂ICP备2021013060号-2) )

GMT+8, 2025-5-3 19:29 , Processed in 0.044182 second(s), 19 queries , Gzip On.

鄂公网安备 42018502005923号

Powered by Discuz! X3.4

Copyright © 2001-2022, Tencent Cloud.