本周市场回调:上证指数跌1.72%,沪深300跌2.22%,中证500跌3.26%,创业板跌4.87%,市场的中位数跌1.87%
本周市场风格有些变化,之前涨的多的大科技板块回调,而传统的板块:食品饮料(白酒)、银行、石油石化,表现相对好很多,所以市场并没有出现什么大的利空信息,整体是一个均值回归的特点。
本周是DeepSeek的开源周,周一到周五,每天向大模型领域投出一个自研的工具库,我来给大家总结一下:
FlashMLA,显存优化,提高了GPU训练模型的效率,让老款的、低配版的GPU再次焕发生机;
DeepEP,通信优化,提高了不同硬件之间的信息传输速度,进一步降低硬件成本和时间成本;
DeepGEMM,训练优化,DeepSeek在用一种方法对大模型进行训练,这个方法行业内都知道,好处就是训练成本低,训练效率高,但同时出现的问题是训练的精度不高,大模型出来的效果不好。那如何能够保证大模型的精度高,同时还训练成本低呢?之前很多大模型的研究者,质疑DeepSeek不可能用这个方法优化成功,这一次DeepSeek,直接开源,自己看去吧,而且他们仅用300行代码就搞定了。
DualPipe 和 EPLB等,训练优化,通过并行计算,减少设备空载,提高运行效率并且、均衡配置GPU工作量;
3FS,存储优化,这个解决了Ai大模型训练以来的一个问题:"算力跑得快,存储拖后腿",也就是计算芯片很快,但是中间的结果需要临时存储,存储慢拖后整个训练过程。3FS解决的就是这个问题。
本来以为5个工具,已经非常炸裂,结果今天DeepSeek又甩出来大招,全球的大模型都不赚钱,但我赚钱,我的成本利润率是多少呢?
545%
一个GPU租赁成本是2美金一小时,1天24小时,用226.75个结点,1个结点包含8个GPU,这样乘起来的1天成本是:87072美元
那24小时,能够赚多少钱呢?
理论上销售额是562027美元,减去成本87072美元,1天的利润474955美元,成本利润率545%!换算成大家习惯用的毛利率是84.5%,这是开了一台印钞机啊
当然文章也说了,这个是理论的利润,实际情况下不同模型、不同时间,还有打折的情况。但即使是考虑这些因素,545%的利润率,再打个5折,都还有的赚。
DeepSeek厚道,告诉你这东西我很赚钱,还告诉你,你如果按着我的思路做也能这么赚钱,这里我用的顺手的工具,也一并送给你。
类似于,给你一本九阳神功的秘籍,还手把手教你,就差把全身的真气输给你了。
这个影响力,我能想到的有几个:
1 生产大模型的能赚钱了,按应用端的成本降低,接下来就看谁更聪明,能让大模型普惠给每个人;
2 对于硬件的生产商,需求度降低;
3 对于生产大模型的其他团队,资本开支减少,赶紧学DeepSeek的思路,原有的大模型推倒重来。
世界投资者,再一次重新看待我们的科技公司,中国企业同样为世界的大模型做出贡献。
恭喜DeepSeek团队。
注:目前DeepSeek没有在任何资本市场上市,注意风险
今天也不写其他的了,为DeepSeek鼓掌!