• 最近访问:
发表于 2025-01-29 08:58:49 东方财富iPhone版 发布于 四川
deepseek的小作文说实话挺莫名其妙的,其实算力提升方面的改进都公布在24年
deepseek的小作文说实话挺莫名其妙的,其实算力提升方面的改进都公布在24年12月的DeepSeek-V3论文里,当时外网就有很多学者讨论算力优化这回事,然而市场毫无波澜。上周R1论文出来以后,学界更多的是关注其中rl技术在思考能力上的提升,但是小作文却把一个月前的算力提升拿过来重点讲,给人感觉是为了做空半导体而强行叙事。现在来看的话华尔街应该是消化过来了,正好我们也没法操作,就再多观察几天。
郑重声明:用户在社区发表的所有信息将由本网站记录保存,仅代表作者个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
MO_GU 作者
发表于 2025-01-29 09:03:55 发布于 四川
另外V3论文里,deepseek非常具体地对英伟达显卡中的tensor core提出一些架构优化建议,假如deepseek的提升是真的(目前仅是自称提升,外界只能根据其论文大致了解他们的提升思路),长远看也是有利于英伟达继续优化架构,而非小作文所讲的算力无用论
MO_GU 作者
发表于 2025-01-29 09:08:08 发布于 四川
没有贬低deepseek,deepseek我自己用过效果不错,论文里面讲的一些思路我也认可,只是这个模型到底是不是真的只在少量的gpu上训出来的,我觉得还有待验证
MO_GU 作者
发表于 2025-01-29 18:10:12 发布于 四川
活到70领退休金 :
这个没办法验证啊,除非是用公共数据集的,否则光有训练好的模型权重根本不知道训练开销是多少,除非把超参和数据集一起提供了,但提供超参的还比较多,提供数据集的真的少见,而好的数据集不管是成本还是价值,很多时候比方法和模型本身还贵重,我一直感觉AI早晚得卷到特征工程上
但是deepseek不用公共数据集的理由讲的很理直气壮认为现有数据已经是严重污染的,alignment很有问题,所以必须得按照他们的方法用rl去做verification。我个人感觉这样处理数据相当耗算力,但是他们似乎并不把这部分算在时间和算力成本当中
MO_GU 作者
发表于 2025-01-29 21:43:39 发布于 四川
活到70领退休金 :
既然都说了是用RL,那配个环境很合理吧,环境什么样的都有,用其他大模型当环境也很合理吧,甚至直接让其他大模型给出reward也很合理吧,要不然RL怎么做
用其他模型监督还是老一套的RLAIF,本质上就是一个弱化的RLHF,他们自己搞了个GRPO做self learning,自己监督自己,左脚踩右脚升天,有点类似当年alphazero的self play。不过这个东西带来的提升跟小作文里的算力一点关系都没有。
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:https://1458esb.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500