• 最近访问:
发表于 2025-02-14 17:27:37 天天基金网页版 发布于 上海
【闲聊,与理财无关】Deepseek感想

DeepSeek爆火到今天也有段时间了,不过我还能刷到DS“横空出世”或者“国运级创新”能带动无限可能的内容,仿佛我国突然实现一个新的“弯道超车”的消息。

其对我国甚至世界AI发展的积极意义不用我赘述,我和大家一样兴奋,但处于好奇我大致梳理后发现,不平凡也就来自于平凡的工作、坚持以及人的灵光乍现,DS的R模型绝非从天而降,而是在现有基础上逐步精进和尝试得出的阶段性胜利果实。

其成功对于我们普通人的积极意义是:在逆风期,安心、踏实做好现有工作,等待机遇才是最优解。我把自己理解的DS出名前的一些信息汇总(按时间顺序)并分享给大家。由于是非专业人士,有不清晰之处请多包涵,有错误之处欢迎指正。

 

DeepSeek V1:

发布时间2024年1月,参数规模:67B(670亿个参数),特点:

基于当时成熟的密集型 Transformer 架构(类似于 LLaMA 等模型),采用传统的前馈神经网络架构(数据从输入层依次经过隐藏层,最终传递到输出层,没有任何循环或反馈连接)。架构相对简单,但高效性和清晰的结构为后续版本打下了坚实的基础。

 

DeepSeek V2:

发布时间2024年6月,参数规模:236B,特点:

重要新增1、多头注意力机制:每个注意力头都充满了丰富的信息和参数,使得模型在捕捉不同层次和维度的特征时更加得心应手;2、Mixture of Experts(专家混合):核心思想是将复杂的任务分解成多个子任务,由各自的“专家”模型负责处理。通过门控(Gate)机制,只有少数专家在特定输入下被动态激活,从而显著减少了计算资源的消耗。*这个特点是不少媒体强调重点,不过值得注意的是,MoE 架构并非 DeepSeek 独创,法国 AI 公司 Mistral 以及 IBM 的模型也曾采用这一业内常规的设计。

 

DeepSeek V3:

发布时间2024年12月,参数规模:671B,特点:

参数和效率大幅提升外,主要新增有1、强化学习(Reinforcement Learning)引入强化学习技术,使模型在处理决策与推理任务时更具适应性和智能性;2、平衡 GPU 负担:在硬件资源上进行了优化,简单比较,咱DS仅用了 2000 块英伟达 GPU 就达到了理想的训练效果,而相较之下类似的Meta 旗下的 Llama4 模型则曾动用 10 万块 GPU。

 

R1-Zero:

发布时间2025年1月,“哪吒出世”,特点:

仅仅采用强化学习,这一版本通过强化学习单一策略,设定好了奖惩让AI自己变成更好的自己。

 

R1:

发布时间2025年1月,和楼上哪吒一批出世的,但能力更强,可以算哪吒2,特点:

强化学习与监督微调的完美结合,在 R1 模型中,研发团队将强化学习与监督微调两种方法相结合,通过互补优化提升模型整体性能。多项标准和指标都接近 OpenAI 的先进水平,这一进展显示了模型在实际应用中的潜力与竞争力。

 

除以上内容外,DS开源的蒸馏模型也是媒体讲的重点。简述下蒸馏含义:

通过让一个较小的学生模型模仿一个复杂且性能优异的教师模型的行为,实现模型轻量化的同时尽可能保留高性能,再简单点理解就是“压缩”。

当然,蒸馏不仅仅是单纯的压缩或知识转移,更像是一种模型转换。从 R1-Zero 到 R1 的演进,正是这种模型转换的生动体现,!!!为在资源受限的场景下部署高效模型提供了新的思路!!!【这是我认为DS最核心的点,如果让我用一个词来形容目前的DS,既不是“”也不是“完成弯道超车”,而是“性价比”】DS还有很多其他后缀公开的模型,比如VL2、Prover、Math、Coder等,关注热度不高,我也不太了解就不聊了。

 

最后,我相信大家最开始听闻DS主要是通过社交网络或者新闻。不过在开源背景下,我鼓励大家去自己找源头去了解。这样一方面是自己知识可以新增,另一方面会减少“不明觉厉”带来的非理性判断。比如相关股票的估值就应该参考国外大厂,或者相关硬件和应用前途无量。

但其实在美国这个把AI当成下一轮科技革命投资的热土之前,都已经有不少业内人士提及基础建设远超潜在需求的警告,更何况我们还远没有“”。

作为一个普通人我很喜欢开源(即源代码开放,可以被任何人查看、修改、分发和使用),因为它既是人类智慧的分享和传承,更有利于激发互帮互助的善意,在这个多级变单极的世界背景下尤其珍贵。开源不一定利于商业,但一定利于人类社会,而商业只是社会的一部分,孰轻孰重显而易见。

 


风险提示:本文仅代表作者个人观点,不做任何投资建议。未经允许不可转载。

#AH股尾盘强势反弹!还能上车吗?#

#CRO板块震荡走强,行情来了?#

#DeepSeek火爆全球,对A股影响几何?#

#半导体大跌3%!机会还是风险?#

#猜元宵灯谜,赢新春好彩头#

$南方人工智能混合(OTCFUND|005729)$

$前海开源人工智能主题混合C(OTCFUND|023286)$

$宝盈人工智能股票C(OTCFUND|005963)$

$东方人工智能主题混合C(OTCFUND|017811)$

$融通人工智能指数(LOF)C(OTCFUND|009239)$

$中欧科技成长混合C(OTCFUND|018911)$

$博时科技创新混合C(OTCFUND|009058)$

$易方达科技智选混合C(OTCFUND|019004)$

$汇添富科技创新混合C(OTCFUND|007356)$

$天弘创新领航C(OTCFUND|009987)$

@天天话题君 @天天精华君 @天天基金创作者中心

郑重声明:用户在社区发表的所有信息将由本网站记录保存,仅代表作者个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
发表于 2025-02-14 20:31:00 发布于 广东
deepseek好火呀,诺安积极回报持有相关概念股,今天又大涨了差不多4个点
发表于 2025-02-17 12:46:38 发布于 辽宁
今年科技利好总是来得这么及时,现在布局点重仓低空经济的$永赢低碳环保智选混合发起C$还是不错的,近一月涨了20%+了,上周五单日涨幅快3个点啊
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:https://1458esb.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500