DeepSeek标志着人工智能竞争格局可能发生转变
投资组合经理 Richard Clode 讨论了市场目前对 DeepSeek 最新大型语言模型发展情况的担忧以及这可能对投资者产生的影响。

6 分钟阅读
焦点分析
- DeepSeek 创新的 V3 大型语言模型和基于强化学习的推理模型 R1 似乎表明该公司在提供更高效、更具成本效益的人工智能解决方案方面取得了进步。
- 这推动了市场对人工智能投资策略的重新评估,重点关注人工智能资本支出的可持续性、人工智能竞争格局以及人工智能的货币化。
- 随着新技术浪潮的发展,采用更有选择性的方法来识别人工智能资本支出受益者以及展望人工智能投资机会的下一阶段至关重要。
DeepSeek在大型语言模型创新方面取得了什么成就?
中国人工智能初创公司和开源大型语言模型 (LLM) 开发公司DeepSeek于2024年12月推出了第三代V3大型语言模型。DeepSeek-V3 是一种专家混合模型(MoE),在本月的基准测试中表现良好,可与西方最优秀的大型语言模型媲美。而 DeepSeek-R1 是一种强化学习推理模型,本月在基准测试中表现也非常出色,能够与 OpenAI 的 o1 生成式预训练变换器(GPT)相竞争。V3 使用专家混合模型,该模型采用几个较小的模型协同工作,总共拥有 6710 亿个参数,并且在推理过程中每个标记在任何给定时刻只有 370 亿个活动参数。V3还引入了进一步的创新,如多头潜在注意力(MHLA),可以减少缓存和内存的使用,混合精度计算(FP8),以及一个后训练阶段的重新架构。MoE(专家混合模型)通过推理过程中仅激活部分参数来提升效率,因此在计算资源利用上具有显著优势,这一点并不意外。V3 的表现尤为突出,其效率比同类模型高出约 10 倍,结合其他创新技术,整体效率提升可达 3-7 倍。据称,DeepSeek-R1模型独特地摒弃了监督式微调。因此,其中似乎存在一些创新,即使很多主要改进来自更标准的技术,而对于 DeepSeek 自己完成了多少工作以及有多少工作是利用开源第三方大型语言模型则存在更广泛的争论。
市场关注 DeepSeek 的三个关键原因
1. DeepSeek 的训练成本似乎明显较低
DeepSeek 声称仅使用了 2,048 个 NVIDIA H800 GPU,在两个月内完成了 V3 的训练,这一过程的总成本为 500 万美元,按照每小时 2 美元的费用计算得出。这只是西方超大规模企业在大型语言模型)培训中所投入内容的一小部分(例如它占 Meta 的 LLaMA 3.1 405B 模型所用计算量的 9%)。
2. 尽管美国实施限制,中国仍可参与竞争
DeepSeek 表明,尽管目前中国获取美国先进半导体技术受限,但中国公司仍可与美国一流的人工智能公司竞争。这让人想起了一个时代的俄罗斯程序员,他们在后苏联时期,由于使用计算机时间的限制,发明了许多巧妙的编码方法。在中国,是否也发生了类似的情况,即由于某些限制,迫使更大的 LLM 架构创新,而美国则只是依赖于投放大量计算资源来解决问题?
3. 人工智能货币化
DeepSeek 使用其模型的收费远低于 OpenAI(约低 20-40 倍),考虑到西方投入的巨额资本支出,这引发了人们对人工智能货币化的担忧。
一股值得关注的人工智能力量
全球人工智能生态系统正在关注DeepSeek 的发展。尽管 DeepSeek 仅在两年前(2023年)才推出,但它受益于量化基金幻方资本管理团队的背景和支持,以及其前一代模型的成功与创新。这就是为什么尽管 V3 在 12 月推出,R1 则在本月初发布,但市场现在才开始反应,因为 R1 的推理能力如今被视为前沿技术。此外,上周末,DeepSeek 超越 ChatGPT,成为 Apple AppStore 上最热门的免费应用程序。硅谷投资人马克·安德森 (Marc Andreessen) 发文称 DeepSeek 是“我见过的最令人惊叹、最令人印象深刻的突破之一”,这是来自一位可信的行业资深人士的高度赞扬。此类评论加剧了市场对人工智能资本支出及其英伟达等相关公司的可持续性的担忧。
我们该如何看待这一切?
- 新技术浪潮需要创新
任何新的技术浪潮都需要创新来随着时间的推移降低成本曲线,从而实现大规模采用。我们正在见证人工智能创新的多种途径,以解决训练大型语言模型以及更高效推理的扩展问题。DeepSeek似乎为通用和推理模型的架构带来了一些真正的创新。创新和降低成本是释放人工智能潜力并实现长期大规模应用的关键。
- 蒸馏
DeepSeek的模型利用了一种称为蒸馏的技术,该技术在人工智能行业得到更广泛的应用。蒸馏是指通过将较大“教师”模型的知识转移到较小的“学生”模型中,从而使较小的模型具备较大模型的能力。然而,值得注意的是,DeepSeek 的蒸馏技术依赖于其他人的工作。究竟依赖程度有多高是市场目前正在努力解决的一个关键问题。
- 对于资本支出数字,我们应该持保留态度:
与上述内容相关的是,所提到的资本支出数字只是苹果和橘子的比较。上述 500 万美元仅涉及一次训练,忽略了任何之前的训练和更大的教师模型的训练,无论是在 DeepSeek 还是在它们所基于的第三方开源大型语言模型上。
- 开源创新
正如人工智能大师 Yann LeCun 所说,这是推动社区创新的开源模式的胜利,DeepSeek 利用了 Meta 的 Llama 和阿里巴巴的通义千问开源模型。 这对于人工智能的长期发展、推动和促进创新再次具有积极意义。然而,鉴于当前的地缘政治状况,人们可能会认为美国政府将对其他国家从美国获取最先进的人工智能大型语言模型进行更严格的审查。
- 大型语言模型商品化?
我们一直认为,考虑到竞争的激烈程度,包括来自开源开发者和寻求以其他方式实现盈利的竞争者,长期内将大型语言模型变现将面临挑战。DeepSeek 的公告只会让人们更加严格地审查通用基础模型开发商所花费的巨额资本支出的投资回报率 (ROI)。
投资启示
围绕 DeepSeek 的担忧反映了关于人工智能规模化挑战的日益讨论,以及人工智能资本支出的投资回报率问题,最终还涉及到对人工智能资本支出受益者盈利可持续性以及市场愿意支付的价格的担忧。我们预计人工智能资本支出将继续强劲增长,正如最近 Meta 和星际之门人工智能 (Stargate AI) 项目发布的公告所显示的那样。但我们也认为,在选择人工智能资本支出受益者时需要更加谨慎,同时在这一新技术浪潮发展过程中,思考下一阶段的人工智能投资机会。
我们将基础设施描述为新浪潮的第一阶段,其次是平台,然后是软件、应用程序和服务。我们正接近由云主导的平台阶段,但仍然看到人工智能基础设施方面的长期投资机会。市场已经从担心人工智能资本支出过高,迅速转变为担心人工智能资本支出将会崩溃。两者不可能同时发生,真相可能介于两者之间。最终,我们认为这些发展将利好人工智能的长期健康和发展。我们将继续甄别人工智能基础设施的受益者,并加大对那些能从更高效的人工智能计算、训练模型和推理中受益的平台的持仓。
DeepSeek 信息来源: https://api-docs.deepseek.com/news/news250120
人工智能标记: 语言模型用来处理和生成文本的最小数据单元。 Capex/capital expenditure: company spending to acquire or upgrade physical assets such as buildings, machinery, equipment, technology etc. to maintain or improve operations and foster future growth. GPT 或生成式预训练变换器:使用变换器架构的神经网络模型系列,为 ChatGPT 等生成式人工智能应用程序提供支持。 GPU: 执行图形渲染(graphics rendering)所需的复杂数学和几何计算的图形处理器,亦被用于游戏、内容创作及机器学习。 推理:指人工智能处理。机器学习和深度学习指训练神经网络,而AI推理是应用经过训练的神经网络模型的知识,从而推断结果。 科技巨企(hyperscalers): 大規模提供雲端、網絡及互聯網服務基礎設施的公司,实例包括Google Cloud、Microsoft Azure、Facebook Infrastructure、阿里云及Amazon Web Services。 LLM(大型語言模型): 一類專門的人工智能,利用大量文本進行訓練,以了解現有內容並生成原始內容。 MoE(专家混合模型):一种机器学习方法,将人工智能模型划分为单独的子网络/专家以共同执行任务。由于每项任务都使用特定的专家,而不是为每个任务激活整个神经网络,因此可以显著降低成本并提高推理性能。 开源软件:就查看、修改和分发而言,设计为可公开访问的代码。 强化学习 (RL):一种人工智能通过与环境互动并以奖励或惩罚的形式接收反馈进行学习的技术。这使得人工智能能够适应和发展,并提高其逻辑和解决问题的能力。 ROI(投资回报率):是用来衡量投资业绩的财务比率,计算方法是将净利润/亏损除以投资的初始成本。