DeepSeek pourrait bouleverser le paysage concurrentiel de l'IA
Le gérant Richard Clode discute des inquiétudes actuelles du marché concernant les dernières innovations de DeepSeek en matière de LLM et de leur impact potentiel sur les investisseurs.
6 minutes de lecture
Principaux points à retenir :
- Le modèle de langage innovant V3 et le modèle de raisonnement d'apprentissage par renforcement R1 de DeepSeek semblent suggérer que l'entreprise a réalisé de réels progrès en proposant des solutions d'IA plus efficaces et plus rentables.
- Cela conduit à une réévaluation des stratégies d'investissement dans l'IA, en mettant l'accent sur la durabilité des dépenses d'investissement, sur le paysage concurrentiel et sur la monétisation de ce secteur.
- Il est essentiel d'adopter une approche plus sélective pour identifier les bénéficiaires des investissements dans l'IA et d'anticiper les prochaines phases d'investissement à mesure que cette nouvelle vague technologique déferlera sur les marchés.
Quel est le degré d'innovation de DeepSeek en matière de grands modèles de langage (LLM) ?
DeepSeek, la startup chinoise spécialisée dans l'IA et le développement de grands modèles de langage (LLM) en open source, a lancé sa troisième génération de LLM V3 en décembre 2024. DeepSeek-V3 est un modèle « Mixture of experts » (MoE) qui tient la dragée haute aux meilleurs LLM développés en Occident et, ce mois-ci, c'est DeepSeek-R1 qui a été dévoilé, qui est un modèle de raisonnement d'apprentissage par renforcement qui est à la hauteur du transformateur génératif pré-entraîné (GPT) o1 d'OpenAI. La V3 utilise un modèle MoE faisant collaborer plusieurs modèles plus modestes, avec un total de 671 milliards de paramètres mais seulement 37 milliards de paramètres actifs à un moment donné pour chaque jeton pendant l'inférence. La V3 comporte d'autres innovations, comme l'attention latente multi-têtes (MHLA) qui réduit la taille/utilisation du cache et de la mémoire, le calcul en précision mixte sur FP8 (virgule flottante 8 bits) et une réarchitecture de la phase de post-entraînement. Le MoE semble toujours plus efficient car seule une partie des paramètres est active à un moment donné lors de l'inférence des jetons, ce qui n'est donc pas très surprenant, mais la V3 semble encore plus efficiente, environ 10 fois plus que ses concurrents directs et 3 à 7 fois plus que les autres innovations. Le modèle R1 de DeepSeek semble s'être affranchi de la méthode de réglage fin supervisé (STF). Les innovations sont donc manifestes, même si une grande partie des améliorations dont la presse se fait l'écho sont le fruit de techniques plus standard. De plus, les spécialistes débattent encore sur la part du travail réalisé par DeepSeek lui-même et celle liée à l'exploitation de LLM tiers en open source.
DeepSeek inquiète les marchés et ce pour trois raisons majeures
1. Les coûts d'apprentissage de DeepSeek semblent nettement plus faibles
DeepSeek affirme avoir entraîné sa V3 sur seulement 2 048 GPU H800 de NVIDIA pendant deux mois, ce qui, à raison de 2 dollars par heure, explique le total de 5 millions de dollars de coûts annoncés. Il s'agit donc d'une fraction de ce que les hyperscalers occidentaux consacrent à la formation de leurs LLM (par ex. c'est 9 % de la puissance de calcul utilisée pour le modèle LLaMA 3.1 405B de Meta).
2. La Chine peut rester compétitive malgré les restrictions imposées par les États-Unis
L'irruption de DeepSeek montre qu'une entreprise chinoise peut très bien rivaliser avec les meilleurs spécialistes américains de l'IA, malgré les restrictions imposées à la Chine pour accéder aux technologies de pointe américaines dans le domaine des semi-conducteurs. Cela n'est pas sans rappeler la génération de codeurs russes qui, face aux restrictions de temps passé sur les PC dans la Russie post-soviétique, avaient inventé des méthodes de codage ingénieuses. La même chose vient-elle de se produire en Chine où certaines restrictions ont stimulé l'innovation en matière d'architecture de grands modèles de langage (LLM) au détriment des États-Unis, qui ont déployé l'intégralité de leurs moyens informatiques pour résoudre le problème ?
3. Monétisation de l'IA
DeepSeek facture l'utilisation de ses modèles beaucoup moins cher qu'OpenAI (environ 20 à 40 fois moins), ce qui répond aux craintes concernant la monétisation de l'IA, compte tenu des montants colossaux des dépenses en capital déployés dans les pays occidentaux.
Un puissant catalyseur de l'IA
L'écosystème mondial de l'IA a bien pris note des progrès de DeepSeek. Lancé il y a seulement deux ans (2023), DeepSeek bénéficie des antécédents et des ressources de l'équipe du fonds quantitatif High-Flyer Capital Management, ainsi que du succès et du degré d'innovation de ses modèles de génération précédents. Ainsi, alors que la V3 a été lancée en décembre et la R1 au début du mois de janvier, le marché ne réagit que maintenant car les capacités de raisonnement de la R1 sont désormais considérées comme une vraie avancée. De plus, le week-end dernier, DeepSeek est devenu l'application gratuite la plus téléchargée sur l'AppStore d'Apple, dépassant même ChatGPT. Marc Andreessen, investisseur réputé de la Silicon Valley, a déclaré que DeepSeek était « l'une des percées les plus étonnantes et les plus impressionnantes que j'aie jamais vues", ce qui constitue une marque d'appréciation non négligeable de la part d'un vétéran reconnu de l'industrie. De telles déclarations ont renforcé les inquiétudes du marché quant à la viabilité des investissements dans l'IA et des entreprises spécialisées comme NVIDIA.
Que penser de tout cela ?
- Des innovations sont nécessaires aux nouvelles vagues technologiques
Toute nouvelle vague technologique nécessite des innovations pour infléchir progressivement la courbe des coûts et favoriser une adoption massive. Il existe selon nous de multiples pistes d'innovation en matière d'IA pour résoudre la question de la taille liée à l'apprentissage des LLM ainsi que pour améliorer l'efficience de l'inférence. DeepSeek semble apporter une véritable innovation à l'architecture des modèles à usage général et des modèles de raisonnement. L'innovation et la réduction des coûts sont essentielles pour débloquer le potentiel de l'IA et permettre une adoption massive à long terme.
- Distillation
Le modèle de DeepSeek s'appuie sur une technique appelée « distillation », qui fait l'objet de nombreuses recherches dans le secteur de l'IA. La distillation consiste à doter des modèles plus petits des capacités des modèles de grande taille, en transférant les apprentissages du modèle enseignant vers le modèle étudiant, de plus petite taille. Cependant, il faut savoir que les techniques de distillation de DeepSeek dépendent du travail d'autres intermédiaires. De sorte que le marché s'interroge désormais sur son degré exact de dépendance.
- La prudence est de mise concernant le niveau des dépenses d'investissement :
Les chiffres ci-dessus relatifs aux dépenses d'investissement reviennent à comparer des choux et des carottes. Les 5 millions de dollars évoqués ne concernent qu'un seul cycle de formation et ne tiennent compte ni des cycles d'apprentissage antérieurs ni de la formation des grands modèles enseignants, au niveau de DeepSeek lui-même ou des LLM tiers en open source sur lesquels il a été développé.
- L'innovation en open source
Comme l'a fait remarquer Yann LeCun, sommité de l'IA, il s'agit d'une victoire pour le modèle open source qui favorise l'innovation communautaire, puisque DeepSeek s'est appuyé sur les modèles open source Llama de Meta et Qwen d'Alibaba. Il s'agit encore une fois d'une tendance positive pour le développement à long terme de l'IA, en stimulant et en démultipliant les innovations. Toutefois, compte tenu de la situation géopolitique actuelle, il faut s'attendre à ce que le gouvernement américain surveille de très près les autres pays ayant accès aux LLM à base d'IA les plus modernes développés aux États-Unis.
- Les LLM se banalisent-ils ?
Nous pensons depuis longtemps que la monétisation des LLM à long terme sera un exercice difficile compte tenu de la concurrence acharnée, y compris de la part des développeurs de logiciels libres et de concurrents qui recherchent de nouvelles méthodes de monétisation. L'annonce de DeepSeek ne fait que renforcer l'attention entourant le retour sur investissement (ROI) des dépenses d'investissement gigantesques dont doivent s'acquitter les développeurs de modèles fondateurs à usage général.
Conséquences en matière d'investissement
Les inquiétudes suscitées par DeepSeek renforcent le débat croissant portant sur les défis intrinsèques au dimensionnement de l'IA ainsi que sur le retour sur investissement des dépenses en la matière et, au bout du compte, sur la pérennité des profits des bénéficiaires de ces dépenses et sur les prix que les investisseurs sont prêts à payer. Les dépenses dédiées à l'IA vont selon nous continuer à augmenter, comme l'ont montré récemment les annonces de Meta et le lancement du projet Stargate. Nous devrons également être plus sélectifs vis-à-vis des bénéficiaires des investissements dans l'IA et réfléchir aux répercussions des prochaines phases d'investissement à mesure que cette nouvelle vague technologique déferlera sur les marchés.
La construction des infrastructures est selon nous la première phase d'une nouvelle vague technologique, suivie par les plateformes, puis par les logiciels, les applications et les services. Nous approchons de la transition vers la phase favorables aux plateformes, sous l'effet des solutions dématérialisées (cloud), mais nous identifions encore des opportunités d'investissement à plus long terme dans les infrastructures liées à l'IA. Après s'être inquiété du niveau trop élevé des dépenses d'investissement dans l'IA, le marché craint désormais leur effondrement. Ces deux tendances ne pouvant être simultanées, la vérité se situe probablement entre les deux. Nous pensons que ces évolutions sont positives pour la dynamique et le développement à long terme de l'IA. Nous continuons à identifier certains bénéficiaires du développement des infrastructures d'IA et à renforcer notre exposition aux plateformes qui vont profiter d'une augmentation de la puissance de calcul et des améliorations aux niveaux des modèles d'apprentissage et de l'inférence.
Source d'informations sur DeepSeek : https://api-docs.deepseek.com/news/news250120
Jeton AI : la plus petite unité de données utilisée par un modèle de langage pour traiter et générer du texte. Dépenses d'investissement : dépenses consacrées par une entreprise à l'acquisition ou à la modernisation des actifs physiques (bâtiments, machines, équipements, technologies, etc.) afin de pérenniser ou d'améliorer ses opérations et de contribuer à sa croissance future. GPT ou « Generative Pre-trained Transformers » : famille de modèles de réseaux neuronaux qui utilisent l'architecture des transformateurs et qui alimentent les applications d'IA générative, telles que ChatGPT. GPU : une unité de traitement graphique ou GPU effectue des calculs mathématiques et géométriques complexes qui sont nécessaires au rendu graphique et sont également utilisés dans les jeux, la création de contenu et l’apprentissage automatique. Inférence : fait référence au traitement par les outils d'intelligence artificielle. Alors que l’apprentissage automatisé (machine learning) et l’apprentissage approfondi (deep learning) font référence à la formation de réseaux neuronaux, l’inférence en IA applique les connaissances d’un modèle de réseau neuronal formé et les utilise pour déduire un résultat. Hyperscalers : entreprises qui fournissent des infrastructures pour les services de cloud, de réseau et d'internet à grande échelle. Citons par exemple Google Cloud, Microsoft Azure, Facebook Infrastructure, Alibaba Cloud et Amazon Web Services. Grand modèle linguistique : un type spécialisé d'intelligence artificielle qui a été formé sur de grandes quantités de texte pour comprendre le contenu existant et générer du contenu original. MoE (« Mixture of Experts Model ») : approche d'apprentissage automatique qui divise un modèle d'IA en sous-réseaux/experts distincts pour effectuer conjointement une tâche. Cette approche permet de réduire considérablement les coûts et d'accélérer les performances en matière d'inférence, avec l'activation d'experts spécifiques pour réaliser une tâche donnée, plutôt que l'ensemble du réseau neuronal pour chaque tâche. Logiciel libre : code conçu pour être accessible au public, en termes de visualisation, de modification et de distribution. Apprentissage par renforcement (Reinforcement Learning - RL) : technique via laquelle l'IA apprend en interagissant avec son environnement et en recevant un retour d'information sous forme de récompenses ou de pénalités. Cette méthode permet à l'IA de s'adapter et d'évoluer, ainsi que d'améliorer ses capacités logiques et de résolution de problèmes. ROI (Retour sur investissement) : ratio financier utilisé pour mesurer la performance d'un investissement, calculé en divisant le bénéfice net/la perte nette par le coût initial de l'investissement.
Les opinions exprimées sont celles de l'auteur au moment de la publication et peuvent différer de celles d'autres personnes/équipes de Janus Henderson Investors. Les références faites à des titres individuels ne constituent pas une recommandation d'achat, de vente ou de détention d'un titre, d'une stratégie d'investissement ou d'un secteur de marché, et ne doivent pas être considérées comme rentables. Janus Henderson Investors, son conseiller affilié ou ses employés peuvent avoir une position dans les titres mentionnés.
Les performances passées ne préjugent pas des résultats futurs. Toutes les données de performance tiennent compte du revenu, des gains et des pertes en capital mais n'incluent pas les frais récurrents ou les autres dépenses du fonds.
Les informations contenues dans cet article ne constituent pas une recommandation d'investissement.
Il n'y a aucune garantie que les tendances passées se poursuivront ou que les prévisions se réaliseront.
Communication Publicitaire.
Informations importantes :
Veuillez consulter, ci-dessous, les informations importantes relatives aux fonds visés dans cet article.
- Les actions/parts peuvent perdre rapidement de la valeur et impliquent généralement des niveaux de risques plus élevés que les obligations ou les instruments du marché monétaire. La valeur de votre placement peut par conséquent chuter.
- Un Fonds fortement exposé à une région géographique ou à un pays donné implique des risques plus importants qu’un Fonds plus largement diversifié.
- Le Fonds est axé sur des secteurs ou des thématiques d’investissement particuliers, et peut être fortement touché par des facteurs tels que les modifications des règlementations gouvernementales, la concurrence accrue sur les prix, les progrès technologiques et d’autres événements défavorables.
- Le Fonds adopte une approche d’investissement durable, ce qui peut entraîner une surpondération et/ou une sous-pondération dans certains secteurs et donc une performance différente de celle des fonds qui ont un objectif similaire, mais qui n’intègrent pas de critères d’investissement durable dans la sélection des titres.
- Le Fonds peut avoir recours à des instruments dérivés dans le but de réduire le risque ou de gérer le portefeuille plus efficacement. Toutefois, cela introduit d’autres risques, et en particulier celui qu’une contrepartie à un instrument dérivé ne respecte pas ses obligations contractuelles.
- Si le Fonds détient des actifs dans des devises autres que la devise de référence du Fonds ou si vous investissez dans une catégorie d’actions/de parts d’une devise différente de celle du Fonds (sauf si elle est « couverte »), la valeur de votre investissement peut être soumise aux variations des taux de change.
- Lorsque le Fonds, ou une catégorie d’actions/de parts couverte, vise à atténuer les fluctuations de change d’une devise par rapport à la devise de référence, la stratégie elle-même peut créer un impact positif ou négatif relativement à la valeur du Fonds en raison des différences de taux d’intérêt à court terme entre les devises.
- Les titres du Fonds peuvent devenir difficiles à valoriser ou à céder au prix ou au moment désiré, surtout dans des conditions de marché extrêmes où les prix des actifs peuvent chuter, ce qui augmente le risque de pertes sur investissements.
- Le Fonds peut perdre de l’argent si une contrepartie avec laquelle le Fonds négocié ne veut ou ne peut plus honorer ses obligations, ou en raison d’un échec ou d’un retard dans les processus opérationnels ou de la défaillance d’un fournisseur tiers.
Risques spécifiques
- Les actions/parts peuvent perdre rapidement de la valeur et impliquent généralement des niveaux de risques plus élevés que les obligations ou les instruments du marché monétaire. La valeur de votre placement peut par conséquent chuter.
- Un Fonds fortement exposé à une région géographique ou à un pays donné implique des risques plus importants qu’un Fonds plus largement diversifié.
- Le Fonds est axé sur des secteurs ou des thématiques d’investissement particuliers, et peut être fortement touché par des facteurs tels que les modifications des règlementations gouvernementales, la concurrence accrue sur les prix, les progrès technologiques et d’autres événements défavorables.
- Ce Fonds peut avoir un portefeuille particulièrement concentré par rapport à son univers d’investissement ou à d’autres fonds de son secteur. Un événement défavorable, même s’il n’affecte qu’un petit nombre de holdings, peut entraîner une volatilité ou des pertes importantes pour le Fonds.
- Le Fonds peut avoir recours à des instruments dérivés dans le but de réduire le risque ou de gérer le portefeuille plus efficacement. Toutefois, cela introduit d’autres risques, et en particulier celui qu’une contrepartie à un instrument dérivé ne respecte pas ses obligations contractuelles.
- Si le Fonds détient des actifs dans des devises autres que la devise de référence du Fonds ou si vous investissez dans une catégorie d’actions/de parts d’une devise différente de celle du Fonds (sauf si elle est « couverte »), la valeur de votre investissement peut être soumise aux variations des taux de change.
- Lorsque le Fonds, ou une catégorie d’actions/de parts couverte, vise à atténuer les fluctuations de change d’une devise par rapport à la devise de référence, la stratégie elle-même peut créer un impact positif ou négatif relativement à la valeur du Fonds en raison des différences de taux d’intérêt à court terme entre les devises.
- Les titres du Fonds peuvent devenir difficiles à valoriser ou à céder au prix ou au moment désiré, surtout dans des conditions de marché extrêmes où les prix des actifs peuvent chuter, ce qui augmente le risque de pertes sur investissements.
- Le Fonds peut perdre de l’argent si une contrepartie avec laquelle le Fonds négocié ne veut ou ne peut plus honorer ses obligations, ou en raison d’un échec ou d’un retard dans les processus opérationnels ou de la défaillance d’un fournisseur tiers.