Per investitori privati in Italia

DeepSeek segna un potenziale cambiamento nel panorama competitivo dell'AI

Il gestore di portafoglio Richard Clode discute le attuali preoccupazioni del mercato sulle più recenti novità introdotte da DeepSeek nel campo degli LLM e l'effetto che ciò potrebbe avere sugli investitori.

Richard Clode, CFA

Gestore di portafoglio


27 gennaio 2025
6 minuti di lettura

In sintesi

  • L'innovativo LLM V3 e il modello di ragionamento basato sull'apprendimento per rinforzo R1 rilasciati da DeepSeek sembrano suggerire che l'azienda abbia fatto progressi nell'offerta di soluzioni AI più efficienti ed economiche.
  • Una novità che sta portando a rivalutare le strategie di investimento nell'IA, attirando l'attenzione sulla sostenibilità degli investimenti in conto capitale, sul panorama competitivo e sulla capacità di monetizzazione dell'intelligenza artificiale.
  • Un approccio più selettivo all'identificazione dei beneficiari del capex nell'IA, nonché la previsione delle prossime fasi di opportunità di investimento nel settore, sono fondamentali per lo sviluppo di questa nuova ondata tecnologica.

Quali sono i risultati ottenuti da DeepSeek in termini di innovazione nel campo degli LLM?

DeepSeek, la startup cinese dedicata all'AI e allo sviluppo di modelli linguistici di grandi dimensioni (LLM) open source, ha lanciato il suo LLM V3 di terza generazione a dicembre 2024. DeepSeek-V3, che è un modello di miscela di esperti (MoE) che regge bene il confronto con gli LLM meglio sviluppati in Occidente, e questo mese DeepSeek-R1, modello di ragionamento con apprendimento per rinforzo, con prestazioni all'altezza di quelle del trasformatore generativo pre-addestrato (GPT) o1 di OpenAI. V3 utilizza un modello MoE che include diversi modelli più piccoli operanti insieme, con un totale di 671 miliardi di parametri e solo 37 miliardi di parametri attivi in un dato momento per ogni token, durante l'inferenza. V3 presenta ulteriori innovazioni, come l'attenzione latente multi-head (MHLA) che riduce le dimensioni/l'utilizzo della cache e della memoria, il calcolo a precisione mista su FP8 e una riarchitettura della fase post-training. Ora una MoE sembra sempre più efficiente, in quanto solo una parte dei parametri totali è attiva in un qualsiasi momento durante l'inferenza dei token, quindi queste performance non sono eccessivamente sorprendenti, ma V3 sembra ancora più efficiente: circa 10 volte rispetto ai suoi omologhi e 3-7 volte date altre innovazioni. Il modello DeepSeek-R1 è presentato come l'unico ad aver eliminato la messa a punto supervisionata. Sembra quindi contenere una certa dose di innovazione, anche se molti dei miglioramenti principali provengono da tecniche più standard e c'è un dibattito più ampio su quanto essi derivino dal lavoro svolto direttamente dagli sviluppatori di DeepSeek e quanto dall'utilizzo di LLM open source di terze parti.

I 3 motivi principali per cui DeepSeek preoccupa i mercati

1. DeepSeek sembra avere costi di training significativamente inferiori

DeepSeek afferma di aver addestrato V3 su sole 2.048 GPU NVIDIA H800 per due mesi: un tempo macchina a 2 dollari l'ora che spiega il costo totale di 5 milioni di dollari annunciato. Si tratta una frazione minima di quanto gli hyperscaler occidentali stanno investendo nella formazione dei loro LLM (ad es. è il 9% del calcolo utilizzato per il modello LLaMA 3.1 405B di Meta).

2. La Cina è ancora in grado di competere, nonostante le restrizioni statunitensi

DeepSeek dimostra che un'azienda cinese può competere con le migliori aziende statunitensi di AI , nonostante le attuali restrizioni sull'accesso cinese alla tecnologia avanzata dei semiconduttori statunitensi. Una situazione che fa pensare alla generazione di programmatori russi che, a causa delle restrizioni sul tempo trascorso al PC nella Russia post-sovietica, avevano inventato metodi ingegnosi per programmare. Lo stesso è avvenuto in Cina, dove le restrizioni sui semiconduttori hanno imposto un approccio più innovativo all'architettura LLM rispetto agli Stati Uniti, che si sono limitati a concentrare tutte le loro risorse di calcolo sulla risoluzione dei problemi?

3. Monetizzazione dell'AI

DeepSeek propone una tariffa molto inferiore, rispetto ad OpenAI, per l'utilizzo dei suoi modelli (circa 20-40 volte in meno), alimentando le preoccupazioni sulla monetizzazione dell'AI, date le straordinarie quantità di capex investite in Occidente.

Una forza degna di nota nel mondo dell'AI

L'ecosistema AI globale sta prendendo atto delle novità introdotte da DeepSeek. Nonostante sia stato lanciato solo due anni fa (2023), DeepSeek beneficia del pedigree e del sostegno del team del fondo quantitativo High-Flyer Capital Management, nonché del successo e dell'innovazione dei suoi modelli di precedente generazione. Sebbene V3 sia stata lanciata a dicembre e R1 all'inizio del mese, il mercato sta reagendo solo oggi perché le competenze di ragionamento di R1 sono ora considerate all'avanguardia. Inoltre, nell'ultimo fine settimana DeepSeek è diventata l'app gratuita più scaricata dall'AppStore di Apple, superando ChatGPT. Marc Andreessen, investitore di spicco della Silicon Valley, ha dichiarato che DeepSeek è "una delle scoperte più sorprendenti e impressionanti che abbia mai visto", un elogio importante da parte di un veterano del settore. Commenti del genere hanno aumentato le preoccupazioni del mercato per la sostenibilità degli investimenti in AI e nelle società ad essa legate, come NVIDIA.

Quali sono le nostre conclusioni?

  • Le nuove ondate tecnologiche richiedono innovazione

Qualsiasi nuova ondata tecnologica richiede che l'innovazione riduca la curva dei costi nel tempo, per consentire un'adozione di massa. Stiamo assistendo allo sviluppo di vari percorsi di innovazione dell'AI, per risolvere i problemi di scalabilità legati all'addestramento degli LLM e per ottenere inferenze più efficienti. DeepSeek sembra portatrice di una vera innovazione in materia di architettura dei modelli di ragionamento e di uso generale. L'innovazione e la riduzione dei costi sono fondamentali per liberare il potenziale dell'AI e consentirne l'adozione di massa a lungo termine.

  • Distillazione

Il modello di DeepSeek sfrutta una tecnica chiamata distillazione, che viene utilizzata in modo più ampio nel settore dell'AI. Per distillazione si intende l'attribuzione a modelli più piccoli delle competenze di quelli più grandi, trasferendo gli apprendimenti del modello più grande, che ha un ruolo di insegnante, a quello più piccolo, nel ruolo di studente. Tuttavia, è importante sottolineare che le tecniche di distillazione di DeepSeek dipendono dal lavoro di altri. Il peso esatto di tale dipendenza è una domanda essenziale con cui il mercato è attualmente alle prese.

  • L'importo degli investimenti in capex va preso con cautela:

in relazione a quanto detto, i numeri di capex a cui si fa riferimento non sono assolutamente comparabili. I 5 milioni di dollari citati si riferiscono a una sola sessione di formazione, ignorando eventuali sessioni precedenti e il training dei modelli "insegnanti" più grandi, sia presso DeepSeek che presso gli LLM open source di terze parti su cui sono stati costruiti.

  • Innovazione open source

Come ha osservato un luminare dell'AI, Yann LeCun, l'uso da parte di DeepSeek dei modelli open source Llama di Meta e Qwen di Alibaba costituisce una vittoria per il modello open source, che favorisce l'innovazione comunitaria. Anche in questo caso ciò è positivo per lo sviluppo a lungo termine dell' AI, favorendo e diffondendo l'innovazione. Tuttavia, a causa dell'attuale situazione geopolitica, potremmo aspettarci un maggiore controllo da parte del governo degli Stati Uniti sull'accesso di altri Paesi ai LLM di AI statunitensi d'avanguardia.

  • Gli LLM diventeranno una commodity?

Siamo convinti da tempo che la monetizzazione degli LLM sul lungo termine si rivelerà difficile, data la concorrenza da parte degli sviluppatori open source e dei concorrenti che cercano modalità alternative di monetizzazione. L'annuncio di DeepSeek non fa che accrescere gli interrogativi sul ritorno su investimento (ROI) dell'enorme capex impegnato dagli sviluppatori di modelli di base generici.

Implicazioni per gli investimenti

Le preoccupazioni generate da DeepSeek si inseriscono nel crescente dibattito sulle sfide di scalabilità dell'AI, nonché sul ROI della spesa in conto capitale e, in ultima analisi, sulle preoccupazioni riguardo alla sostenibilità dei guadagni dei beneficiari del capitale investito in AI e sui prezzi che il mercato è disposto a pagare. Continuiamo a prevedere ingenti investimenti in conto capitale per l'IA, come si è visto di recente con gli annunci di Meta e del progetto Stargate AI. Tuttavia, riteniamo anche che dovremo essere più selettivi nei confronti dei beneficiari delle spese in conto capitale per l'AI, oltre a pensare alle prossime fasi di opportunità di investimento nell'AI, con il progressivo svilupparsi di questa nuova ondata tecnologica.

Consideriamo l'infrastruttura come la prima fase di una nuova ondata, seguita dalle piattaforme, quindi dal software, dalle applicazioni e dai servizi. Ci stiamo avvicinando alla fase di passaggio alla piattaforma supportata dal cloud, ma riteniamo ci siano ancora opportunità di investimento a lungo termine nell'infrastruttura AI. Il mercato è passato rapidamente dalle preoccupazioni per gli investimenti di capitale in AI troppo elevati, alla preoccupazione che gli stessi investimenti stiano per crollare. Le due ipotesi non possono avverarsi contemporaneamente e la verità probabilmente sta nel mezzo. In definitiva, riteniamo che queste novità siano positive per la salute e per lo sviluppo a lungo termine della AI. Continueremo a individuare i beneficiari selettivi dell'infrastruttura di AI e a costruire la nostra esposizione alle piattaforme che beneficeranno di un calcolo, di un addestramento dei modelli e di un'inferenza dell'AI più efficienti.

Fonte delle informazioni su DeepSeek: https://api-docs.deepseek.com/news/news250120

Token AI: le più piccole unità di dati utilizzate da un modello linguistico per elaborare e generare testo.

Capex/spese in conto capitale: spese sostenute da un'azienda per acquistare o modernizzare beni fisici come edifici, macchinari, attrezzature, tecnologie ecc., con l'obiettivo di mantenere o migliorare le operazioni e promuovere la crescita futura.

GPT o Generative Pre-trained Transformers (trasformatori generativi pre-addestrati): una famiglia di modelli di reti neurali che utilizzano l'architettura del trasformatore, che alimenta applicazioni di AI generativa come ChatGPT.

GPU: un'unità di elaborazione grafica esegue complessi calcoli matematici e geometrici necessari per il rendering grafico e vengono utilizzati anche nei giochi, nella creazione di contenuti e nell'apprendimento automatico.

Inferenza: si riferisce all'elaborazione dell'intelligenza artificiale. Mentre il machine learning e il deep learning si riferiscono al training di reti neurali, l'inferenza dell'AI applica la conoscenza ricavata da un modello di rete neurale addestrato e l'utilizza per l'inferenza di un risultato.

Hyperscaler: aziende che forniscono l'infrastruttura per servizi cloud, di rete e internet su scala. Alcuni esempi sono Google Cloud, Microsoft Azure, Facebook Infrastructure, Alibaba Cloud e Amazon Web Services.

LLM (large language model, modello linguistico di grandi dimensioni): un tipo specializzato di intelligenza artificiale che è stato addestrato su grandi quantità di testo per comprendere i contenuti esistenti e generare contenuti originali.

MoE (Mixture of Experts Model - Modello di miscela di esperti): un approccio di apprendimento automatico che divide un modello di AI in sottoreti/esperti separati per eseguire congiuntamente un compito. Il modello consente una significativa riduzione dei costi e prestazioni più rapide per l'inferenza, perché vengono utilizzati esperti specifici per un'attività, invece di attivare l'intera rete neurale per ogni compito.

Software open source: codice progettato per essere accessibile al pubblico, a scopo di visualizzazione, modifica e distribuzione.

Reinforcement Learning (RL) o apprendimento per rinforzo: un tecnica in cui l'AI apprende interagendo con il suo ambiente e ricevendo feedback sotto forma di ricompense o penalità. Ciò consente all'AI di adattarsi ed evolversi, oltre a migliorare le proprie capacità logiche e di risoluzione dei problemi.

ROI (ritorno su investimento): è un rapporto finanziario utilizzato per misurare la performance di un investimento, calcolato dividendo l'utile/perdita netto per il costo iniziale dell'investimento.

Queste sono le opinioni dell'autore al momento della pubblicazione e possono differire da quelle di altri individui/team di Janus Henderson Investors. I riferimenti a singoli titoli non costituiscono una raccomandazione all'acquisto, alla vendita o alla detenzione di un titolo, di una strategia d'investimento o di un settore di mercato e non devono essere considerati redditizi. Janus Henderson Investors, le sue affiliate o i suoi dipendenti possono avere un’esposizione nei titoli citati.

 

Le performance passate non sono indicative dei rendimenti futuri. Tutti i dati dei rendimenti includono sia il reddito che le plusvalenze o le eventuali perdite ma sono al lordo dei costi delle commissioni dovuti al momento dell'emissione.

 

Le informazioni contenute in questo articolo non devono essere intese come una guida all'investimento.

 

Non vi è alcuna garanzia che le tendenze passate continuino o che le previsioni si realizzino.

 

Comunicazione di Marketing.

 

Glossario