DeepSeek marca un cambio potencial en el panorama competitivo de la IA
El gestor de carteras Richard Clode analiza las inquietudes actuales del mercado en relación con los últimos avances en LLM de DeepSeek y el impacto que esto podría tener en los inversores.

6 minutos de lectura
Aspectos destacados:
- El innovador LLM V3 y modelo de razonamiento basado en el aprendizaje por refuerzo R1 de DeepSeek parecen indicar que la empresa ha logrado avances en la oferta de soluciones de IA más eficientes y rentables.
- Esto está propiciando una reevaluación de las estrategias de inversión en IA, centrando la atención en la sostenibilidad de la inversión en activo fijo en IA, el entorno competitivo de la IA y la monetización de la IA.
- A medida que avanza esta nueva ola tecnológica, es crucial adoptar un enfoque más selectivo para identificar a los beneficiarios de la inversión en IA, así como anticipar las próximas fases de oportunidad de inversión en IA.
¿Qué ha logrado DeepSeek en términos de innovación en los LLM?
DeepSeek, la startup china de IA y desarrolladora de modelos lingüísticos de gran tamaño (LLM, por sus siglas en inglés) de código abierto lanzó su LLM V3 de tercera generación en diciembre de 2024. DeepSeek-V3, que es un modelo de mix de expertos (MoE, por sus siglas en inglés) similar a los mejores LLM desarrollados en Occidente y este mes DeepSeek-R1: un modelo razonador de aprendizaje por refuerzo comparable al transformador generativo preentrenado (GPT) o1 de OpenAI. V3 utiliza un modelo MoE que usa varios modelos más pequeños interconectados que suman un total de 671 mil millones de parámetros y solo 37 mil billones de parámetros activos en un momento dado para cada token durante la inferencia. V3 tiene otras innovaciones, como la atención latente multicabezal (MHLA) que reduce el tamaño/uso de la memoria caché y la memoria, el cálculo de precisión mixto en FP8 y una re-arquitectura post-entrenamiento. MoE siempre parece más eficiente, ya que solo una parte de los parámetros totales están activos en un momento dado durante la inferencia de tokens, por lo que no resulta muy chocante; en cambio, V3 parece aún más eficiente, unas 10 veces más frente a sus pares y 3-7 veces más si se tienen en cuenta otras innovaciones. Se dice que el modelo DeepSeek-R1 ha eliminado el ajuste fino supervisado. Así pues, parece evidente la innovación, aun cuando muchas de las mejoras principales deriven de técnicas más estándar; no obstante, existe un amplio debate sobre cuánto de esto es mérito propio de DeepSeek y cuánto se debe al aprovechamiento de LLM de código abierto de terceros.
3 razones clave por las que los mercados están preocupados por DeepSeek
1. DeepSeek parece tener costes de entrenamiento sustancialmente más bajos
DeepSeek afirma haber entrenado V3 con solo 2.048 GPU H800 de NVIDIA durante dos meses, lo cual, a 2 USD por hora, explica el bajo coste total anunciado de apenas 5 millones de USD. Eso es una fracción de lo que los hiperescaladores occidentales están lanzando en su formación de LLM (p. ej. es el 9% de la computación utilizada para el modelo LLaMA 3.1 405B de Meta).
2. China puede seguir compitiendo pese a las restricciones estadounidenses
DeepSeek demuestra que una empresa china puede competir con las mejores empresas de IA de Estados Unidos, a pesar de las restricciones actuales al acceso de las firmas chinas a la avanzada tecnología de semiconductores estadounidense. Esto trae a la memoria el surgimiento de programadores rusos, que dadas las restricciones informáticas en Rusia en la era post soviética, inventaron formas ingeniosas de codificar. ¿Podría haber ocurrido algo parecido en China, donde las restricciones parciales han redundado en una innovación en arquitectura LLM mayor que en Estados Unidos, que se ha limitado a echar toda la carne en el asador informático para resolver el problema?
3. Monetización de IA
DeepSeek cobra notablemente menos que OpenAI por usar sus modelos (alrededor de 20-40 veces menos), lo que pone en duda la monetización de la IA a la vista del sustancial volumen de dinero invertido en bienes de equipo en Occidente.
Una fuerza IA notable
El ecosistema IA global está tomando nota de los avances de DeepSeek. Pese a una trayecto de apenas dos años (surgió en 2023), DeepSeek se beneficia del pedigrí y respaldo del equipo del fondo cuantitativo High-Flyer Capital Management, así como del éxito y la innovación de sus modelos de generación anteriores. Esta es la razón por la que, si bien V3 se lanzó en diciembre y R1 a principios de este mes, el mercado no ha reaccionado antes, al no percatarse hasta ahora de lo vanguardista del modelo de razonamiento de R1. Además, durante el último fin de semana, DeepSeek se convirtió en la app gratuita más descargada de la AppStore de Apple, superando a ChatGPT. El inversor de Silicon Valley Marc Andreessen publicó que DeepSeek es “uno de los avances más asombrosos e impresionantes que he visto”, lo cual, viniendo de un veterano de la industria, es un gran elogio. Comentarios como ese han disparado las dudas del mercado sobre la sostenibilidad de la inversión en IA y empresas vinculadas a la misma como NVIDIA.
¿Qué podemos hacer a la vista de todo esto?
- Las nuevas olas tecnológicas requieren innovación
Cualquier nueva oleada tecnológica requiere innovación para reducir la curva de costes a lo largo del tiempo y permitir su adopción masiva. Estamos siendo testigos de múltiples vías de innovación en IA para abordar los problemas de escala con en entrenamiento de los de LLM, así como para lograr una inferencia más eficiente. DeepSeek parece aportar cierta innovación genuina a la arquitectura de los modelos de razonamiento y propósito general. La innovación y la reducción de costes son clave para impulsar la IA y permitir su adopción generalizada a largo plazo.
- Destilación
El modelo de DeepSeek aprovecha una técnica llamada destilación, a la que se recurre cada vez más en la industria de la IA. Dicha destilación consiste en equipar a los modelos más pequeños con las habilidades de los más grandes, transfiriendo los aprendizajes del modelo más grande (el del profesor) al más pequeño (el del estudiante). Sin embargo, es importante tener en cuenta que las técnicas de destilación de DeepSeek dependen de la colaboración de terceros. Cuál es su grado exacto de dependencia es una pregunta clave con la que el mercado está lidiando actualmente.
- Tómense con suma cautela las cifras de inversión en capital (capex):
a la vista de lo anterior, aludir a las cifras de capex antes mencionadas, sería como mezclar churras y merinas. Los 5 millones de USD citados hacen referencia únicamente a una sola sesión de entrenamiento, ignorando todas las previas, al igual que el entrenamiento de los modelos de los profesores más grandes, ya sea en DeepSeek o en LLM de código abierto de terceros en los que se basaron.
- Innovación de código abierto
Como señaló el lumbrera de la IA Yann LeCun, se trata de una victoria del modelo de código abierto que impulsa la innovación de la comunidad, ya que DeepSeek aprovecha los modelos de código abierto Llama de Meta y Qwen de Alibaba. Una vez más, esto es positivo para el desarrollo a largo plazo de la IA, impulsando y proliferando la innovación. Sin embargo, debido al estado actual de la geopolítica, probablemente se esperaría un mayor escrutinio del gobierno de EE. UU. sobre otros países que acceden a LLM de IA de última generación desde los EE. UU.
- ¿Se convertirán los LLM en simples materias primas?
Durante mucho tiempo hemos creído que monetizar los LLM a largo plazo sería todo un reto, dada la ingente competencia, incluso de desarrolladores de código abierto y los competidores que buscan monetizar de formas alternativas. El anuncio de DeepSeek solo hará que se analice en mayor profundidad el retorno de la inversión (ROI) del ingente capex que están destinando los desarrolladores al modelo fundacional de propósito general.
Consecuencias para la inversión
Las preocupaciones en torno a DeepSeek inciden en el creciente debate sobre el problema de ampliar la IA a gran escala, al igual que sobre el ROI del gasto de capex en IA y, en última instancia, las dudas sobre la sostenibilidad de los beneficios de las firmas que están viéndose impulsadas por el gasto de capex en IA y los precios que el mercado está dispuesto a pagar. Seguimos esperando que continúe el fuerte gasto de capex en IA, como se ha visto recientemente en los anuncios de Meta y el proyecto Stargate AI. Ahora bien, habrá que ser igualmente más selectivos con las empresas que están beneficiándose del capex en IA, así como pensar en las próximas fases de las oportunidades de inversión en IA a medida que se desarrolla esta nueva oleada tecnológica.
Vemos la infraestructura como la primera fase de una nueva ola, seguida de las plataformas y, a continuación, del software, las aplicaciones y los servicios. Nos estamos acercando a ese giro hacia la fase de plataforma, liderada por la nube, pero todavía vemos oportunidades de inversión a largo plazo también en infraestructura de IA. El mercado ha pasado rápidamente de la preocupación de que el gasto de capital de la IA sea demasiado alto, a la preocupación de que el gasto de capital de la IA vaya a colapsar. Ambas cosas no pueden suceder simultáneamente, por lo que es probable que la verdad se halle en un área intermedia. En última instancia, estos avances nos parecen positivos para la salud y el desarrollo de la IA a largo plazo. Seguimos identificando beneficiarios selectivos de la infraestructura de IA y ampliando nuestra exposición a plataformas que se beneficiarán de una computación, modelos de entrenamiento e inferencia de IA más eficientes.
Fuente de la información sobre DeepSeek: https://api-docs.deepseek.com/news/news250120
Token de IA: las unidades más pequeñas de datos utilizadas por un modelo lingüístico para procesar y generar texto. Inversión en activo fijo (CapEx): gastos de la empresa para adquirir o mejorar activos físicos como edificios, maquinaria, equipos, tecnología, etc., para mantener o mejorar las operaciones y promover el crecimiento futuro. GPT —Generative Pre-trained Transformers— o transformadores generativos preentrenados: una familia de modelos de redes neuronales que utilizan la arquitectura transformer, con las que funcionan aplicaciones de IA generativa como ChatGPT. GPU: una unidad de procesamiento de gráficos realiza cálculos matemáticos y geométricos complejos que son necesarios para la representación de gráficos y también se utilizan en juegos, creación de contenido y aprendizaje automático. Inferencia o inferenciar: hace referencia al procesamiento que realiza la inteligencia artificial. Mientras que el aprendizaje automático y el aprendizaje profundo remiten al entrenamiento de redes neuronales, la inferencia de la IA aplica conocimientos derivados de un modelo de red neuronal entrenado y lo utiliza para inferir un resultado. Hiperescaladores: empresas que proporcionan infraestructura para servicios de nube, conexión a redes e Internet a escala. Algunos ejemplos son Google Cloud, Microsoft Azure, Facebook Infrastructure, Alibaba Cloud y Amazon Web Services. LLM (gran modelo de lenguaje): tipo especializado de inteligencia artificial que se ha entrenado con grandes cantidades de texto para entender contenidos existentes y generar contenidos originales. MoE (Modelo de Mix de Expertos): un enfoque de aprendizaje automático que divide un modelo de IA en subredes/expertos separados para realizar una tarea de forma conjunta. Esto permite reducir sustancialmente el coste y mayor rapidez en las inferencias, ya que se utilizan expertos específicos para una tarea, en lugar de activar toda la red neuronal para cada trabajo. Software de código abierto: código diseñado para ser accesible públicamente, por lo que respecta a su visualización, modificación y distribución. Aprendizaje por refuerzo (RL): una técnica en la que la IA aprende interactuando con su entorno y recibiendo comentarios en forma de recompensas o penalizaciones. Esto permite que la IA se adapte y evolucione, al igual que mejorar sus habilidades lógicas y de resolución de problemas. ROI (retorno de la inversión): es un ratio financiero utilizado para medir la rentabilidad de una inversión. Se calcula dividiendo el resultado neto por el coste inicial de la inversión.
Estas son las opiniones del autor en el momento de la publicación y pueden diferir de las opiniones de otras personas/equipos de Janus Henderson Investors. Las referencias realizadas a valores concretos no constituyen una recomendación para comprar, vender o mantener ningún valor, estrategia de inversión o sector del mercado, y no deben considerarse rentables. Janus Henderson Investors, su asesor afiliado o sus empleados pueden tener una posición en los valores mencionados.
La rentabilidad histórica no predice las rentabilidades futuras. Todas las cifras de rentabilidad incluyen tanto los aumentos de las rentas como las plusvalías y las pérdidas, pero no refleja las comisiones actuales ni otros gastos del fondo.
La información contenida en el presente artículo no constituye una recomendación de inversion.
No hay garantía de que las tendencias pasadas continúen o de que se cumplan las previsiones.
Comunicación Publicitaria.
Información importante
Le recomendamos que lea la siguiente información acerca de los fondos relacionados con el presente artículo.
- Las acciones/participaciones pueden perder valor con rapidez y, por lo general, implican un mayor riesgo que los bonos o los instrumentos del mercado monetario. Como resultado, el valor de su inversión puede bajar.
- Las acciones de sociedades pequeñas o medianas pueden ser más volátiles que las acciones de grandes sociedades, y en ocasiones puede ser difícil valorar o vender acciones en tiempos y precios deseados, lo que aumenta el riesgo de pérdida.
- Si un Fondo tiene una gran exposición a un país o una región geográfica en concreto, lleva un nivel más alto de riesgo que un fondo que está mucho más diversificado.
- El Fondo se centra en determinados sectores o áreas de inversión y puede verse muy afectado por factores como los cambios en la regulación gubernamental, el aumento de la competencia de precios, los avances tecnológicos y otros acontecimientos adversos.
- El Fondo sigue un enfoque de inversión sostenible, que puede provocar una sobreponderación y/o infraponderación en determinados sectores y, por lo tanto, un rendimiento diferente al de los fondos que tienen un objetivo similar, pero que no integran criterios de inversión sostenible a la hora de seleccionar valores.
- El Fondo podrá utilizar derivados con el fin de reducir el riesgo o gestionar la cartera de forma más eficiente. Sin embargo, esto conlleva otros riesgos, en particular, que la contraparte de un derivado no pueda cumplir sus obligaciones contractuales.
- Si el Fondo mantiene activos en divisas distintas de la divisa base del Fondo o si usted invierte en una clase de acciones/ participaciones de una divisa diferente a la del Fondo (a menos que esté «cubierto»), el valor de su inversión puede verse afectado por las variaciones de los tipos de cambio.
- Cuando el Fondo, o una clase de acciones/participaciones con cobertura, trata de mitigar los movimientos del tipo de cambio de una divisa en relación con la divisa base, la propia estrategia de cobertura puede tener un impacto positivo o negativo en el valor del Fondo debido a las diferencias en los tipos de interés a corto plazo entre las divisas.
- Los valores del Fondo podrían resultar difíciles de valorar o de vender en el momento y al precio deseados, especialmente en condiciones de mercado extremas, cuando los precios de los activos pueden estar bajando, lo que aumenta el riesgo de pérdidas en las inversiones.
- El Fondo podría perder dinero si una contraparte con la que negocia el Fondo no está dispuesta o no es capaz de cumplir sus obligaciones, o como resultado de un fallo o retraso en los procesos operativos o del fallo de un proveedor externo.
Riesgos específicos
- Las acciones/participaciones pueden perder valor con rapidez y, por lo general, implican un mayor riesgo que los bonos o los instrumentos del mercado monetario. Como resultado, el valor de su inversión puede bajar.
- Si un Fondo tiene una gran exposición a un país o una región geográfica en concreto, lleva un nivel más alto de riesgo que un fondo que está mucho más diversificado.
- El Fondo se centra en determinados sectores o áreas de inversión y puede verse muy afectado por factores como los cambios en la regulación gubernamental, el aumento de la competencia de precios, los avances tecnológicos y otros acontecimientos adversos.
- Este Fondo puede tener una cartera especialmente concentrada en relación con su universo de inversión u otros fondos de su sector. Un evento adverso que afecte incluso a un número reducido de tenencias podría generar una volatilidad o pérdidas significativas para el Fondo.
- El Fondo podrá utilizar derivados con el fin de reducir el riesgo o gestionar la cartera de forma más eficiente. Sin embargo, esto conlleva otros riesgos, en particular, que la contraparte de un derivado no pueda cumplir sus obligaciones contractuales.
- Si el Fondo mantiene activos en divisas distintas de la divisa base del Fondo o si usted invierte en una clase de acciones/ participaciones de una divisa diferente a la del Fondo (a menos que esté «cubierto»), el valor de su inversión puede verse afectado por las variaciones de los tipos de cambio.
- Cuando el Fondo, o una clase de acciones/participaciones con cobertura, trata de mitigar los movimientos del tipo de cambio de una divisa en relación con la divisa base, la propia estrategia de cobertura puede tener un impacto positivo o negativo en el valor del Fondo debido a las diferencias en los tipos de interés a corto plazo entre las divisas.
- Los valores del Fondo podrían resultar difíciles de valorar o de vender en el momento y al precio deseados, especialmente en condiciones de mercado extremas, cuando los precios de los activos pueden estar bajando, lo que aumenta el riesgo de pérdidas en las inversiones.
- El Fondo podría perder dinero si una contraparte con la que negocia el Fondo no está dispuesta o no es capaz de cumplir sus obligaciones, o como resultado de un fallo o retraso en los procesos operativos o del fallo de un proveedor externo.