
El 20 de enero, DeepSeek, un laboratorio de investigación de IA relativamente desconocido en China, lanzó un modelo de código abierto. Rápidamente este modelo antes desconocido se convirtió en tema de conversación en Silicon Valley. Según un artículo escrito por la empresa, DeepSeek-R1 supera a los modelos líderes de la industria, como OpenAI o1, en varios benchmarks de matemáticas y razonamiento. De hecho, en muchas métricas importantes (capacidad, costo, apertura) DeepSeek está compitiendo con los gigantes occidentales de IA.
DeepSeek desafía las restricciones y redefine el juego de la IA en China
El éxito de DeepSeek apunta a un resultado no intencionado de la guerra tecnológica entre Estados Unidos y China. Las restricciones a la exportación impuestas por EE.UU. han limitado severamente la capacidad de las empresas tecnológicas chinas para competir en IA al estilo occidental. Es decir, escalar infinitamente comprando más chips y entrenando durante más tiempo. Como resultado, la mayoría de las empresas chinas se han centrado en aplicaciones de nivel inferior en lugar de construir sus propios modelos. Pero con su último lanzamiento, DeepSeek demuestra que hay otra forma de ganar: renovando la estructura fundamental de los modelos de IA y utilizando recursos limitados de manera más eficiente.
A diferencia de muchas empresas chinas de IA que dependen en gran medida del acceso a hardware avanzado, DeepSeek se ha centrado en maximizar la optimización de recursos impulsada por software. Ha adoptado métodos de código abierto, agrupando experiencia colectiva y fomentando la innovación colaborativa.
Incluso dentro de la industria de IA china, DeepSeek es un actor poco convencional. Comenzó como Fire-Flyer, una rama de investigación de aprendizaje profundo de High-Flyer, uno de los fondos de cobertura cuantitativos con mejor desempeño en China. Durante años, estuvieron acumulando GPUs y construyendo supercomputadoras para analizar datos financieros.
En 2023, Liang, quien tiene una maestría en ciencias de la computación, decidió invertir los recursos del fondo en una nueva empresa llamada DeepSeek que construiría sus propios modelos de vanguardia. La cual, finalmente, desarrollaría una nueva inteligencia artificial general.
Innovación nacida de una crisis
En octubre de 2022, el gobierno de EE.UU. comenzó a implementar controles de exportación que restringieron severamente el acceso de las empresas chinas de IA a chips de vanguardia como el H100 de Nvidia. La medida representó un problema para DeepSeek. La empresa había comenzado con un stock de 10,000 H100, pero necesitaba más para competir con empresas como OpenAI y Meta.
DeepSeek tuvo que idear métodos más eficientes para entrenar sus modelos. Optimizaron la arquitectura de su modelo utilizando una serie de trucos de ingeniería. Empezaron con esquemas de comunicación personalizados entre chips. Luego añadieron reducción del tamaño de los campos para ahorrar memoria y un uso innovador del enfoque de mezcla de modelos. Muchas de estas innovaciones no son ideas nuevas, pero combinarlos con éxito para producir un modelo de vanguardia es un logro notable.
DeepSeek también ha logrado avances significativos en Multi-head Latent Attention (MLA) y Mixture-of-Experts, dos diseños técnicos que hacen que los modelos de DeepSeek sean más rentables al requerir menos recursos informáticos para el entrenamiento. De hecho, el último modelo de DeepSeek es tan eficiente que requirió una décima parte del poder de cómputo del modelo comparable Llama 3.1 de Meta para entrenarse.
Esta noticia podría significar problemas para los controles de exportación actuales de EE.UU., que se centran en crear cuellos de botella en los recursos informáticos. Las estimaciones existentes sobre cuánto poder de cómputo tiene China en IA y lo que pueden lograr con él podrían verse alteradas.

Los comentarios están cerrados.