El modelo de IA actualizado puede hacer cosas realmente impresionantes con vídeos o textos largos. Google DeepMind ya ha lanzado la próxima generación de su potente modelo de inteligencia artificial Gemini, que tiene una capacidad mejorada para trabajar con grandes cantidades de vídeo, texto e imágenes.
Se trata de un avance con respecto a las tres versiones de Gemini 1.0 que Google anunció en diciembre, y que varían en tamaño y complejidad desde Nano a Pro y Ultra. Google publica ahora una versión preliminar de Gemini 1.5 Pro para desarrolladores y clientes empresariales seleccionados. La empresa afirma que el Gemini 1.5 Pro de nivel medio iguala en rendimiento a su anterior modelo de nivel superior, Gemini 1.0 Ultra, pero utiliza menos potencia de cálculo (¡sí, los nombres son confusos!).
Gemini 1.5 Pro puede hacer maravillas
Y lo que es más importante, el modelo 1.5 Pro puede manejar cantidades mucho mayores de datos de los usuarios, incluidas indicaciones más grandes. Aunque cada modelo de IA tiene un límite máximo de datos que puede digerir, la versión estándar del nuevo Gemini 1.5 Pro puede manejar entradas de hasta 128.000 tokens, que son palabras o partes de palabras en las que un modelo de IA divide las entradas. Eso está a la altura de la mejor versión de GPT-4 (GPT-4 Turbo).
Sin embargo, un grupo limitado de desarrolladores podrá enviar hasta 1 millón de tokens a Gemini 1.5 Pro, lo que equivale aproximadamente a una hora de vídeo, 11 horas de audio o 700.000 palabras de texto. Es un salto significativo que permite hacer cosas que ningún otro modelo es capaz de hacer actualmente.
En un vídeo de demostración mostrado por Google, utilizando la versión de un millón de tokens, los investigadores alimentaron al modelo con una transcripción de 402 páginas de la misión Apolo de alunizaje. Luego mostraron a Gemini un boceto dibujado a mano de una bota, y le pidieron que identificara el momento de la transcripción que representaba el dibujo.
“Este es el momento en que Neil Armstrong alunizó”, respondió correctamente el chatbot. “Dijo: ‘Un pequeño paso para el hombre, un gran salto para la humanidad'”.
El modelo también fue capaz de identificar momentos de humor. Cuando los investigadores le pidieron que encontrara un momento gracioso en la transcripción del Apolo, eligió cuando el astronauta Mike Collins se refirió a Armstrong como “el Zar”. (Probablemente no fue la mejor frase, pero se entiende).
Cada vez más cerca del cerebro humano
En otra demostración, el equipo cargó una película muda de 44 minutos en la que aparecía Buster Keaton y pidió a la IA que identificara qué información había en un trozo de papel que, en algún momento de la película, se saca del bolsillo de un personaje. En menos de un minuto, el modelo encontró la escena y recordó correctamente el texto escrito en el papel. Los investigadores también repitieron una tarea similar del experimento Apolo, pidiendo al modelo que encontrara una escena de la película basándose en un dibujo. También completó esta tarea.
Google dice que sometió a Gemini 1.5 Pro a la batería habitual de pruebas que utiliza cuando desarrolla grandes modelos lingüísticos, incluidas evaluaciones que combinan texto, código, imágenes, audio y vídeo. Descubrió que 1.5 Pro superaba a 1.0 Pro en el 87% de las pruebas comparativas y que más o menos igualaba a 1.0 Ultra en todas ellas, a la vez que utilizaba menos potencia de cálculo.
La capacidad de manejar entradas más grandes, según Google, es el resultado del progreso en lo que se denomina arquitectura de mezcla de expertos. Una IA que utiliza este diseño divide su red neuronal en trozos, activando sólo las partes que son relevantes para la tarea en cuestión, en lugar de activar toda la red a la vez.
En cierto modo, funciona de forma muy parecida a nuestro cerebro, en el que no todo el cerebro se activa todo el tiempo. Esta compartimentación ahorra a la IA potencia de cálculo y puede generar respuestas más rápidamente. Ese tipo de fluidez yendo y viniendo entre distintas modalidades, y utilizándola para buscar y comprender, es muy impresionante. Son cosas que no se habían visto antes.
¿Es cierto lo que dice Google?
Una IA capaz de operar en distintas modalidades se parecería más a la forma en que se comportan los seres humanos. Las personas somos multimodales por naturaleza podemos cambiar sin esfuerzo entre hablar, escribir y dibujar imágenes o gráficos para transmitir ideas.
Por un lado, no está claro hasta qué punto los vídeos de demostración omitieron o seleccionaron varias tareas (de hecho, Google recibió críticas por su lanzamiento temprano de Gemini por no revelar que el vídeo estaba acelerado). También es posible que el modelo no sea capaz de reproducir algunas de las demostraciones si se modifican ligeramente las palabras introducidas.
El lanzamiento de Gemini 1.5 Pro está limitado a desarrolladores y clientes empresariales. Google no ha especificado cuándo estará disponible para un público más amplio.
Los comentarios están cerrados.