El propósito cuenta con una sólida justificación para iniciar una enorme variante de Llama 4: su capacidad de especialización.

Meta Publicidad Anunció el sábado pasado el lanzamiento de Llama 4, su más reciente colección de modelos de IA de código abierto. Con esta nueva generación, la compañía está avanzando hacia nuevas fronteras, presentando tres variantes multimodales, pero una de ellas se destaca por su tamaño colosal, lo cual tiene sus justificativos.

Bienvenidos a Llama 4. Han pasado casi 12 meses desde que se revelaron las capacidades de Llama 3, y ahora Meta trae al mundo una familia de modelos que comprende tres versiones distintas:

  1. Llama 4 Scout: la versión «compacta», diseñada para competir con Gemma 3, Gemini 2.0 Flash-Lite y Mistral 3.1.
  2. Llama 4 Maverick: un competidor directo de modelos como GPT-4O, Gemini 2.0 Flash y Deepseek V3.
  3. Llama 4 Gigantoth: un verdadero titán que supera a Meta GPT-4.5, Gemini 2.0 y Claude 3.7 en múltiples benchmarks. Sin embargo, esta versión no está abierta al público en general.

Impresionante ventana de contexto. Lo más notable de estos modelos es su asombrosa ventana de contexto que alcanza los 10 millones de tokens, una cifra extraordinaria. Esto significa que el modelo tiene la capacidad de procesar una inmensa cantidad de datos, lo cual abre nuevas posibilidades para interacciones más complejas y enriquecidas.

Mezcla de experiencia. Estos modelos emplean una avanzada arquitectura de mezcla de expertos, tecnología que ya ha sido aprovechada por Deepseek. Esta innovación permite que el modelo active expertos específicos que se ajustan a ciertos tipos de requerimientos, optimizando el uso de recursos. Esto no solo mejora la eficiencia sino que también permite un rendimiento óptimo con un consumo energético relativamente bajo. Llama 4 Scout emplea 16 expertos mientras que Maverick utiliza hasta 128. Esta arquitectura también beneficia el proceso de inferencia, permitiendo que los modelos respondan de manera rápida y fluida.

Llama 4 Gentri, el «modelo maestro». Aunque esta variante aún no está disponible para el público, es notablemente grande y cuenta con unos impresionantes dos billones de parámetros (2T). Para poner esto en perspectiva, Deepseek R1 tiene unos 671 mil millones de parámetros, lo que hace que Llama 4 Gentri sea tres veces más potente y describe un nuevo estándar en la escala de modelos. La esencia de este modelo es que actúa como un «maestro» que puede guiar a versiones más pequeñas y especializadas.

Comparativa de Llama 4 frente a sus competidores.

Especialización. Además, esta variante es perfecta para ser «destilada» en modelos más pequeños que, a pesar de ser más compactos, retendrán un alto nivel de potencia. Esto se logra a partir del conocimiento acumulado por este «maestro de maestros», adaptándose a áreas y сценарios concretos en los que esos modelos pueden sobresalir.

Menos censura. A su vez, el generador de imágenes Operai ha experimentado un significativo cambio, adoptando una postura de menor censura. Esto se basa en la influencia de Grok 3, lo que da como resultado un modelo que es un poco menos «políticamente correcto».

Resultados mixtos hasta ahora. Aunque este modelo parece tener un buen desempeño en diferentes benchmarks, expertos como Simon Willinson lo han probado y destacan que sus impresiones iniciales no han sido especialmente llamativas. Por ejemplo, Gemini 2.5 Pro parece superar a Llama 4 en pruebas de resumen y análisis de textos. Sin embargo, se debe recordar que algo similar ocurrió con Llama 3, y las siguientes actualizaciones, 3.1 y 3.2, mejoraron considerablemente su funcionamiento.

Ya disponible para pruebas. Llama 4 ya se encuentra accesible a través de plataformas como WhatsApp, Instagram, Facebook o en el sitio web de Meta AI. Además, los expertos tienen la opción de descargarlo, aunque se requiere un cluster con una considerable cantidad de memoria para ejecutarlo localmente. También se puede encontrar en Hugging Face.

Y pronto «será la razón». Mark Zuckerberg anunció que se presentará un nuevo modelo llamado Argumentación en su cuenta de Instagram, el cual representa el primer modelo de este tipo desarrollado por la compañía. Este modelo promete ser una competencia formidable frente a Deepseek R1 y su sucesor, que se lanzará pronto.

Fotos | Meta

En | Este año, la tecnología ha dejado claro algo importante: estamos avanzando hacia una era dominada por la IA.