El nuevo meta modelo obtuvo una excelente puntuación en los benchmarks, quizás incluso demasiado alta.

Durante un período prolongado, todos hemos estado a la espera de la llegada de la nueva familia de modelos de inteligencia artificial, que han sido denominados como Llama 4. El fin de semana pasado, la compañía detrás de estos modelos finalmente llevó a cabo una revelación oficial y, a primera vista, todo parecía muy prometedor. Sin embargo, la forma en que se realizó el anuncio ha suscitado cierta controversia y ha dado lugar a un debate incómodo: hay sospechas de que los puntos de referencia presentados pueden haber sido manipulados o engañosos.

El rendimiento de Llama 4 es impresionante. Desde su presentación, estos nuevos modelos han capturado la atención debido a su destacado desempeño en las evaluaciones de benchmark. Lograron posicionarse en segundo lugar en el ranking del portal Prolongada, solo detrás de Gemini 2.5, que fue calificado como experimental. Sin embargo, la alegría fue breve, ya que la versión de Llama 4, llamada Flame 4, que está disponible para el público general, no equivale al mismo rendimiento reconocido en esa clasificación.

¿Una versión manipulada? De acuerdo con la comunicación oficial de Meta, la versión de Flame 4 que obtuvo una puntuación destacada fue una versión «experimental» que logró un total de 1.417 puntos en Larenaa, mientras que Gemini 2.5 alcanzó 1.439 puntos. Algunos analistas han apuntado que esta versión experimental de Llama 4 fue especialmente diseñada, utilizando datos seleccionados que permitieron optimizar su rendimiento en los benchmarks, lo que genera dudas sobre la legitimidad de los puntajes obtenidos.

No cometimos engaños. Mad al-Dahle, quien lidera la división generativa de Meta y es responsable del lanzamiento de Llama 4, ha desmentido rotundamente los rumores que insinuaban que la compañía había manipulado los resultados. En respuesta a estas acusaciones, afirmó que «son totalmente infundadas y no adoptaríamos ningún tipo de estrategia deshonesta para conseguir mejores puntuaciones».

Sin embargo, se dijo que estaba «optimizado». En una publicación de TechCrunch, Meta mencionó que la versión experimental Flame 4 fue «optimizida para facilitar discusiones», lo que llevó a la sugerencia de que el criterio de evaluación en Larena podría no haber sido explicado de manera adecuada para resaltar la naturaleza de esta clasificación.

Las pruebas con Llama 4 revelan debilidades. Algunos expertos que han analizado el rendimiento de Llama 4 utilizando pruebas tanto sintéticas como convencionales han advertido que su desempeño no es tan sobresaliente como se había proclamado. El modelo que se encuentra disponible públicamente ha demostrado comportamientos que no se alinean con la calidad señalada en el puntaje de Larena.

Inconsistencias en los resultados. Al-Dahle admitió que algunos usuarios han reportado «resultados de calidad dispares» de las versiones Maverick y Scout del modelo Llama 4, en función del proveedor. Añadió que esperan resolver estas discrepancias y que se encuentran en un proceso continuo para mejorar la calidad y la precisión de sus modelos.

Una comunicación poco habitual. Al cuestionar a Mark Zuckerberg sobre la fecha de lanzamiento de este modelo, el CEO respondió que «se lanzó cuando estuvo listo». Sin embargo, se ha destacado que el modelo presentado en Larena no es equivalente al que está disponible para el público, lo que genera preocupación y desconfianza en cuanto a la veracidad de los puntos de referencia y su utilización por parte de las empresas para promocionar sus productos. Esta no es la primera vez que surgen tales controversias, y lamentablemente no será la última.

En | Operai quema dinero como si no hubiera mañana. Surge la pregunta de cuánto tiempo más puede continuar esta situación.