Los nuevos modelos de Operai superan las expectativas

La inteligencia artificial (IA) no se encuentra en un estado de mera evolución; más bien, estamos en el umbral de un nuevo comienzo. En un breve lapso de dos años y medio, hemos pasado de la impresionante capacidad de GPT-3.5 a la aún más avanzada GPT-4O, lo que marca un hito significativo en la historia de la interacción con máquinas. Para quienes han tenido la oportunidad de experimentar ambos modelos, la diferencia en la calidad de la conversación es palpable y notable. GPT-3.5 puede haber establecido el camino hacia la era de ChatGPT, pero hoy en día, es poco probable que alguien opte por volver a utilizarlo si tiene acceso a modelos más sofisticados y eficientes.

Ahora bien, surge la pregunta: ¿qué implica realmente que un modelo sea más avanzado? La respuesta no es sencilla, ya que involucra varios factores. En términos generales, nos referimos a ventanas de contexto más amplias, lo que significa que estos modelos tienen la capacidad de leer y procesar una cantidad considerablemente mayor de información simultáneamente. También se trata de resultados más refinados que tienden a mostrar una tasa más baja de errores. Sin embargo, un desafío persistente en el campo son las alucinaciones. Es fundamental mencionar que a veces, el progreso no se da en la dirección deseada.

¿Qué entendemos por alucinaciones? En el contexto de la IA, las alucinaciones se refieren a la invención de respuestas. Son respuestas que, aunque pueden sonar precisas y convincente en su forma, están infundadas de errores. El modelo no está mintiendo deliberadamente; simplemente está generando texto basado en los patrones que reconoce en los datos. Cuando falta información o referencias precisas, ocurren estos «deslices». Esto puede pasar desapercibido, y representa un verdadero riesgo.

O3 y O4-Mini: más argumentos, más errores. En septiembre del año pasado, se presentaron los modelos de argumentación conocidos como SO, que ofrecieron un avance significativo al introducir un tipo de cadena de pensamiento que optimizó su desempeño en tareas que requieren mayor complejidad. Sin embargo, es importante destacar que no eran infalibles. La versión O1-Pro, a pesar de su mayor costo, no siempre superaba a O3-Mini en efectividad. De hecho, toda esta línea se introdujo con la promesa de reducir las alucinaciones de los modelos.

Sin embargo, los datos proporcionados por OpenAI cuentan una historia diferente. De acuerdo a un informe mencionado por TechCrunch y un informe técnico, OpenAI admite que tanto O3 como O4-Mini presentan un número mayor de alucinaciones en comparación con versiones anteriores. Específicamente, durante las pruebas internas usando Personqa, O3 presentó errores en el 33% de sus respuestas, un porcentaje que es el doble en comparación con los modelos O1 y O3-Mini. Y aún más preocupante, O4-Mini tuvo un desempeño aún peor, con un 48% de respuestas equivocadas.

Un análisis adicional de un laboratorio independiente, mostró que O3 incluso llegó a inventar acciones; afirmaba haber ejecutado código en un ChatGPT fuera de un MacBook Pro y luego copiar los resultados, algo que, evidentemente, no es posible.

Un desafío que sigue siendo formidable. La idea de desarrollar modelos de IA que no sufran de alucinaciones es, sin duda, atractiva. Tal avance sería un paso hacia la plena confianza en las respuestas que estos modelos ofrecen. Sin embargo, actualmente debemos lidiar con este obstáculo. Esta situación es especialmente crítica cuando utilizamos IA para tareas de alta sensibilidad como resumir documentos, consultar datos o crear informes. En tales casos, es imperativo realizar verificaciones adicionales.

Ya hemos sido testigos de errores significativos en el pasado. Uno de los casos más sonados involucró a un abogado que presentó documentos generados por ChatGPT ante un tribunal. Aunque estos documentos eran argumentativamente sólidos, contenían información ficticia, ya que el modelo inventó varios casos legales. La inteligencia artificial continuará avanzando, pero por el momento, el juicio crítico recae sobre nosotros.

Fotos | con chatgpt | Opadai

En | Algunos usuarios están utilizando Operai O3 y O4-Mini para localizar la procedencia de las fotos, lo que plantea serias preocupaciones sobre la privacidad.

En | Para aquellos que alguna vez temieron enfrentar a un robot, China ha organizado una media maratón que asegura relajación y tranquilidad.