La programación es el nuevo tablero de la IA. OpenAI y Anthropic lo han dejado claro con GPT 5.3 Codex y Claude Opus 4.6 – Diario cr

Cuando ChatGPT estalló en noviembre de 2022, OpenAI parecía no tener competencia. Y en su mayor parte, ese fue el caso. Este chatbot, a pesar de sus fallos y limitaciones, ha introducido su propia categoría. Sin embargo, las ventajas en el sector tecnológico rara vez duran y en 2026 la posición de la empresa dirigida por Sam Altman estará muy lejos de donde estaba entonces.

Google ha conseguido atraer al gran público Nano Plátano Promientras que Gemini está ganando importancia como chatbot con inteligencia artificial. Al mismo tiempo, la participación de mercado de ChatGPT ha disminuido significativamente en algunos mercados. Anthropic, por su parte, se ha consolidado como un referente en ingeniería de software y se ha convertido en una de las herramientas preferidas entre los programadores.

En esta carrera por el ritmo de la IA, este jueves asistimos a un extraño movimiento: el llegada casi simultánea de dos modelos que se centran en la programación, Códice GPT 5.3 Y Claude Opus 4.6. La coincidencia parece no ser casualidad y refleja hasta qué punto los actores clave del sector compiten para definir el siguiente paso, en un escenario donde los principales beneficiarios son, a su vez, los usuarios.

Dado que estos nuevos modelos ya están sobre la mesa, surge la pregunta de qué contribución hacen realmente. Hay muchas promesas y empiezan a aparecer Estándares comparables, que ayudan con la colocación. Por lo tanto, es hora de observar más de cerca lo que OpenAI y Anthropic ofrecen a quienes utilizan la IA como herramienta de desarrollo.

GPT 5.3 Codex y Opus 4.6 entran en escena: lo que cada uno promete a los desarrolladores

GPT 5.3 Codex se presenta como modelo centrado en agentes de planificación El objetivo es ampliar el alcance de lo que un desarrollador puede delegar en la IA. OpenAI afirma que combina mejoras en el rendimiento del código, el razonamiento y la experiencia con respecto a generaciones anteriores y es un 25% más rápido.

Con este equilibrio, el sistema se orienta a tareas prolongadas que requieren investigación, uso de herramientas y ejecución compleja, manteniendo la capacidad de intervenir en tiempo real y controlar el proceso sin perder el hilo del trabajo.

Uno de los elementos más llamativos que destaca OpenAI en esta generación es el papel que el propio Codex habría jugado en su desarrollo. El equipo utilizó primeras versiones del modelo para depurar la capacitación, gestionar la implementación y analizar los resultados de las pruebas y evaluaciones, un enfoque que acelera los ciclos de investigación y desarrollo.

Más allá de este proceso interno, GPT 5.3 Codex también muestra avances en tareas prácticas como la creación autónoma de aplicaciones web y juegos. La compañía ha publicado dos ejemplos que podemos probar ahora mismo pinchando en los enlaces: un juego de carreras con ocho cartas Y un juego de buceo para explorar arrecifes.

Es el turno de Anthropic con Claude Opus 4.6, una actualización que la compañía presenta como una mejora directa Planificación, autonomía y fiabilidad. dentro de grandes bases de código. Afirman que el modelo puede sostener las tareas del agente por más tiempo e inspeccionar y depurar con mayor precisión su propio trabajo.

La idea es que podamos utilizar estas habilidades en tareas como análisis financiero, investigación de documentación o creación de presentaciones. A esto se suma una ventana de contexto de hasta un millón de tokens en beta, un salto destinado a reducir la pérdida de información en procesos largos y fortalecer la utilidad del sistema.

Más allá del núcleo del modelo, Anthropic acompaña a Opus 4.6 con una serie de cambios destinados a ampliar su utilidad en los flujos de trabajo del mundo real. Estos incluyen mecanismos como el llamado “pensamiento adaptativolo que permite el sistema Ajusta automáticamente la profundidad de tu argumento dependiendo del contexto.

También están aumentando los niveles de esfuerzo configurables y las técnicas de compresión de contexto diseñadas para sostener largas conversaciones y tareas sin agotar los límites disponibles. Además, hay equipos de agentes que se pueden coordinar en paralelo dentro de Claude Code y una integración más profunda de Excel o PowerPoint.

Algunas empresas tuvieron acceso temprano al nuevo modelo de Anthropic. La empresa Recopile algunos de los testimonios en su sitio web.. Aquí tenéis uno de ellos:

«Claude Opus 4.6 completó de forma autónoma 13 problemas y asignó 12 problemas a los miembros apropiados del equipo en un solo día, administrando una organización de aproximadamente 50 personas en 6 repositorios. Manejó decisiones organizativas y de producto mientras sintetizaba el contexto en múltiples dominios y sabía cuándo escalar a un humano». Yusuke Kaji
Director de IA, Rakuten

Si bien el producto de OpenAI, GPT-5.3-Codex, aún no está disponible en la API, Anthropic sí lo está. Mantiene el precio base de $5 por millón de tokens de entrada y 25 dólares por millón de tokens de salidacon matices como un precio superior si las solicitudes superan los 200.000 tokens.

¿Usar números para medir quién ganará?

Al intentar contrastar GPT 5.3 Codex y Claude Opus 4.6, el principal obstáculo no es la falta de números, sino la dificultad de corresponderlos. Cada empresa selecciona las reseñas que mejor reflejan su progreso. Aunque muchos pertenecen a categorías similares, difieren en metodología, versiones o métricas, lo que impide una lectura directa.

En este tipo de modelos, esta fragmentación de resultados forma parte del propio estado del arte, pero también requiere una interpretación cuidadosa Esto es lo que distingue las demostraciones técnicas de las comparaciones verdaderamente equivalentes. Sólo a partir de este filtro es posible identificar los pocos puntos en los que ambos sistemas pueden medirse en condiciones comparables y sacar conclusiones útiles para los desarrolladores.

Si limitamos el análisis a métricas verdaderamente comparables, la similitud entre GPT 5.3 Codex y Claude Opus 4.6 se limita a dos puntuaciones específicas identificadas a través de nuestra propia investigación: Banco de terminales 2.0 Y mundo del sistema operativo en su versión verificada.

Los resultados muestran una distribución de fortalezas más que una clara superioridad. El Codex GPT 5.3 marca una 77,3% en Banco Terminal 2.0 en comparación con el 65,4% de Opus 4.6, lo que indica una mayor eficiencia en los flujos de trabajo centrados en terminales. Por el contrario, Opus 4.6 logra una 72,7% en OSWorldlo que supera el 64,7% del códice GPT 5.3 en tareas generales de interacción con el sistema, contraste que refuerza la idea de especialización según el entorno de uso.

Así, se podría decir que las capacidades descritas por cada proveedor apuntan a herramientas que ya no se limitan a generar código, sino que están destinadas a participar en procesos más largos de análisis, ejecución y verificación en entornos profesionales reales. Este cambio introduce nuevos criterios de selección que van más allá de la puntualidad.

En | OpenAI tiene un problema: Anthropic tiene éxito exactamente donde está en juego la mayor cantidad de dinero