

Hay días en los que parece que abrimos el teléfono y el salpicadero vuelve a cambiar. Desde que estalló ChatGPT en noviembre de 2022, la carrera de la IA ha seguido acelerándose cada pocas semanas Aparece un nuevo modelo que promete empujar el listón un poco más lejos. A veces es una actualización, a veces es un «buque insignia» con un apellido diferente, pero el patrón se repite: más poder, más ambición y una historia cada vez más global. En este contexto, China es cada vez más visible y es el nombre el que ahora se debate. Qwen3 Max pensandoLa propuesta de Alibaba, con la que quiere jugar en la misma liga que los grandes referentes del momento.
A primera vista, Qwen3-Max-Thinking parece ser un nombre más en la interminable lista de modelos. Sin embargo, hay un matiz relevante aquí: lo presenta como su modelo estrella para los acertijos y lo pone explícitamente en la misma discusión que el Gemini 3 Pro. La compañía afirma que ha escalado parámetros e invertido recursos computacionales en amplificación para mejorar múltiples dimensiones simultáneamente, desde el conocimiento factual y el pensamiento complejo hasta el seguimiento de instrucciones y el enfoque en las preferencias humanas y las capacidades de los agentes. En otras palabras, no sólo venden energía pura, sino una forma de “pensar” mejor.
¿Qué enseñan los puntos de referencia?
Para cumplir esta promesa, lo más útil es echar un vistazo a la tabla comparativa que tenemos, con 19 benchmarks y un conteo directo: Gemini 3 Pro lidera en el puesto 11, Qwen3-Max-Thinking logra ubicarse en el puesto 8. Este dato por sí solo es no decide “quién es mejor”pero ayuda a entender qué tipo de batalla está librando Alibaba contra Google. Aquí vale la pena tomar lo que medimos muy literalmente: cada punto de referencia se centra en una habilidad específica, desde el conocimiento general hasta la programación, el uso de herramientas, el seguimiento de instrucciones y un largo análisis contextual.
Si buscamos dónde realmente impacta Qwen3 Max Thinking, hay uno que se destaca del resto: seguir instrucciones y alinearse con lo que la gente prefiere en una conversación. En Arena Difícil v2Qwen gana con 90,2 frente a los 81,7 de Géminis, lo que supone la mayor diferencia a su favor en toda la tabla (8,5 puntos por encima). Esto no es poca cosa, ya que este tipo de punto de referencia recompensa no sólo el “éxito” técnico, sino también el resultado final que una persona encuentra más útil al comparar respuestas a ciegas. Agregado IFBancocon Qwen ganando con la mínima (70,9 vs. 70,4). Traducido a la vida real: si el usuario no logra formular una instrucción perfecta, si la tarea es ambigua o requiere una intención interpretativa, Qwen parece más concentrado en llegar al corazón de lo que se le pide y hacerlo de una manera que se sienta natural.
La otra área en la que Qwen apoya su narrativa del “modelo de pensamiento” es el razonamiento matemático y la resolución de problemas lógicos. En HMMT, Qwen está por delante en las ediciones de noviembre de 2025 y febrero de 2025 (94,7 frente a 93,3 y 98,0 frente a 97,5, respectivamente). Y también gana en IMOAnswerBench, aunque por un pequeño margen: 83,9 frente a 83,3. Estos números no indican una paliza, pero sí sugieren un patrón consistente: cuando el problema lo requiere varios pasos de la lógica Y no se puede solucionar sólo con memoria o una buena respuesta, Qwen tiende a aprovecharlo.
A estas mejoras, Alibaba añade un componente que ya se está convirtiendo en el nuevo estándar: que el modelo no se quede en el texto, sino que pueda actuar. En su presentación, la empresa habla de un uso adaptativo de herramientas que permite recuperar información bajo demanda y llamar a un intérprete de códigos. Y esta orientación también se refleja en los benchmarks: en HLE (con herramientas), Qwen gana con 49,8 frente a 45,8 en Gemini, lo que sugiere un mejor rendimiento si el modelo puede utilizar herramientas externas. Aquí es donde el cambio fundamental es importante: ya no se trata sólo de “qué responde”, sino de cómo investiga, cómo decide qué herramientas utilizar y cómo resume lo que encuentra.
Hay una parte de esta comparación en la que el Gemini 3 Pro se siente más «diseñado» que «hablador», y eso es exactamente en lo que se centran muchos usuarios profesionales. El modelo de Google se está poniendo de moda MMLU Pro y MMLU-Redux, dos pruebas muy relacionadas con los conocimientos generales, así como en GPQA y HLE, que aparecen en esta tabla como medidas de evaluación exigentes y preguntas complejas. Géminis prevalece en el código Banco de códigos en vivo v6 y también en SWE probadolo que refuerza la idea de que para tareas de programaciónSigue siendo una apuesta muy sólida. A esto se suma AA-LCR, donde es líder en el análisis de documentos largos.
La letra pequeña se esconde detrás del precio
En este punto, la pregunta es tan importante como cualquier punto de referencia: ¿cuánto cuesta darle un uso serio a estos modelos? Cuando se trata de precios estándar por millón de tokens, el contraste es claro. En Géminis 3 Pro, la entrada oscila entre 2 y 4 dólares dependiendo del tramo de tokens de entrada, mientras que en Qwen3-Max El valor de entrada es $1,2. Sin embargo, la diferencia más importante se ve en la salida, donde se paga por el “pensamiento” del modelo: Gemini cuesta entre 12 y 18 dólares frente a los 6 dólares de Qwen. Traducido a proporciones, Gemini es aproximadamente 1,67 veces más caro para empezar y 2 veces más caro para salir en condiciones de uso normal. Si el tramo supera los 200.000 tokens de entrada, la brecha aumenta a 3,33 veces en la entrada y 3 veces en la salida.
Géminis es aproximadamente 1,67 veces más caro en la entrada y 2 veces más caro en la salida en el tramo habitual.
Y aquí llegamos a la parte que suele quedar fuera cuando se trata de rendimiento y precio: ¿qué pasa con tus datos cuando usas el modelo y bajo qué reglas? En el caso de Qwen, dos mundos deben estar claramente separados. Por un lado está el chat web para consumidores, sus condiciones Consideran el uso y almacenamiento de “Contenido de usuario” para desarrollar y mejorar tecnologías de inteligencia artificial, incluido contenido anónimo, y la posibilidad de procesarlo para nuevos productos y servicios. No encontramos nada más allá de eso, al menos en nuestro informe de prueba.o un control claro u opción visible que le permite optar por no participar usa eso. Por otro lado, no hay ninguna referencia explícita a la UE o al RGPD en el material revisado. en el tuyo política de privacidadAlibaba advierte contra las transferencias internacionales de datos, señalando que el servicio generalmente se brinda desde Singapur y los datos generalmente se procesan en Singapur, Indonesia o China.
Sin embargo, Alibaba introduce matices importantes. El entorno profesional Nube de Alibaba Garantiza que los datos no se utilicen para capacitación y que la información esté cifrada mediante AES-256. También explica que el tratamiento de las conversaciones cambia según el tipo de uso: en las llamadas API directas no se guardan, mientras que en otros modos se puede conservar el historial para mejorar la experiencia. Google introduce un matiz similar: con la API paga de Gemini, las indicaciones y respuestas no se utilizan para entrenar modelos y se mantienen confidenciales. Respecto a este marco, debemos señalar otro elemento contextual: la ley de inteligencia chinaen su artículo 7, establece que Las organizaciones y los ciudadanos deben “ayudar, asistir y cooperar con” el trabajo de inteligencia nacional, manteniendo el secreto de lo que se sabe, de conformidad con la ley. una obligación legal que ha causado preocupación en la Unión Europea y otras partes del mundo.
Imágenes | con Géminis 3 Pro | Captura de pantalla
En | La cantidad de nuevas aplicaciones que llegan a la App Store se ha disparado. Tenemos un culpable: «Vibe Coding»








