GigaChat Ultra Thinking: piensa mas tiempo – responde peor?

8 min de lectura
GigaChat Ultra Thinking: piensa mas tiempo – responde peor?

GigaChat Ultra Thinking piensa mas tiempo y consume mas recursos computacionales. Las tareas de gestion las resuelve un 3,3% peor que la version sin razonamiento. Esto no es un error ni una casualidad – es un patron documentado por trabajos academicos durante los ultimos dos anos.

Esta semana, Sber presento GigaChat Ultra – su nuevo modelo insignia con modo de razonamiento (Thinking). El modelo esta disponible de forma gratuita en la version web, aplicaciones moviles y a traves del bot de Telegram. Anadimos inmediatamente ambas variantes a nuestra investigacion de modelos de IA para gestores: los evaluamos en los 32 escenarios siguiendo la metodologia unificada, los calificamos con ambos jueces LLM y los comparamos con los otros 52 modelos.

Nota importante. En el momento de las pruebas, GigaChat Ultra no estaba disponible a traves de API – solo mediante el chat web. Esto significa que no pudimos controlar la temperatura, el prompt del sistema ni otros parametros. Utilizamos el modelo exactamente como lo haria un usuario comun. Las condiciones son identicas para Ultra y Ultra Thinking, pero difieren de los demas modelos de la investigacion, que fueron evaluados a traves de API.

GigaChat Ultra – pruebas en el chat

Resultados: panorama general

GigaChat Ultra obtuvo 3,04 puntos de 5,0 (promedio en 32 escenarios). GigaChat Ultra Thinking – 2,94.

El modo de razonamiento empeoro el resultado en 0,10 puntos – menos 3,3%.

Para contexto: el modelo insignia anterior GigaChat 2 Max obtenia 3,08. Ultra se quedo practicamente en el mismo nivel. Con el modo de razonamiento – incluso ligeramente por debajo.

ModeloPuntuacion mediaMediana
GigaChat Ultra3,042,85
GigaChat Ultra Thinking2,942,90
GigaChat 2 Max (anterior)3,08

La brecha con los lideres sigue siendo significativa. Kimi K2.5 – 4,74, Qwen3.5 Plus – 4,56, DeepSeek V3.2 – 4,42. GigaChat Ultra – entre 1,4 y 1,7 puntos por debajo.

Por categorias: donde pensar es util y donde es perjudicial

Evaluamos los modelos en 8 categorias de tareas de gestion, con 4 escenarios en cada una. Aqui esta el desglose.

Donde Thinking ayudo

CategoriaUltraThinkingDiferencia
Planificacion y productividad3,113,83+0,72
Resolucion de problemas3,083,26+0,18
Gestion de equipos2,812,95+0,14

El mejor resultado de Thinking – en la tarea de analisis de stakeholders: Ultra obtuvo 2,25 (clasificacion incorrecta de sentimientos, contradicciones internas en la respuesta), mientras que Thinking – 4,00 (analisis correcto del tono, estructura adecuada). Diferencia – 1,75 puntos en un solo escenario.

Ventana principal de GigaChat. El modo “Razonamiento” se selecciona por separado

Patron: Thinking ayuda en tareas donde es necesario considerar varios factores simultaneamente – posiciones de stakeholders, riesgos en la contratacion, escenarios de negociacion.

Donde Thinking perjudico

CategoriaUltraThinkingDiferencia
Comunicacion3,452,71−0,74
Formacion y desarrollo2,892,31−0,58
Especificidades regionales3,002,68−0,32
Analisis y decisiones3,603,26−0,34
Busqueda de informacion2,482,480,00

El peor resultado de Thinking – generacion de un script en Python para automatizacion. Ultra obtuvo 3,86, Thinking – 1,25. Menos 2,61 puntos. La version Thinking genero codigo con metricas inventadas (“bug rate = deployments / velocity”) y errores criticos de sintaxis. El codigo es completamente inoperante.

Bug-rate inventado en GigaChat Thinking

El segundo fracaso – analisis de ingresos. Ultra identifico correctamente los patrones en los datos y calculo $317,1 mil. Thinking “razono” hasta llegar a $236,7 mil – una alucinacion en los calculos intermedios.

Cabe preguntar: si el modo de razonamiento empeora el resultado en cinco de ocho categorias – cual es su valor?

Mecanismo: por que “pensar mas tiempo” = “responder peor”

El problema de GigaChat Ultra Thinking no es unico. En los ultimos dos anos se ha publicado una serie de investigaciones que documentan el mismo efecto: el razonamiento extendido (extended thinking) en modelos de lenguaje no mejora, sino que empeora el resultado en una proporcion significativa de tareas.

Las respuestas incorrectas contienen el doble de “pensamientos”

Una investigacion (Do Thinking Tokens Help or Trap?, junio 2025) analizo las respuestas del modelo DeepSeek-R1. Conclusion principal: las respuestas incorrectas contienen el doble de thinking-tokens que las correctas. El modelo cae en una “trampa de razonamiento” – tokens como “hmm”, “esperemos”, “por lo tanto” desencadenan ciclos de re-verificacion que alejan de la respuesta correcta.

La supresion de la generacion de thinking-tokens llevo a una “degradacion minima de la calidad del razonamiento en todos los niveles de dificultad”. En otras palabras, se puede eliminar la mayor parte de las “reflexiones” – y el resultado no se ve afectado.

Las cadenas cortas de razonamiento son un 34,5% mas precisas que las largas

Hassid et al. (Don’t Overthink It, mayo 2025) demostraron que las cadenas cortas de razonamiento son hasta un 34,5% mas precisas que las largas – para la misma pregunta. Un metodo simple – generar varias respuestas cortas y elegir la mejor – utiliza hasta un 40% menos de thinking-tokens y al mismo tiempo muestra un resultado igual o superior.

Mas tokens – peor resultado

Una investigacion de Google y la Universidad de Virginia (Think Deep, Not Just Long, febrero 2026) registro una correlacion negativa de −0,544 entre la cantidad de tokens de razonamiento y la precision de la respuesta. Se probo en GPT-OSS-20B/120B, DeepSeek-R1-70B, Qwen3-30B. Conclusion de los autores – “pensar profundamente” y “pensar durante mucho tiempo” son cosas diferentes.

En el benchmark Omni-MATH, la precision cae con el aumento de la cantidad de tokens en todos los modelos probados: de −0,81% a −3,16% por cada mil tokens adicionales.

La curva con joroba: primero mejor, despues peor

Does Thinking More Always Help? (junio 2025) descubrio una curva no monotona “con joroba”: en GSM-8K, la precision primero crece del 82,2% al 87,3% con un volumen moderado de razonamiento, y luego cae al 70,3% con un volumen excesivo. La generacion paralela de varias respuestas cortas supera consistentemente una sola cadena larga.

La “curva con joroba”: la precision crece y luego cae con el aumento del volumen de razonamiento. Fuente: Ghosal et al., 2025

Apple: para tareas sencillas, el razonamiento es perjudicial

El articulo de Apple (The Illusion of Thinking, 2025) identifico tres regimenes:

  1. Tareas sencillas – el modelo comun sin razonamiento funciona mejor que el modelo de razonamiento: mas rapido y mas preciso
  2. Tareas de dificultad media – el modelo de razonamiento obtiene ventaja
  3. Tareas dificiles – ambos modelos fracasan por igual, independientemente del volumen de razonamiento

Resultados de las pruebas de Apple en diferentes tareas – modelos con y sin razonamiento

Para tareas de gestion – correspondencia empresarial, analisis de datos, generacion de codigo – esto tiene relevancia directa. La mayoria de estas tareas caen en las categorias de “sencillas” y “de dificultad media”, donde el razonamiento extendido o perjudica o aporta un beneficio minimo.

Специализация

Entienda la IA de forma sistematica

Que herramienta para que tarea, como detectar alucinaciones, como trabajar con modelos de razonamiento – lo analizamos en el programa del curso.

От pre-mortem до антикризисного плана
Переиспользуемые промпт-шаблоны
Сквозной кейс на реальном проекте
~300 часов экономии в год

Overthinking como problema sistemico

Una revision de mas de 170 trabajos (Stop Overthinking, marzo 2025) documenta el “problema del overthinking” como una propiedad sistemica de los modelos de razonamiento: incluso una pregunta trivial como “2+3=?” puede generar miles de tokens de razonamiento sin ningun beneficio. Los modelos no saben calibrar el volumen de razonamiento segun la complejidad de la tarea.

Como distinguir una tarea donde la IA se desenvuelve bien de una que requiere su experiencia? Lo analizamos en el programa del curso

10 уроков: встраиваете ИИ в планирование, отчётность и кризисное реагирование. Результат – не промпты, а рабочая система.

Ver el programa

Que significa esto para GigaChat Ultra

Nuestros datos encajan perfectamente en el patron descrito por las investigaciones:

Thinking perjudico donde la tarea requiere datos precisos. Analisis de ingresos, generacion de codigo, trabajo con numeros – el modelo genera pasos intermedios falsos que arruinan la respuesta final. Esta es la clasica “trampa de razonamiento” de Ding et al.

Thinking ayudo donde hay que sopesar multiples factores. Analisis de stakeholders, preparacion para negociaciones, evaluacion de riesgos en contratacion – tareas donde los pasos adicionales de razonamiento estructuran la respuesta. Esta es la “dificultad media” de Apple.

La diferencia entre categorias es enorme. Desde +1,75 hasta −2,61 puntos en escenarios individuales. El indicador promedio (−0,10) oculta la imagen real – Thinking no es “ligeramente peor”, es radicalmente mejor en algunas tareas y catastroficamente peor en otras.

Posicion en el ranking

Con una puntuacion de 3,04, GigaChat Ultra ocupa el puesto 44 de 54 modelos en el ranking actualizado. GigaChat Ultra Thinking – el puesto 46.

Para comparar con otros modelos rusos:

ModeloPuntuacionPosicion
Alice AI LLM (Yandex)3,8638
YandexGPT Pro 5.13,1343
GigaChat Ultra3,0444
GigaChat-2-Max3,0845
GigaChat-Max-preview3,0547
GigaChat Ultra Thinking2,9448
GigaChat-Pro-preview2,9049

La actualizacion del modelo insignia no trajo un progreso notable. Ultra esencialmente reprodujo el resultado de GigaChat-2-Max (3,08 vs 3,04 – la diferencia esta dentro del margen de error).

Ademas, el precio del API de GigaChat sigue siendo uno de los mas altos: $7,22 por millon de tokens. DeepSeek V3.2 con una puntuacion de 4,42 cuesta $0,27 – 27 veces mas barato con un resultado 1,45 veces superior.

Conclusiones practicas

Si ya utiliza GigaChat Ultra:

No active el modo de razonamiento por defecto. Uselo solo para tareas con multiples factores – analisis de posiciones, preparacion para negociaciones complejas, evaluacion de riesgos. Para todo lo demas – el modo estandar.

No confie en los numeros del modo Thinking. Cualquier calculo, dato o codigo – verificalo. El modo Thinking genera pasos intermedios verosimiles pero falsos.

Si esta eligiendo un modelo desde cero – Kimi K2.5, Qwen3.5 Plus o DeepSeek V3.2 ofreceran un resultado significativamente mejor a un menor coste.

Pero la cuestion es mas amplia: por que Sber lanza el modo de razonamiento como una ventaja de marketing, si seis investigaciones independientes entre 2025 y 2026 muestran lo mismo – “pensar mas tiempo” y “pensar mejor” para los modelos de lenguaje todavia no son lo mismo?