Cómo sacar el máximo partido a YandexGPT: qué funciona y qué no

14 min de lectura
Stanislav Belyaev
Stanislav Belyaev Engineering Leader en Microsoft
Cómo sacar el máximo partido a YandexGPT: qué funciona y qué no

En Rusia, millones de personas usan Alice cada día – no porque la elijan, sino porque es gratis, viene integrada en el navegador Yandex y funciona sin VPN. YandexGPT, el modelo que hay bajo el capó de Alice, es el mejor modelo ruso de nuestro benchmark, pero todavía está muy por detrás de GPT-5.4.

¿Es posible obtener de él respuestas cercanas a las de GPT, si aprendes a preguntar bien? Lo comprobamos en un experimento: diez técnicas de prompting, seis tareas de gestión, dos jueces LLM independientes. La respuesta corta: sí, se puede – pero no todas las técnicas funcionan, y algunas empeoran el resultado.

A continuación tienes plantillas concretas que puedes copiar al chat ahora mismo, y los antipatrones que conviene evitar.

Tres problemas de YandexGPT frente a GPT-5.4

Antes de dar soluciones, veamos qué falla exactamente. Evaluamos las respuestas según cinco dimensiones: exactitud de los hechos, exhaustividad, concreción de las recomendaciones, honestidad (¿reconoce el modelo la incertidumbre?) y claridad del texto. Aquí es donde YandexGPT pierde – y donde gana.

Miente con aplomo. El problema principal es la honestidad. GPT-5.4 advierte de la incertidumbre en dos de cada tres respuestas. YandexGPT, en una de cada tres. Las otras dos veces ofrece datos con la misma seguridad, solo que esos datos son incorrectos. La exactitud factual lo confirma: el 75% de las afirmaciones verificables resultan correctas en YandexGPT, frente al 87% en GPT-5.4.

Se deja cosas importantes. Preguntas por una caída de ingresos y recibes un diagnóstico y recomendaciones. Pero sin hipótesis alternativas, sin la salvedad de «si los datos están incompletos», sin un apartado de limitaciones. GPT-5.4 añade esos bloques por su cuenta. YandexGPT no, hasta que se lo pides de forma explícita. El modelo no es perezoso – simplemente nadie le ha dicho que esas secciones hacen falta.

Da recomendaciones menos concretas. «Considere optimizar los procesos» en lugar de «reduzca el tiempo de gestión de devoluciones de 14 a 5 días asignando un responsable». La diferencia en concreción de las recomendaciones es menor que la de honestidad, pero se nota.

A cambio, escribe mejor. La claridad del texto es la única dimensión en la que YandexGPT supera a GPT-5.4. Alice escribe un ruso limpio y bien estructurado – y no es solo nuestra impresión: analizamos en detalle los puntos fuertes del modelo en nuestra reseña de YandexGPT. El problema nunca estuvo en cómo escribe, sino en qué escribe.

La buena noticia: los tres problemas se resuelven con prompting. Las plantillas de abajo no son consejos genéricos del tipo «escribe mejor». Cada elemento de la plantilla cierra una brecha concreta.

Tres niveles de esfuerzo: de un minuto a diez

Nivel 1: plantilla de respuesta (1 minuto)

La consulta más habitual de un manager es entender una situación y obtener un plan de acción. Añade a tu pregunta una plantilla de respuesta – cinco líneas que lo cambian todo. Pulsa «Ejecutar» y compara los resultados:

Pruébalo tú mismo
Respuesta a la queja de un cliente: YandexGPT vs GPT-5.4
Un cliente ha escrito a soporte: «Es la tercera vez este mes que el pedido llega con el embalaje dañado. Las dos veces anteriores me prometieron solucionarlo, pero nada ha cambiado. Si vuelve a pasar, me voy a la competencia y dejo una reseña». El cliente lleva 2 años con nosotros, ticket medio de 150 €/mes. ¿Cómo le respondo y qué hacemos internamente? Responde estrictamente en el siguiente formato: ## Conclusión breve (2-3 frases) ## Respuesta al cliente (texto listo para enviar, firmado por el responsable del departamento) ## Acciones internas - Qué revisar (en concreto: números de pedido, etapas de la logística, fotos de los daños) - A quién implicar (cargos y áreas de responsabilidad) - Plazos para cada acción ## Compensación (opciones con importes o porcentajes) ## Limitaciones y salvedades ## Cómo evitar que se repita (cambios sistémicos, no parches puntuales)
Comparamos:
aliceai-llm · gpt-5.4

La sección «Limitaciones y salvedades» es la clave. Sin ella, YandexGPT propondrá un plan con total seguridad, sin advertir de que desconoce los detalles de la logística o las condiciones del contrato. Con ella, empieza a señalar dónde no está seguro. El modelo sabe lo que no sabe – pero solo si se lo pides de forma explícita.

En nuestro experimento, este truco ganaba al prompt ingenuo en el 76% de los casos. La mayor mejora con el mínimo esfuerzo.

Nivel 2: rol y contexto (3-5 minutos)

Otra tarea: prepararte para una conversación difícil con un colaborador. Aquí es importante fijar un rol y un contexto para que el modelo no dé consejos abstractos:

Pruébalo tú mismo
Preparación de un 1:1: YandexGPT vs GPT-5.4
Eres un líder de equipo de desarrollo con experiencia, 8 años gestionando equipos. Situación: el desarrollador David lleva 1 año y medio en el equipo. En los últimos dos sprints ha cerrado el 60% de lo planificado. Antes mantenía un 90% de forma estable. Sus compañeros se quejan de que ha empezado a saltarse las revisiones de código. La semana pasada llegó tarde a la daily tres veces. Aun así, la calidad de su código no ha bajado: lo que hace, lo hace bien. Mañana tengo un 1:1 con él. Ayúdame a prepararlo. Responde estrictamente según el formato: ## Hipótesis: qué puede estar pasando ## Plan de la conversación (preguntas concretas, en qué orden) ## Qué no hacer en esta conversación ## Posibles acuerdos al final ## Limitaciones y salvedades
Comparamos:
aliceai-llm · gpt-5.4

El rol determina la profundidad de la respuesta – un «líder con experiencia» da consejos distintos a los de un «consultor de RR. HH.». El contexto con hechos concretos (60% del plan, tres retrasos, la calidad no ha bajado) evita que el modelo caiga en frases genéricas.

Nivel 3: plantilla XML (10 minutos)

La tercera tarea: una nota analítica para la dirección. Aquí hay muchos datos, y necesitas que el modelo no pierda ni una cifra:

Pruébalo tú mismo
Nota analítica: YandexGPT vs GPT-5.4
<task> Preparar una nota analítica para la dirección con el balance del trimestre. </task> <context> Empresa: tienda online de electrónica, 45 empleados. Mercado: electrónica de consumo, segmento medio. Competidores directos: MediaMarkt y PcComponentes. </context> <data> - Ingresos Q1: 4,2 M€ (objetivo 5,1 M€, -18%) - Tráfico web: +12% respecto a Q4 (presupuesto de publicidad aumentado un 30%) - Ticket medio: bajó de 870 € a 620 € (-29%) - Devoluciones: subieron del 4% al 11% - NPS: cayó de 47 a 31 - Bajas en la newsletter: 8% (lo normal es 3%) - Nuevo almacén operativo desde febrero; el 40% de los pedidos pasan por él </data> <question>¿Qué ha pasado, cuáles son las causas de raíz y qué hacemos en Q2?</question> <output_format> # Resumen para la dirección (3 frases) # Diagnóstico: qué ha salido mal ## Causa 1: [nombre] - **Hecho**: cifra de los datos - **Conexión**: cómo afectó a los ingresos ## Causa 2: [nombre] ... # Plan de acción para Q2 | # | Acción | Efecto esperado | Responsable | Plazo | # Riesgos del plan # Lo que no sabemos (limitaciones del análisis) </output_format> <constraints> - Vincula cada conclusión a una cifra concreta de <data> - Si los datos no bastan para una conclusión, indica qué datos hacen falta - Nota para la dirección: sin jerga, con cifras concretas </constraints>
Comparamos:
aliceai-llm · gpt-5.4

Las etiquetas XML crean límites inequívocos entre secciones, que YandexGPT interpreta mejor que el texto libre. Algunos estudios muestran un efecto similar: las estructuras híbridas dan un salto desproporcionado precisamente en los modelos menos potentes.

Para una pregunta rápida, basta con el nivel 1. Para una nota a la dirección, el nivel 3 está justificado.

Esta plantilla funciona para el análisis de ingresos. Pero cuando la tarea es otra – preparar OKR, hacer un 1:1 con un colaborador, revisar el contrato de un proveedor – la estructura del prompt cambia. Otras secciones, otras restricciones, otro rol. Qué elementos de la plantilla conservar y cuáles sustituir ya no es copiar, sino una habilidad. En el módulo abierto de Fundamentos lo practicarás con nueve tareas distintas de un manager.

El análisis de ingresos es una de nueve tareas. En el módulo abierto: correos, negociaciones, 1:1, informes – cada uno con su propia estructura de prompt. Gratis.

Sin pago requerido • Notificación al lanzamiento

Unirse a la lista

Truco extra: la autocrítica

Pide a YandexGPT que relea su propia respuesta. Este prompt se envía como segundo mensaje, después de que el modelo ya haya respondido a tu pregunta:

Relee tu respuesta. Encuentra 3 puntos débiles: dónde fuiste poco concreta, dónde podría haber errores, qué te dejaste. Después, dame una versión mejorada.

En contra de los estudios que mostraban que los modelos pequeños son incapaces de autocriticarse, en YandexGPT esto funciona. El modelo no encuentra errores factuales, pero sí detecta omisiones: «no mencioné los plazos, no aporté alternativas, no señalé las limitaciones». Este tipo de crítica no exige grandes capacidades metacognitivas – el modelo simplemente compara la respuesta con su idea de lo que es una respuesta completa.

El ROI es peor que el de la plantilla estructurada – hace falta una segunda consulta y el efecto es más modesto. Pero si ya tienes la respuesta y quieres mejorarla, es un truco que funciona.

Qué no hacer

No dividas la tarea en tres turnos. YandexGPT tiene una ventana de contexto de 8K tokens. Al tercer turno del diálogo, el modelo pierde los datos del inicio de la conversación. En nuestro experimento, esta es la única técnica que dio un resultado peor que el prompt ingenuo. Para modelos con contexto amplio (Qwen3 Max: 128K) la descomposición funciona; para YandexGPT, no. Mejor un buen prompt que tres preguntas simples.

No escribas EN MAYÚSCULAS. Un consejo popular en los blogs: «escribe la instrucción EN MAYÚSCULAS y el modelo obedecerá». En la mayoría de los casos, el efecto se explica porque, junto con las mayúsculas, el autor añade instrucciones concretas. Nosotros aislamos las mayúsculas puras – sin indicaciones adicionales. En YandexGPT, la diferencia con el texto normal está al nivel del ruido.

No insultes al modelo. YandexGPT responde literalmente peor cuando le gritas. Mecanismo probable: un modelo entrenado con el feedback de los usuarios asocia el tono agresivo con situaciones en las que el usuario está descontento – y cambia a modo de disculpas en lugar de análisis. Si alguien dice «yo le grito a Alice y responde mejor», lo más probable es que, junto con el grito, esté añadiendo instrucciones concretas. Lo que ayuda es la estructura, no el tono.

No confíes en el Chain-of-Thought sin plantilla. «Piensa paso a paso» hace que YandexGPT reflexione más y actúe menos. La honestidad de la respuesta sube, pero la concreción de las recomendaciones casi nada. Si necesitas un plan de acción, una plantilla estructurada es mejor.

Conocer los antipatrones significa no repetir los errores ajenos. Pero cuando ninguna plantilla del artículo encaja con tu tarea, necesitas entender cómo está construido un prompt para montar el tuyo. Eso es justo lo que se trabaja en Fundamentos: no una lista de prompts hechos, sino la lógica con la que se construyen.

Estructura del prompt, rol, persona, semántica – 9 tareas de gestión en el módulo abierto. Aprenderás a montar un prompt para cualquier situación. Gratis.

Sin pago requerido • Notificación al lanzamiento

Unirse a la lista

Cómo lo comprobamos

La descripción completa está en el anuncio del experimento. Aquí, en breve.

Cuatro modelos disponibles en Rusia sin VPN: GigaChat-Ultra, GigaChat-2-Max, YandexGPT (Alice) y Qwen3 Max. Diez técnicas de prompting sobre seis tareas de gestión – desde analizar una caída de ingresos hasta gestionar un despido según la legislación laboral rusa. Cada combinación se repitió 6 veces. Como referencia, las mismas tareas las resolvieron GPT-5.4, Claude Sonnet 4.6 y Kimi K2.5 con prompts ingenuos.

La evaluación fue por pares: el juez ve dos respuestas (ingenua vs. mejorada) y elige la mejor. Dos jueces independientes (Claude Opus 4.6 y Gemini 3.1 Pro), ciegos a la técnica y al modelo. Si los jueces no coinciden, empate.

Limitaciones: la evaluación la hicieron jueces LLM, no personas. Todas las técnicas las escribió un experto en prompting – un manager medio escribiría peor, y el efecto real será menor. Yandex puede actualizar YandexGPT en cualquier momento; los resultados son válidos a abril de 2026. Todos los prompts y plantillas están publicados en abierto.

Qué viene después

Los datos de GigaChat-Ultra, GigaChat-2-Max y Qwen3 Max saldrán en un artículo aparte – con el análisis de por qué el prompting ayuda más a los modelos de nivel medio. Y si todavía estás decidiendo qué herramienta usar, empieza por la comparación completa de herramientas de GenAI.

Este artículo te ha dado tres plantillas para una sola tarea. En el trabajo de un manager hay decenas: preparar un plan de proyecto, escribir un correo difícil, gestionar un conflicto en el equipo, revisar un documento legal. Cada una exige una estructura de prompt distinta. No vas a poder copiar la plantilla del artículo para cada caso – necesitas entender cómo está construido el prompt y de qué se ocupa cada elemento.

Fundamentos

De la plantilla a la habilidad

En este artículo hay una plantilla para una tarea. En Fundamentos del curso encontrarás nueve tareas de un manager, cada una con su propia estructura de prompt. Verás para qué sirve el rol, cómo influye el contexto en la respuesta, cuándo las etiquetas XML aportan y cuándo el Chain-of-Thought estorba. No una lista de prompts hechos, sino la habilidad de montar un prompt para cualquier situación, en cualquier modelo.

9 tareas del manager: correos
negociaciones
informes
1:1
Estructura del prompt: rol
contexto y formato de salida
Por qué unas técnicas funcionan en YandexGPT y otras no
Práctica con tus propios datos – sin registro ni pago
Stanislav Belyaev

Stanislav Belyaev

Engineering Leader en Microsoft

18 anos liderando equipos de ingenieria. Fundador de mysummit.school. 700+ graduados en Yandex Practicum y Stratoplan.