Cómo sacar el máximo partido a YandexGPT: qué funciona y qué no

AI-модели в этой статье
En Rusia, millones de personas usan Alice cada día – no porque la elijan, sino porque es gratis, viene integrada en el navegador Yandex y funciona sin VPN. YandexGPT, el modelo que hay bajo el capó de Alice, es el mejor modelo ruso de nuestro benchmark, pero todavía está muy por detrás de GPT-5.4.
¿Es posible obtener de él respuestas cercanas a las de GPT, si aprendes a preguntar bien? Lo comprobamos en un experimento: diez técnicas de prompting, seis tareas de gestión, dos jueces LLM independientes. La respuesta corta: sí, se puede – pero no todas las técnicas funcionan, y algunas empeoran el resultado.
A continuación tienes plantillas concretas que puedes copiar al chat ahora mismo, y los antipatrones que conviene evitar.
Tres problemas de YandexGPT frente a GPT-5.4
Antes de dar soluciones, veamos qué falla exactamente. Evaluamos las respuestas según cinco dimensiones: exactitud de los hechos, exhaustividad, concreción de las recomendaciones, honestidad (¿reconoce el modelo la incertidumbre?) y claridad del texto. Aquí es donde YandexGPT pierde – y donde gana.
Miente con aplomo. El problema principal es la honestidad. GPT-5.4 advierte de la incertidumbre en dos de cada tres respuestas. YandexGPT, en una de cada tres. Las otras dos veces ofrece datos con la misma seguridad, solo que esos datos son incorrectos. La exactitud factual lo confirma: el 75% de las afirmaciones verificables resultan correctas en YandexGPT, frente al 87% en GPT-5.4.
Se deja cosas importantes. Preguntas por una caída de ingresos y recibes un diagnóstico y recomendaciones. Pero sin hipótesis alternativas, sin la salvedad de «si los datos están incompletos», sin un apartado de limitaciones. GPT-5.4 añade esos bloques por su cuenta. YandexGPT no, hasta que se lo pides de forma explícita. El modelo no es perezoso – simplemente nadie le ha dicho que esas secciones hacen falta.
Da recomendaciones menos concretas. «Considere optimizar los procesos» en lugar de «reduzca el tiempo de gestión de devoluciones de 14 a 5 días asignando un responsable». La diferencia en concreción de las recomendaciones es menor que la de honestidad, pero se nota.
A cambio, escribe mejor. La claridad del texto es la única dimensión en la que YandexGPT supera a GPT-5.4. Alice escribe un ruso limpio y bien estructurado – y no es solo nuestra impresión: analizamos en detalle los puntos fuertes del modelo en nuestra reseña de YandexGPT. El problema nunca estuvo en cómo escribe, sino en qué escribe.
La buena noticia: los tres problemas se resuelven con prompting. Las plantillas de abajo no son consejos genéricos del tipo «escribe mejor». Cada elemento de la plantilla cierra una brecha concreta.
Tres niveles de esfuerzo: de un minuto a diez
Nivel 1: plantilla de respuesta (1 minuto)
La consulta más habitual de un manager es entender una situación y obtener un plan de acción. Añade a tu pregunta una plantilla de respuesta – cinco líneas que lo cambian todo. Pulsa «Ejecutar» y compara los resultados:
La sección «Limitaciones y salvedades» es la clave. Sin ella, YandexGPT propondrá un plan con total seguridad, sin advertir de que desconoce los detalles de la logística o las condiciones del contrato. Con ella, empieza a señalar dónde no está seguro. El modelo sabe lo que no sabe – pero solo si se lo pides de forma explícita.
En nuestro experimento, este truco ganaba al prompt ingenuo en el 76% de los casos. La mayor mejora con el mínimo esfuerzo.
Nivel 2: rol y contexto (3-5 minutos)
Otra tarea: prepararte para una conversación difícil con un colaborador. Aquí es importante fijar un rol y un contexto para que el modelo no dé consejos abstractos:
El rol determina la profundidad de la respuesta – un «líder con experiencia» da consejos distintos a los de un «consultor de RR. HH.». El contexto con hechos concretos (60% del plan, tres retrasos, la calidad no ha bajado) evita que el modelo caiga en frases genéricas.
Nivel 3: plantilla XML (10 minutos)
La tercera tarea: una nota analítica para la dirección. Aquí hay muchos datos, y necesitas que el modelo no pierda ni una cifra:
Las etiquetas XML crean límites inequívocos entre secciones, que YandexGPT interpreta mejor que el texto libre. Algunos estudios muestran un efecto similar: las estructuras híbridas dan un salto desproporcionado precisamente en los modelos menos potentes.
Para una pregunta rápida, basta con el nivel 1. Para una nota a la dirección, el nivel 3 está justificado.
Esta plantilla funciona para el análisis de ingresos. Pero cuando la tarea es otra – preparar OKR, hacer un 1:1 con un colaborador, revisar el contrato de un proveedor – la estructura del prompt cambia. Otras secciones, otras restricciones, otro rol. Qué elementos de la plantilla conservar y cuáles sustituir ya no es copiar, sino una habilidad. En el módulo abierto de Fundamentos lo practicarás con nueve tareas distintas de un manager.
El análisis de ingresos es una de nueve tareas. En el módulo abierto: correos, negociaciones, 1:1, informes – cada uno con su propia estructura de prompt. Gratis.
Sin pago requerido • Notificación al lanzamiento
Truco extra: la autocrítica
Pide a YandexGPT que relea su propia respuesta. Este prompt se envía como segundo mensaje, después de que el modelo ya haya respondido a tu pregunta:
Relee tu respuesta. Encuentra 3 puntos débiles: dónde fuiste poco concreta, dónde podría haber errores, qué te dejaste. Después, dame una versión mejorada.
En contra de los estudios que mostraban que los modelos pequeños son incapaces de autocriticarse, en YandexGPT esto funciona. El modelo no encuentra errores factuales, pero sí detecta omisiones: «no mencioné los plazos, no aporté alternativas, no señalé las limitaciones». Este tipo de crítica no exige grandes capacidades metacognitivas – el modelo simplemente compara la respuesta con su idea de lo que es una respuesta completa.
El ROI es peor que el de la plantilla estructurada – hace falta una segunda consulta y el efecto es más modesto. Pero si ya tienes la respuesta y quieres mejorarla, es un truco que funciona.
Qué no hacer
No dividas la tarea en tres turnos. YandexGPT tiene una ventana de contexto de 8K tokens. Al tercer turno del diálogo, el modelo pierde los datos del inicio de la conversación. En nuestro experimento, esta es la única técnica que dio un resultado peor que el prompt ingenuo. Para modelos con contexto amplio (Qwen3 Max: 128K) la descomposición funciona; para YandexGPT, no. Mejor un buen prompt que tres preguntas simples.
No escribas EN MAYÚSCULAS. Un consejo popular en los blogs: «escribe la instrucción EN MAYÚSCULAS y el modelo obedecerá». En la mayoría de los casos, el efecto se explica porque, junto con las mayúsculas, el autor añade instrucciones concretas. Nosotros aislamos las mayúsculas puras – sin indicaciones adicionales. En YandexGPT, la diferencia con el texto normal está al nivel del ruido.
No insultes al modelo. YandexGPT responde literalmente peor cuando le gritas. Mecanismo probable: un modelo entrenado con el feedback de los usuarios asocia el tono agresivo con situaciones en las que el usuario está descontento – y cambia a modo de disculpas en lugar de análisis. Si alguien dice «yo le grito a Alice y responde mejor», lo más probable es que, junto con el grito, esté añadiendo instrucciones concretas. Lo que ayuda es la estructura, no el tono.
No confíes en el Chain-of-Thought sin plantilla. «Piensa paso a paso» hace que YandexGPT reflexione más y actúe menos. La honestidad de la respuesta sube, pero la concreción de las recomendaciones casi nada. Si necesitas un plan de acción, una plantilla estructurada es mejor.
Conocer los antipatrones significa no repetir los errores ajenos. Pero cuando ninguna plantilla del artículo encaja con tu tarea, necesitas entender cómo está construido un prompt para montar el tuyo. Eso es justo lo que se trabaja en Fundamentos: no una lista de prompts hechos, sino la lógica con la que se construyen.
Estructura del prompt, rol, persona, semántica – 9 tareas de gestión en el módulo abierto. Aprenderás a montar un prompt para cualquier situación. Gratis.
Sin pago requerido • Notificación al lanzamiento
Cómo lo comprobamos
La descripción completa está en el anuncio del experimento. Aquí, en breve.
Cuatro modelos disponibles en Rusia sin VPN: GigaChat-Ultra, GigaChat-2-Max, YandexGPT (Alice) y Qwen3 Max. Diez técnicas de prompting sobre seis tareas de gestión – desde analizar una caída de ingresos hasta gestionar un despido según la legislación laboral rusa. Cada combinación se repitió 6 veces. Como referencia, las mismas tareas las resolvieron GPT-5.4, Claude Sonnet 4.6 y Kimi K2.5 con prompts ingenuos.
La evaluación fue por pares: el juez ve dos respuestas (ingenua vs. mejorada) y elige la mejor. Dos jueces independientes (Claude Opus 4.6 y Gemini 3.1 Pro), ciegos a la técnica y al modelo. Si los jueces no coinciden, empate.
Limitaciones: la evaluación la hicieron jueces LLM, no personas. Todas las técnicas las escribió un experto en prompting – un manager medio escribiría peor, y el efecto real será menor. Yandex puede actualizar YandexGPT en cualquier momento; los resultados son válidos a abril de 2026. Todos los prompts y plantillas están publicados en abierto.
Qué viene después
Los datos de GigaChat-Ultra, GigaChat-2-Max y Qwen3 Max saldrán en un artículo aparte – con el análisis de por qué el prompting ayuda más a los modelos de nivel medio. Y si todavía estás decidiendo qué herramienta usar, empieza por la comparación completa de herramientas de GenAI.
Este artículo te ha dado tres plantillas para una sola tarea. En el trabajo de un manager hay decenas: preparar un plan de proyecto, escribir un correo difícil, gestionar un conflicto en el equipo, revisar un documento legal. Cada una exige una estructura de prompt distinta. No vas a poder copiar la plantilla del artículo para cada caso – necesitas entender cómo está construido el prompt y de qué se ocupa cada elemento.
De la plantilla a la habilidad
En este artículo hay una plantilla para una tarea. En Fundamentos del curso encontrarás nueve tareas de un manager, cada una con su propia estructura de prompt. Verás para qué sirve el rol, cómo influye el contexto en la respuesta, cuándo las etiquetas XML aportan y cuándo el Chain-of-Thought estorba. No una lista de prompts hechos, sino la habilidad de montar un prompt para cualquier situación, en cualquier modelo.

Stanislav Belyaev
Engineering Leader en Microsoft18 anos liderando equipos de ingenieria. Fundador de mysummit.school. 700+ graduados en Yandex Practicum y Stratoplan.