Kimi K2.5 de Moonshot: el modelo chino que compite con Claude y GPT

¿Puede un modelo chino open source competir con los buques insignia cerrados de OpenAI y Anthropic? Según nuestras pruebas independientes – sí. El 27 de enero de 2026, la empresa pekinesa Moonshot AI lanzó Kimi K2.5, que inmediatamente ocupó el cuarto lugar del mundo. Por encima – solo Claude Opus 4.5, GPT-5.2 y Gemini 3 Pro. Los tres son cerrados y de pago.
Kimi K2.5 es el primer modelo chino que ha entrado en el clúster de élite a la par de los mejores competidores occidentales. Y está disponible con un nivel gratuito.

Quién es Moonshot AI
Moonshot AI es una startup pekinesa fundada en 2023 por excolaboradores de ByteDance (la empresa detrás de TikTok). Cuenta con el respaldo de Alibaba y HongShan (anteriormente Sequoia China). Su fundador y CEO es Zhilin Yang, investigador especializado en NLP.
La startup apostó por dos cosas: contexto largo y capacidades agénticas. La primera versión de Kimi en 2024 llamó la atención por su ventana de contexto, récord en aquel momento. K2.5 es la tercera generación, y aquí ambas líneas convergen.
Qué puede hacer Kimi K2.5
El modelo tiene 1 billón de parámetros, pero utiliza una arquitectura Mixture-of-Experts: en cada momento solo están activos 32 mil millones. Esto permite combinar potencia con eficiencia – las respuestas son rápidas y el coste a través de API es varias veces inferior al de Claude o GPT.
Características clave:
- Ventana de contexto de 256K tokens – aproximadamente 350–500 páginas de texto por consulta (varía según el idioma: la tokenización es menos eficiente en idiomas no ingleses)
- Multimodalidad nativa – comprende texto, imágenes y vídeo de serie
- Cuatro modos de trabajo: Instant (respuestas rápidas), Thinking (análisis profundo), Agent (tareas autónomas con herramientas) y Agent Swarm (trabajo en paralelo con hasta 100 subagentes)
- Código abierto – licencia MIT, pesos disponibles en HuggingFace
Agent Swarm: la función estrella
Este es un enfoque fundamentalmente nuevo. En lugar de resolver una tarea de forma secuencial, Kimi K2.5 puede dividirla en subtareas y lanzar hasta 100 subagentes especializados en paralelo. Cada subagente trabaja de forma independiente, y el agente principal coordina los resultados.

¿Para qué esperar 10 minutos si la tarea puede dividirse en 100 hilos? Kimi K2.5 en modo Swarm resuelve una consulta analítica compleja en 2–3 minutos en lugar de 10. En el test BrowseComp (navegación y búsqueda web) Agent Swarm obtuvo un 78,4% – el mejor resultado entre todos los modelos evaluados, incluyendo GPT-5.2.

En cuanto a capacidades, Kimi puede competir incluso con Notebook LM de Google. En la parte de presentaciones interactivas – el resultado es bastante decente a primera vista. Eso sí, los datos son del año pasado.
Para un manager, esto es relevante en escenarios como «analiza 10 sitios web de competidores y elabora un resumen» o «prepara un informe basado en varias fuentes».
Qué muestran los tests
En los benchmarks estándar de la industria, Kimi K2.5 compite con solidez frente a los mejores modelos cerrados:
| Benchmark | Kimi K2.5 | GPT-5.2 | Claude Opus 4.5 | DeepSeek V3.2 |
|---|---|---|---|---|
| HLE con herramientas | 50,2% | 45,5% | 43,2% | 40,8% |
| BrowseComp (Agent Swarm) | 78,4% | 54,9% | 24,1% | 67,6% |
| SWE-Bench Verified (código) | 76,8% | 80,0% | 80,9% | 73,1% |
| AIME 2025 (matemáticas) | 96,1% | 100,0% | 92,8% | 93,1% |
| VideoMMMU (vídeo) | 86,6% | 85,9% | 84,4% | – |
Kimi K2.5 lidera en tareas agénticas (búsqueda, navegación, trabajo autónomo) y comprensión de vídeo. En programación queda por detrás de Claude, en matemáticas – de GPT-5.2. Pero son diferencias de 3–4 puntos porcentuales, no un abismo.
Como siempre, los benchmarks y el uso real son cosas distintas. Pero la dirección es clara: Kimi K2.5 juega en la misma liga que los buques insignia.
Cómo rindió Kimi K2.5 en nuestras pruebas
En el marco de nuestra comparación de 34 modelos en tareas reales de gestión, Kimi K2.5 obtuvo el 4.º lugar con una puntuación de 4,74 sobre 5,0 – y se convirtió en el único modelo chino en el clúster de élite.
Para dar contexto: en el clúster de élite solo hay tres modelos además de Kimi – Claude Opus 4.5 (4,81), Claude Sonnet 4.5 (4,78) y GPT-5.2 (4,76). Kimi K2.5 entró en esa compañía.
Donde Kimi K2.5 es especialmente fuerte:
- Búsqueda de información – 2.º lugar entre todos los modelos (4,643)
- Formación y desarrollo – 4.º lugar (4,720)
- Comunicación – 4.º lugar (4,653)
- Análisis y toma de decisiones – 4.º lugar (4,779)
Y lo más notable – la consistencia. Kimi K2.5 mostró la menor dispersión de puntuaciones entre categorías: la diferencia entre el mejor y el peor resultado es de solo 0,13 puntos. En la mayoría de los modelos, este indicador es 2–3 veces mayor. Esto significa que Kimi K2.5 es igualmente fiable independientemente del tipo de tarea.
Kimi K2.5 frente a otros modelos chinos
Para un manager que elige entre herramientas disponibles, la comparación dentro del «grupo chino» es más relevante que la competición abstracta con Claude.
| Modelo | Nuestra puntuación | Lugar | Punto fuerte | Acceso por chat | Coste |
|---|---|---|---|---|---|
| Kimi K2.5 | 4,74 | #4 | Versatilidad, búsqueda | kimi.com | Gratis / $19–199/mes |
| Qwen3.5 Plus | 4,56 | #8 | Planificación | chat.qwen.ai | Gratis (solo API) |
| Qwen3.5 397B | 4,55 | #9 | Análisis y decisiones | chat.qwen.ai | Gratis (solo API) |
| GLM-5 (Z.ai) | 4,50 | #10 | Gestión de equipos (#1) | chat.z.ai | Gratis (solo API) |
| DeepSeek V3.2 | 4,42 | #13 | Relación calidad-precio | chat.deepseek.com | Gratis (solo API) |
| Qwen3 Max | 4,42 | #14 | Razonamiento | chat.qwen.ai | Gratis (solo API) |
| DeepSeek R1 | 4,33 | #17 | Analítica | chat.deepseek.com | Gratis (solo API) |
Conclusiones de la tabla:
Kimi K2.5 es el mejor modelo chino en conjunto. La diferencia con el competidor más cercano (Qwen3.5 Plus) es de 0,18 puntos – una distancia considerable cuando el nivel general supera el 4,5.
Pero no es el mejor en cada categoría. GLM-5 sigue siendo el n.º 1 en gestión de equipos. DeepSeek V3.2 ofrece la mejor relación calidad-precio entre los modelos chinos. Qwen3.5 Plus es más fuerte en planificación.
En cuanto a accesibilidad, Kimi destaca. Es el único modelo entre los 4 mejores del mundo con chat gratuito. DeepSeek y GLM-5 también son gratuitos, pero quedan por debajo en calidad. Los planes de pago de Kimi ($19–199/mes) desbloquean capacidades agénticas que los competidores simplemente no ofrecen en interfaz de chat.
Cómo acceder a Kimi K2.5
Interfaz web: kimi.com
El sitio kimi.com es accesible globalmente sin restricciones en la mayoría de los países de habla hispana, tanto en España como en Latinoamérica. El inicio de sesión se realiza con una cuenta de Google – es el método más rápido y sencillo, basta con 10 segundos.
La interfaz está disponible solo en inglés y chino; no hay UI en español. El modelo entiende español y responde en él, pero – como con todos los modelos chinos – la calidad de las respuestas en español es notablemente inferior a la del inglés. Para tareas complejas, la recomendación práctica es formular los prompts en inglés y obtener mejores resultados.

Tres modos principales de trabajo:
- Instant – respuestas rápidas para tareas cotidianas: correspondencia, preguntas, trabajo con documentos
- Thinking – análisis profundo con «cadena de razonamiento», el modelo muestra su proceso de pensamiento
- Agent – ejecución autónoma de tareas: generación de documentos (.docx, .pdf, .xlsx), búsqueda web, operaciones de múltiples pasos. Si pides preparar un informe con tablas – este es el modo indicado
Aplicaciones móviles
Kimi está disponible para iOS y Android. La funcionalidad es similar a la versión web, incluyendo todos los modos de trabajo.
Precios y tarifas
Nivel gratuito (Adagio)
- Consultas de texto ilimitadas en modos Instant y Thinking
- Hasta 3 consultas al mes a agentes (documentos, hojas de cálculo, presentaciones)
- 1 consulta Deep Research al mes
- Cola de espera en horas punta
El nivel gratuito es suficiente para probar el modelo y determinar si es adecuado para tus tareas. Para trabajo diario – se queda corto.
Planes de pago
| Plan | Precio | Qué ofrece |
|---|---|---|
| Moderato | $19/mes | Más consultas agénticas, prioridad, generación de presentaciones |
| Allegretto | $39/mes | Más límites, multitarea de agentes, acceso a Kimi Claw |
| Vivace | $199/mes | Agentes ilimitados, máxima velocidad, contexto ampliado |
Los precios están en dólares estadounidenses y se pagan con Visa o Mastercard internacional. El proceso de suscripción es directo, sin complicaciones adicionales.
Coste a través de API
| Opción | Tokens de entrada | Tokens de salida | ~Precio análisis informe 100 págs. |
|---|---|---|---|
| Moonshot API (directo) | $0,60 / 1M | $3,00 / 1M | ~$0,50 |
| OpenRouter | $0,45 / 1M | $2,20 / 1M | ~$0,35 |
Para comparar: Claude Opus 4.5 para una tarea similar cuesta unos $3, GPT-5.2 – $1,50. Kimi K2.5 es 6–8 veces más barato que Claude.
Pero entre los modelos chinos, Kimi no es el más económico. DeepSeek V3.2 cuesta 3 veces menos, Qwen3.5 Plus – 1,5 veces menos.
Limitaciones y riesgos
Idioma español – una debilidad predecible. Al igual que GLM-5, Kimi K2.5 funciona notablemente mejor en inglés y chino. En español el modelo se desenvuelve, pero con pérdida de matices. Dicho esto, el soporte del español en los modelos chinos es mejor que el de idiomas más pequeños – pero si la tarea lo permite, formula los prompts en inglés para obtener la máxima calidad.
Velocidad de respuesta – Agent Swarm es rápido para tareas complejas, pero el modo Thinking normal es más lento que Claude y GPT. En una prueba independiente, el tiempo mediano de respuesta de Kimi K2.5 fue de 29,2 segundos frente a 4,6 de Claude Sonnet 4.6. Esto invita a reflexionar: si Agent Swarm promete velocidad a través del paralelismo, ¿por qué el modo normal es 6 veces más lento que los competidores? Para consultas puntuales es tolerable; en sesiones de trabajo intensivas – se nota.
La censura china funciona igual que en los demás modelos chinos: los temas políticamente sensibles se bloquean. Para tareas de gestión, esto rara vez supone un problema.
Tamaño del modelo – 1 billón de parámetros significa que ejecutar Kimi K2.5 en servidores propios es poco realista para una empresa convencional. No es un Qwen3.5 9B que se puede desplegar en una sola GPU.
¿Merece la pena probarlo?
Kimi K2.5 es, objetivamente, el mejor modelo chino de IA a marzo de 2026. Cuarto lugar mundial, clúster de élite, la tecnología única de Agent Swarm – no es marketing, son resultados de pruebas independientes.
Para un manager, la recomendación depende del contexto. Si necesitas una herramienta versátil con búsqueda potente, análisis y capacidades agénticas – Kimi K2.5 merece que lo pruebes. Especialmente si tus tareas incluyen trabajar con múltiples fuentes, preparar informes o investigaciones de múltiples pasos.
Si tu prioridad es la relación calidad-precio y necesitas un modelo asequible para tareas cotidianas – DeepSeek V3.2 sigue siendo una excelente opción, a un tercio del precio. Si el foco está en gestión de equipos, tareas de HR y feedback – GLM-5 sigue siendo el n.º 1 en esa categoría.
Es sorprendente que el modelo chino más potente de marzo de 2026 no sea aquel del que más se habló a principios de año. Kimi K2.5 superó tanto a DeepSeek como a Qwen sin grandes declaraciones. Esto invita a preguntarse: ¿hasta qué punto el hype mediático es un indicador fiable a la hora de elegir una herramienta de trabajo?
Entra en kimi.com, inicia sesión con Google y dedica una hora a probarlo. El nivel gratuito es suficiente para formarte tu propia opinión.
Analizamos Kimi K2.5 y otras herramientas de IA en la práctica
9 lecciones de diagnóstico: prueba Kimi K2.5 y otros modelos en tareas reales – y descubre qué errores cometen la mayoría de los managers. Sin registro.
Continúa aprendiendo
Abre el libro de texto y continúa donde lo dejaste



