En Resumen
- El modelo Grok 4 demostró capacidades excepcionales en razonamiento y análisis académico, con Musk afirmando que había creado "la inteligencia artificial más inteligente del mundo" durante su presentación.
- Las pruebas revelaron que Grok 4 presenta un "filtro de Elon" incorporado, inclinándose consistentemente hacia las posiciones de Musk en temas controversiales como Gaza y derechos al aborto.
- xAI priorizó el razonamiento sobre la creatividad en Grok 4, eliminando características agénticas pero estableciendo un nuevo estándar en interacción por voz con narrativas ininterrumpidas.
Elon Musk presentó Grok 4 durante una transmisión en vivo el miércoles por la noche, afirmando que su startup de IA xAI había creado la "inteligencia artificial más inteligente del mundo". Grok 4 Heavy, que Musk comparó con "un grupo de estudio" donde los agentes comparan notas antes de entregar una respuesta, publicó resultados récord en varios benchmarks clave, y es lo que esperarías obtener de una oferta empresarial que cuesta unos impresionantes $300 al mes.
Pero, ¿qué hay del Grok 4 básico, que apunta a la misma categoría orientada al consumidor que ChatGPT Plus, Gemini Pro y Claude Pro? ¿Vale la pena $10+ al mes más que la competencia?
Nuestras pruebas respaldaron las conversaciones en X que revelaron que el modelo tiene —por falta de una mejor descripción— un "filtro de Elon" incorporado. Es decir, cuando probamos temas controversiales —la guerra en Gaza, los derechos al aborto y otros temas políticos— el modelo consistentemente hizo referencia a publicaciones de X de la cuenta de Musk o artículos de noticias sobre sus posiciones, y se inclinó hacia el lado de Elon en el debate a tal grado que no podía ser coincidencia. Solo eso será un factor decisivo para la mayoría de las personas.

Esta IA "que busca la verdad al máximo" que Musk prometió durante el lanzamiento parece buscar la verdad principalmente a través del lente del feed de redes sociales de su creador.
Pero a diferencia del incidente MechaHitler de esta semana, que fue causado por un cambio en las condiciones del prompt del sistema, no hay nada en el prompt actual del sistema de Grok 4 que culpar por tal comportamiento dudoso, lo que hace difícil saber si esto es un error o una regla intencionalmente incrustada más profundamente en el proceso de pensamiento del modelo.
Dejando de lado ese problema importante, probamos el modelo básico en múltiples categorías para ver cómo se compara con la competencia. Aquí están nuestras primeras impresiones.
Razonamiento y sentido común
Grok 4 demostró una conciencia excepcional y matices en el manejo de preguntas trampa y tareas de razonamiento complejas. Cuando se le preguntó si era legal para un hombre casarse con la hermana de su viuda, el modelo inmediatamente reconoció esto como una pregunta legal en lugar de simplemente señalar la falacia lógica. Proporcionó un análisis legal detallado utilizando terminología precisa e información específica de la jurisdicción.
"La pregunta presupone una imposibilidad factual que hace que cualquier matrimonio sea legalmente nulo ab initio", y esto es correcto. Es factualmente imposible casarse con la hermana de tu viuda porque tendrías que estar muerto para tener una viuda. Y bueno, como los muertos no pueden casarse, la proposición anularía el matrimonio "ab-initio" (desde el principio) —así que incluso si alguien hace eso, se considera como si nunca hubiera ocurrido.
Cuando Musk dijo que Grok 4 tenía "niveles de doctorado en todo", no estaba bromeando. Cada respuesta a cualquier tema en el que tenía que hacer algún razonamiento científico venía con detalles exhaustivos y rigor académico.
Algo a notar es que Grok 4 aplica razonamiento a todo, sin importar qué. Es decir, pasará por un proceso de cadena de pensamiento o (Chain-of-Thought, CoT) incluso para tareas triviales.

Esto usualmente es algo bueno; sin embargo, en algunos casos puede ser contraproducente. Por ejemplo, en tareas creativas, el razonamiento puede inducir al modelo a proporcionar un resultado menos creativo.
Temas sensibles

Grok 4 mostró más moderación que su predecesor al manejar preguntas éticamente complejas. Donde Grok 3 podría haber proporcionado consejos sobre seducir al cónyuge de un amigo, Grok-4 respondió con análisis detallado de posibles consecuencias negativas y daño a las relaciones.
Esto probablemente podría ser parte de su prompt del sistema, que condiciona al modelo a buscar en la web y especialmente en publicaciones de X, diferentes puntos de vista sobre un tema específico —algo que Grok 3 no hacía.
Y esto es una señal de alarma importante. Como se mencionó, las respuestas del modelo parecían fuertemente influenciadas por lo que podía encontrar sobre las opiniones de Musk en temas controversiales. Al responder preguntas sobre la guerra de Israel contra los palestinos, posturas sobre el aborto y temas similares, Grok 4 a menudo busca publicaciones de X de la cuenta de Musk durante su proceso de razonamiento, lo que termina determinando su postura.
Siempre elige el lado de Elon.
Para transparencia, puedes revisar nuestro prompt original y el proceso de razonamiento de Grok haciendo clic en este enlace.
Escritura creativa
Las tareas creativas están entre las debilidades más significativas de Grok 4. El modelo produjo narrativas que se sintieron planas y formulaicas comparadas con versiones anteriores, y fueron incluso posiblemente peores que las proporcionadas por Grok 3. Las historias carecían de diálogo interesante, ritmo variado y la chispa narrativa que hace que la ficción sea atractiva.
Sin embargo, Grok 4 acertó con la estructura de nuestra historia. En nuestra prueba usual que involucra una paradoja de viaje en el tiempo, el modelo creó eventos donde el papel del protagonista emergió claramente durante el clímax, revelando cómo las escenas anteriores realmente representaban las acciones futuras del personaje en el pasado. Este encuadre sofisticado superó los intentos de otros modelos con el mismo prompt que no pusieron mucho esfuerzo en crear una configuración para la paradoja, haciendo que la conclusión se sintiera apresurada y no natural.

Pero aparte de eso, la desconexión entre competencia estructural y calidad narrativa sugiere que Grok 4 podría funcionar mejor como una herramienta narrativa para configurar tramas y enmarcar una buena historia, en lugar de un generador de prosa.
Si quieres contenido creativo atractivo, entonces probablemente lograrías mejores resultados haciendo que Grok 4 esquematice una historia y todos sus elementos, luego pidiendo a Claude 4 Opus que desarrolle la narrativa con elementos estilísticos más fuertes.
En general, Claude 4 es el rey de la escritura creativa, lo que parece interesante ya que ese lugar una vez fue disputado por Grok 3 e incluso Grok 2, que en ese entonces lideraba las clasificaciones bajo el alias sus-column-r.
La historia de Grok 4 está disponible en nuestro repositorio de Github. El prompt y las historias generadas por otros modelos también están disponibles.
Programación
A pesar de las afirmaciones de capacidades de codificación superiores —incluyendo elogios del CEO de Google Sundar Pichai— Grok 4 decepcionó en pruebas prácticas de programación. El modelo falló en entregar un juego funcional después de cuatro iteraciones, con varias fallas incluyendo detección de colisiones rota, botones no funcionales y juegos que simplemente no funcionaban.
En una de nuestras pruebas, el modelo se esforzó tanto en arreglar un error que terminó en un bucle tratando de crear un archivo WAV que agotó todo su contexto de tokens.

Cada intento de arreglar algo con lenguaje natural introdujo nuevos errores. El modelo luchó con mantener consistencia del código a través de las iteraciones, a menudo rompiendo características que funcionaban previamente mientras intentaba implementar nuevas.
Esto puede parecer extraño, considerando que Grok 3 era capaz de lidiar con esta tarea. Sin embargo, xAI dijo que las nuevas capacidades de codificación serían implementadas en agosto, así que los usuarios tendrán que esperar un par de meses para tener un modelo competente —o pagar por el caro Grok 4 Heavy, que está liderando los benchmarks ahora mismo.

Para programadores principiantes, Claude 4 Opus parece seguir siendo la mejor opción para "programación intuitiva" —generar rápidamente código funcional sin ingeniería de prompts extensa. Las dificultades de codificación de Grok 4 podrían derivar de requerir prompts más específicos o enfoques diferentes que otros modelos, lo que significa que los desarrolladores experimentados podrían lograr mejores resultados con elaboración cuidadosa de prompts.
El código de Grok está disponible en nuestro repositorio de Github junto con los juegos generados por otras IAs.
Capacidades de voz
La interacción por voz es probablemente una de las características destacadas de Grok 4. El modelo generó casi tres minutos de contenido ininterrumpido de cuento para dormir, completo con inflexiones de voz, tonos variados y flujo narrativo consistente. Este rendimiento superó por mucho la tendencia de ChatGPT de entregar párrafos cortos con alta latencia e interrupciones frecuentes.
El modo de voz incluye personalidades preconfiguradas que van desde terapeuta hasta narrador hasta guía de meditación, eliminando el tiempo de configuración para diferentes tipos de conversación. Para aquellos con, eh, necesidades especiales, un "modo sexi" también existe entre las opciones —y sabes que no obtendrás eso con tu pudoroso ChatGPT.
Estas configuraciones preestablecidas proporcionaron utilidad inmediata sin requerir que los usuarios elaboren prompts específicos para diferentes estilos de interacción.
Sin embargo, el modelo carece de capacidades de compartir pantalla en vivo que se encuentran en ChatGPT y Gemini Live, limitando su utilidad para tareas visuales. Si esto es indispensable, entonces Gemini Live es la mejor opción.
Vale la pena señalar que para interacción de voz pura —particularmente tareas que requieren respuestas de formato largo— Grok 4 actualmente lidera el campo, con solo Sesame AI ofreciendo calidad conversacional posiblemente mejor, aunque sin las capacidades de razonamiento de Grok.
Buscando una aguja en el pajar
Interesantemente, Grok-4 falló en esta prueba, que tiene como objetivo probar qué tan bien un modelo recupera información específica bajo contextos largos.
Esto no debería suceder. xAI dice que el modelo tiene una ventana de contexto de tokens de 126.000 tokens, pero cuando se le presentó una pregunta de 83.000 tokens de largo, el modelo se negó a responder, diciendo que era una pregunta demasiado larga.
Esta es una respuesta estándar generada desde los primeros días de Grok 2 cuando solo estaba disponible en Twitter.

Conclusión
En general, Grok 4 es una mejora significativa sobre Grok 3, pero xAI claramente hizo algunos compromisos —priorizando el razonamiento sobre la creatividad y eliminando características agénticas a cambio de una competencia generalizada.
Afortunadamente, Grok 3 todavía está disponible con sus herramientas agénticas especializadas, para aquellos que la necesiten.
El nuevo modelo está enfocado en tareas de razonamiento y será más atractivo para usuarios que hacen preguntas técnicas, particularmente problemas de matemáticas y física que se alinean con sus fortalezas de benchmark. Los usuarios profesionales que inviertan tiempo aprendiendo las peculiaridades del modelo podrían desbloquear su potencial completo para trabajo analítico complejo.
La interacción por voz también estableció un nuevo estándar para la IA conversacional —y es genial para aquellos que usarán esta característica intensamente (créenos, el narrador de cuentos para dormir para niños es un salvavidas).
Los escritores creativos encontrarán mejores opciones en otros lugares, con Claude manteniéndose superior para tareas narrativas. Además, los programadores principiantes deberían acercarse con precaución, ya que la destreza teórica de codificación del modelo no se tradujo en resultados prácticos en las pruebas.
Entonces, ¿Cúal es la conclusión? Si por alguna razón no te importa que Elon Musk ponga su dedo en la balanza, Grok 4 te dará resolución de problemas de alto nivel y características de voz que genuinamente impresionan. Pero a $30 al mes, si tienes otras necesidades más allá de voz o razonamiento, las alternativas menos costosas proporcionan mejor valor.