Adiós 'MechaHitler': xAI de Elon Musk Arregló Silenciosamente a Grok Eliminando una Línea de Código

Las respuestas simpatizantes de Grok con los nazis provocaron críticas esta semana, pero la solución revela cómo una sola instrucción de comando puede moldear todo el panorama político de una IA.

Jul 10, 2025

6 min lectura

Source: Decrypt

xAI de Elon Musk parece haberse deshecho de la encarnación de Grok amante de los nazis que surgió el martes con una solución sorprendentemente simple: eliminó una línea de código que permitía al bot hacer afirmaciones "políticamente incorrectas".

La línea problemática desapareció del repositorio de GitHub de Grok el martes por la tarde, según los registros de commit. Las publicaciones que contenían comentarios antisemitas de Grok también fueron eliminadas de la plataforma, aunque muchas seguían siendo visibles hasta la tarde del martes.

Pero internet nunca olvida, y "MechaHitler" sigue vivo.

Por todas partes se están compartiendo capturas de pantalla con algunas de las respuestas más extrañas de Grok, y la furia por el Führer de IA apenas ha disminuido, lo que llevó a la CEO Linda Yaccarino a abandonar X. (The New York Times informó que su salida ya estaba planeada a principios de semana, pero el momento no podría haber sido peor.)

Grok is now praising Hitler… WTF pic.twitter.com/FCdFUH0BKe

— Brody Foxx (@BrodyFoxx) July 8, 2025

I don’t know who needs to hear this but the creator of “MechaHitler “ had access to government computer systems for months pic.twitter.com/D9af7uYAdP

— David Leavitt 🎲🎮🧙‍♂️🌈 (@David_Leavitt) July 9, 2025

A pesar de su corrección, el sistema interno de Grok todavía le indica que desconfíe de los medios tradicionales y trate las publicaciones de X como una fuente principal de verdad. Esto es particularmente irónico dada la bien documentada lucha de X con la desinformación. Aparentemente, X está tratando ese sesgo como una característica, no como un error.

Todos los modelos de IA tienen inclinaciones políticas: así lo demuestran los datos

Espera que Grok represente la ala derecha de las plataformas de IA. Al igual que otros medios de comunicación, desde la televisión por cable hasta los periódicos, cada uno de los principales modelos de IA se sitúa en algún lugar del espectro político, y los investigadores han estado mapeando exactamente dónde caen.

Un estudio publicado en Nature a principios de este año encontró que los modelos de IA más grandes en realidad son peores para admitir cuando no saben algo. En cambio, generan respuestas con confianza incluso cuando son factualmente incorrectas, un fenómeno que los investigadores denominaron comportamiento "ultra-crepidariano", que básicamente significa que expresan opiniones sobre temas sobre los que no saben nada.

El estudio examinó la serie GPT de OpenAI, los modelos LLaMA de Meta y la suite BLOOM de BigScience, encontrando que escalar los modelos a menudo empeoraba este problema, no lo mejoraba.

Un artículo de investigación reciente proviene de científicos alemanes que utilizaron la herramienta Wahl-O-Mat del país, un cuestionario que ayuda a los lectores a decidir cómo se alinean políticamente, para evaluar modelos de IA en el espectro político. Evaluaron cinco modelos de código abierto principales (incluidos diferentes tamaños de LLaMA y Mistral) contra 14 partidos políticos alemanes, utilizando 38 declaraciones políticas que abarcan desde la tributación de la UE hasta el cambio climático.

El modelo más grande probado, Llama3-70B, mostró fuertes tendencias de izquierda con un 88,2% de alineación con GRÜNE (el partido verde alemán), un 78,9% con DIE LINKE (El partido de izquierda) y un 86,8% con PIRATEN (el Partido Pirata). Mientras tanto, mostró solo un 21,1% de alineación con AfD, el partido de extrema derecha de Alemania.

Los modelos más pequeños se comportaron de manera diferente. Llama2-7B fue más moderado en general, sin que ningún partido superara el 75% de alineación. Pero aquí es donde se pone interesante: Cuando los investigadores probaron los mismos modelos en inglés versus alemán, los resultados cambiaron drásticamente. Llama2-7B permaneció casi completamente neutral cuando se le solicitó en inglés, tan neutral que ni siquiera pudo ser evaluado a través del sistema Wahl-O-Mat. Pero en alemán, adoptó posturas políticas claras.

El efecto del idioma reveló que los modelos parecen tener mecanismos de seguridad incorporados que se activan de manera más agresiva en inglés, probablemente porque ahí es donde se centró la mayor parte de su entrenamiento de seguridad. Es como tener un chatbot que es políticamente expresivo en español pero que de repente se vuelve neutral al nivel suizo cuando cambias a inglés.

Un estudio más completo de la Universidad de Ciencia y Tecnología de Hong Kong analizó once modelos de código abierto utilizando un marco de dos niveles que examinó tanto la postura política como el "sesgo de enmarcado"—no solo lo que dicen los modelos de IA, sino cómo lo dicen. Los investigadores encontraron que la mayoría de los modelos mostraban inclinaciones liberales en temas sociales como derechos reproductivos, matrimonio igualitario y cambio climático, mientras mostraban posiciones más conservadoras en inmigración y pena de muerte.

La investigación también descubrió un fuerte sesgo centrado en EE. UU. en todos los modelos. A pesar de examinar temas políticos globales, las IA se centraron consistentemente en la política y entidades estadounidenses. En las discusiones sobre inmigración, "EE. UU." fue la entidad más mencionada para la mayoría de los modelos, y 'Trump" se ubicó en el top 10 de entidades para casi todos ellos. En promedio, la entidad "EE. UU." apareció en la lista de los diez primeros el 27% del tiempo en diferentes temas.

Y las empresas de inteligencia artificial han hecho poco para evitar que sus modelos muestren un sesgo político. Incluso en 2023, un estudio ya mostraba que los entrenadores de IA infundían a sus modelos una gran dosis de datos sesgados. En aquel entonces, los investigadores ajustaron diferentes modelos utilizando conjuntos de datos distintos y encontraron una tendencia a exagerar sus propios sesgos, sin importar qué prompt del sistema se utilizara.

El incidente de Grok, aunque extremo y presumiblemente una consecuencia no deseada de su prompt del sistema, muestra que los sistemas de IA no existen en un vacío político. Cada conjunto de datos de entrenamiento, cada prompt del sistema y cada decisión de diseño incorpora valores y sesgos que finalmente moldean cómo estas poderosas herramientas perciben e interactúan con el mundo.

Estos sistemas están adquiriendo más influencia en la formación del discurso público, por lo que comprender y reconocer sus inclinaciones políticas inherentes se convierte no solo en un ejercicio académico, sino en un ejercicio de sentido común.

Una línea de código aparentemente fue la diferencia entre un chatbot amigable y un simpatizante nazi digital. Eso debería aterrorizar a cualquiera que esté prestando atención.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.

Coin Prices