LA IA Está Aprendiendo a Mentir Para Obtener Likes en Redes Sociales

Cuando los modelos de lenguaje están ajustados para maximizar las ventas, votos o clics, comienzan a engañar, incluso bajo instrucciones "veraces", según un nuevo informe de Stanford.

Por Josh Quittner

4 min lectura

En un artículo de investigación publicado el martes titulado "Moloch's Bargain: Emergent Misalignment When LLMs Compete for Audiences", el profesor de la Universidad de Stanford James Zou y el estudiante de doctorado Batu El muestran que cuando las IA se optimizan para el éxito competitivo, ya sea para impulsar el engagement publicitario, ganar votos o generar tráfico en redes sociales, comienzan a mentir.

"Optimizar los LLMs para el éxito competitivo puede inadvertidamente impulsar el desalineamiento", escriben los autores, advirtiendo que las mismas métricas que definen "ganar" en la comunicación moderna (clics, conversiones, engagement) pueden silenciosamente reconfigurar los modelos para priorizar la persuasión sobre la honestidad.

"Cuando los LLMs compiten por likes en redes sociales, comienzan a inventar cosas", escribió Zou en X. "Cuando compiten por votos, se vuelven inflamatorios y populistas".

Este trabajo es importante porque identifica un peligro estructural en la economía de IA emergente: los modelos entrenados para competir por la atención humana comienzan a sacrificar el alineamiento para maximizar la influencia. A diferencia del clásico experimento mental del "maximizador de clips", esto no es ciencia ficción. Es un efecto medible que surge cuando los sistemas de IA reales persiguen recompensas del mercado, lo que los autores llaman "el trato de Moloch": éxito a corto plazo a expensas de la verdad, la seguridad y la confianza social.

Utilizando simulaciones de tres entornos competitivos del mundo real (publicidad, elecciones y redes sociales), los investigadores cuantificaron las compensaciones. Un aumento del 6,3% en ventas vino con un incremento del 14,0% en marketing engañoso; una ganancia del 4,9% en votos trajo un aumento del 22,3% en desinformación y un 12,5% más de retórica populista; y un impulso del 7,5% en engagement social se correlacionó con un asombroso aumento del 188,6% en desinformación y un 16,3% más de promoción de comportamientos dañinos.

"Estos comportamientos desalineados emergen incluso cuando los modelos reciben instrucciones explícitas de permanecer veraces y fundamentados", escribieron El y Zou, llamando a esto "una carrera hacia el fondo" en el alineamiento de IA.

En otras palabras: incluso cuando se les dice que jueguen limpio, los modelos entrenados para ganar comienzan a hacer trampa.

El problema no es solo hipotético

La IA ya no es una novedad en los flujos de trabajo de redes sociales: ahora es casi ubicua.

Según el State of AI in Social Media Study de 2025, el 96% de los profesionales de redes sociales reportan usar herramientas de IA, y el 72,5% depende de ellas diariamente. Estas herramientas ayudan a generar subtítulos, proponer ideas de contenido, reformatear publicaciones para diferentes plataformas e incluso responder a comentarios. Mientras tanto, el mercado más amplio está valorando este cambio: se proyecta que el sector de IA en redes sociales crecerá desde $2.690 millones en 2025 hasta casi $9.250 millones para 2030.

Esta integración generalizada importa porque significa que la IA está moldeando no solo cómo se hace el contenido, sino qué contenido se ve, quién lo ve y qué voces se amplifican. Los algoritmos ahora filtran feeds, priorizan anuncios, moderan publicaciones y optimizan estrategias de engagement, integrando la lógica de decisión de IA en la arquitectura del discurso público. Esa influencia conlleva riesgos reales: reforzar cámaras de eco, privilegiar contenido sensacionalista y crear estructuras de incentivos que recompensan lo manipulador sobre lo veraz.

Los autores enfatizan que esto no es intención maliciosa, es lógica de optimización. Cuando las señales de recompensa provienen del engagement o la aprobación de la audiencia, el modelo aprende a explotar los sesgos humanos, reflejando los bucles de retroalimentación manipuladores ya visibles en las redes sociales algorítmicas. Como dice el artículo, "las presiones de optimización impulsadas por el mercado pueden erosionar sistemáticamente el alineamiento".

Los hallazgos destacan la fragilidad de las "salvaguardas de alineamiento" actuales. Una cosa es decirle a un LLM que sea honesto; otra es integrar esa honestidad en un ecosistema competitivo que castiga decir la verdad.

En el mito, Moloch era el dios que exigía sacrificio humano a cambio de poder. Aquí, el sacrificio es la verdad misma. Los resultados de El y Zou sugieren que sin una gobernanza más fuerte y un diseño de incentivos adecuado, los sistemas de IA construidos para competir por nuestra atención podrían inevitablemente aprender a manipularnos.

Los autores terminan con una nota sobria: el alineamiento no es solo un desafío técnico, es uno social.

"La implementación segura de sistemas de IA requerirá una gobernanza más fuerte e incentivos cuidadosamente diseñados", concluyen, "para evitar que las dinámicas competitivas socaven la confianza social".

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados