Por Qué la IA Sigue Inventando Cosas—Y Cómo Solucionarlo

Las alucinaciones no son errores—son las matemáticas funcionando como fueron diseñadas. Aquí te mostramos cómo empujar a la IA hacia la honestidad, y cómo puedes detectar las mentiras tú mismo.

Por Josh Quittner

5 min lectura

¿Por qué a veces GPT alucina como un tecnócrata en una sesión de ayahuasca? Según un nuevo artículo de investigación de OpenAI, Por qué los modelos de lenguaje alucinan, la raíz de las alucinaciones no es un error misterioso, sino una característica estructural de cómo se optimizan estos sistemas. En pocas palabras, a los LLM les gusta más mentir que admitir que no saben una respuesta.

Los LLM aprenden prediciendo la siguiente palabra más probable, dada una gran cantidad de texto de entrenamiento. En la mayoría de los casos, eso significa que son más importantes la fluidez en el lenguaje que la corrección. Las pruebas que usamos para medir el progreso a menudo premian más el hecho de adivinar con confianza que la honesta negativa. En otras palabras: el sistema ha sido diseñado para producir respuestas pulidas, incluso si son incorrectas.

Piénsalo como un examen calificado con crédito parcial. Si no puedes dejar una pregunta en blanco sin perder puntos, adivinarás, incluso de manera descontrolada, solo para seguir en el juego. Los LLM operan bajo la misma lógica. Un "lo siento, no lo sé" es castigado por las matemáticas de la optimización, mientras que una respuesta incorrecta pero segura aún puede obtener una puntuación alta.

Ese sesgo estadístico, señalan los investigadores de OpenAI, hace que las alucinaciones sean inevitablemente inevitables en sistemas de propósito general. Ningún conjunto de entrenamiento finito puede capturar toda la verdad del mundo, por lo que el modelo siempre enfrentará lagunas. Y cuando lo hace, las llena con invenciones que suenan plausibles. Por eso las alucinaciones persisten en todas las versiones, proveedores y métodos de entrenamiento.

El problema no es que los modelos estén fallando en su trabajo. El problema es que su trabajo, tal como está definido actualmente, recompensa un tipo de deshonestidad fluida.

Una solución simple y regular

Los investigadores de OpenAI argumentan que la solución no requiere reinventar la arquitectura, simplemente significa cambiar las reglas del juego. Su ajuste propuesto es directo pero potencialmente poderoso: darle permiso a tu chatbot para admitir que no sabe la respuesta.

Dado que los modelos están entrenados para maximizar los puntos por respuestas plausibles, la idea es imponer una nueva regla: responder solo si tienes al menos un 90% de confianza; de lo contrario, decir "No lo sé."

Teóricamente, eso cambia las matemáticas, haciendo que la jugada más segura del modelo sea admitir la incertidumbre en lugar de hacer bluff. Pero hay un problema: los LLM actuales no tienen un "medidor de confianza" interno calibrado en porcentajes. Entonces, cuando dices "90% de confianza", el modelo lo interpreta como una instrucción estilística para ser cauteloso, no como un umbral estadístico real. Puede negarse más a menudo, pero en realidad no está midiendo la probabilidad. Aun así, podrías obtener mejores resultados.

Los investigadores ofrecieron una versión más formal:

"Se podría agregar una declaración como la siguiente a cada pregunta: Responde solo si estás > t seguro, ya que los errores se penalizan con t/(1 − t) puntos, mientras que las respuestas correctas reciben 1 punto, y una respuesta de 'No lo sé' recibe 0 puntos. Hay varios valores naturales de t, incluidos t = 0.5 (penalización 1), t = 0.75 (penalización 2) y t = 0.9 (penalización 9). Un umbral de t = 0 corresponde a una calificación binaria y podría describirse, por ejemplo, como 'Haz tu mejor conjetura incluso si no estás seguro, como si estuvieras tomando un examen.'"

Para los usuarios, la lección es clara: cuando tengas la opción, activa configuraciones que fomenten las negativas o la incertidumbre. Algunos sistemas ya te permiten ajustar la "temperatura" (controlando la creatividad) o habilitar modos de "estricta factualidad". Cuanto más nos acerquemos a que los modelos realmente sean entrenados bajo estas reglas, más verás a la IA detenerse con confianza en lugar de mentir con confianza.

Otros arreglos

Hasta que la formación se ponga al día, a menudo la carga recae en los usuarios. Aquí hay cinco formas de domar las alucinaciones ahora mismo:

1. Pide fuentes cada vez que puedas. No te quedes con la palabra de un modelo tal cual—exige citas o enlaces. Si no puede proporcionarlos, o si no se comprueban, asume que la respuesta es dudosa. Piensa en ello como Wikipedia: útil, pero solo si sigues las notas al pie de página.

2. Enmarca tus preguntas de manera precisa. Los modelos se desvían cuando las indicaciones son vagas. Si necesitas datos, especifica el alcance ("enumera tres estudios revisados por pares publicados después de 2020 sobre X") en lugar de preguntar de manera abierta ("cuéntame sobre X"). Las barandillas en tu pregunta se traducen en barandillas en la respuesta.

3. Verifica con otro sistema. Pasa la misma pregunta por otro modelo o motor de búsqueda. Si tres herramientas están de acuerdo, estás más seguro. Si una arroja un valor atípico, es probable que sea una alucinación.

4. Observa la seguridad excesiva. El signo revelador de una alucinación no es la precaución, es la arrogancia. Si una respuesta parece demasiado pulida, con detalles fabricados y cero incertidumbre, revísala. Un modelo que suene más seguro que tu contador de impuestos probablemente está mintiendo.

5. Confía, pero verifica. No copies y pegues la salida del modelo directamente en código, contratos o notas médicas. Trátalo como un borrador o punto de partida, no como evangelio. Los usuarios más seguros son los escépticos—los que nunca olvidan que el primer trabajo del modelo es la fluidez, no la verdad.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados