La IA No Está Tomando tu Trabajo Todavía, Pero GDPval de OpenAI Sugiere Que Podría Hacerlo Muy Pronto

El nuevo benchmark de OpenAI muestra que Claude y GPT-5 igualan a expertos humanos en tareas laborales reales. ¿La peor parte? Los modelos mejoraron un 300% en solo 15 meses.

Por Jose Antonio Lanz

5 min lectura

OpenAI presentó GDPval, un benchmark que intenta evaluar cualitativamente si la IA puede hacer tu trabajo real.

Estas no son preguntas hipotéticas de examen, sino entregables reales: informes legales, planos de ingeniería, planes de atención de enfermería, reportes financieros, el tipo de trabajo que paga hipotecas. Los investigadores se enfocaron deliberadamente en ocupaciones donde al menos el 60% de las tareas son basadas en computadora, roles que describen como "predominantemente digitales".

Ese alcance cubre servicios profesionales como desarrolladores de software, abogados, contadores y gerentes de proyectos; posiciones de finanzas y seguros como analistas y representantes de servicio al cliente; y trabajos del sector de información que van desde periodistas y editores hasta productores y técnicos audiovisuales. La administración de atención médica, roles manufactureros de cuello blanco y gerentes de ventas o bienes raíces también figuran prominentemente.

Dentro de ese conjunto, el trabajo más expuesto a la IA se superpone con los tipos de actividades digitales intensivas en conocimiento que los large language models ya manejan bien:

  • El desarrollo de software, que representa el mayor pool salarial en el dataset, se destaca como especialmente vulnerable.
  • El trabajo legal y contable, con su fuerte dependencia de documentos y razonamiento estructurado, también está alto en la lista, al igual que los analistas financieros y representantes de servicio al cliente.
  • Los roles de producción de contenido—editores, periodistas y otros trabajadores de medios—enfrentan presiones similares dada la creciente fluidez de la IA en generación de lenguaje y multimedia.

La ausencia de trabajos manuales y de labor física en el estudio destaca sus límites: GDPval no fue diseñado para medir exposición en campos como construcción, mantenimiento o agricultura. En cambio, subraya el punto de que la primera ola de disrupción probablemente golpeará trabajos de cuello blanco basados en oficina, precisamente los tipos de trabajo que se asumía estaban más aislados de la automatización.

El reporte se basa en un estudio de hace dos años de OpenAI/Universidad de Pennsylvania que afirmó que hasta el 80% de los trabajadores de EE.UU. podrían ver al menos el 10% de sus tareas afectadas por LLMs, y alrededor del 19% de los trabajadores podrían ver al menos el 50% de sus tareas afectadas. Los trabajos más amenazados (o transformados) son de cuello blanco, pesados en conocimiento, especialmente en derecho, escritura, análisis e interacción con clientes.

Sin embargo, la parte inquietante no son los números de hoy. Es la trayectoria. A este ritmo, las estadísticas sugieren que la IA podría igualar a expertos humanos en todos los ámbitos para 2027. Esto está realmente cerca de los estándares de AGI, y podría significar que incluso tareas consideradas inseguras o demasiado especializadas para automatización pronto podrían volverse accesibles para máquinas, amenazando transformaciones laborales rápidas.

OpenAI probó 1.320 tareas a través de 44 ocupaciones—no trabajos aleatorios, sino roles en los nueve sectores que impulsan la mayor parte del PIB de Estados Unidos. Desarrolladores de software, abogados, enfermeras, analistas financieros, periodistas, ingenieros: las personas que pensaron que sus títulos las protegerían de la automatización.

Cada tarea provenía de profesionales con un promedio de 14 años de experiencia—no pasantes o recién graduados, sino expertos experimentados que conocen su oficio. Las tareas tampoco eran simples, promediando siete horas de trabajo con algunas extendidas a múltiples semanas de esfuerzo.

Según OpenAI, los modelos completaron estas tareas hasta 100 veces más rápido y significativamente más barato que los humanos en algunas tareas específicas de API—lo cual es esperado y ha sido el caso por décadas. En tareas más especializadas, la mejora fue más lenta, pero aún notable.

Incluso considerando el tiempo de revisión y el ocasional rehacer cuando la IA alucinó algo bizarro, la economía se inclina fuertemente hacia la automatización.

Anímate: solo porque un trabajo esté expuesto no significa que desaparezca. Puede ser aumentado (por ejemplo, abogados y periodistas usando LLMs para escribir más rápido) en lugar de ser reemplazado.

Y por lejos que haya llegado la IA, las alucinaciones siguen siendo un dolor para los negocios. La investigación muestra que la IA falla más frecuentemente en seguir instrucciones—35% de las pérdidas de GPT-5 provinieron de no comprender completamente lo que se pedía. Los errores de formato plagaron otro 40% de las fallas.

Los modelos también lucharon con colaboración, interacción con clientes y cualquier cosa que requiera responsabilidad genuina, lo cual OpenAI dejó fuera del estudio. Nadie está demandando a una IA por mala práctica todavía. Pero para entregables digitales individuales—los reportes, presentaciones y análisis que llenan la mayoría de los días de trabajadores del conocimiento—la brecha se está cerrando rápidamente.

OpenAI admite que GDPval hoy cubre un número muy limitado de tareas que las personas hacen en sus trabajos reales. El benchmark no puede medir habilidades interpersonales, presencia física, o las mil micro-decisiones que hacen a alguien valioso más allá de sus entregables.

Aún así, cuando los bancos de inversión comienzan a comparar análisis de competidores generados por IA con aquellos de analistas humanos, cuando hospitales evalúan planes de atención de enfermería de IA contra aquellos de enfermeras experimentadas, y cuando firmas legales prueban informes de IA contra el trabajo de asociados—eso ya no es especulación. Eso es medición.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados