En Resumen
- Microsoft Research publicó MATHVISTA, benchmark que reveló que GPT-4 Vision lidera con 49,9% frente al 60,3% humano.
- El estudio evaluó 12 modelos como ChatGPT, Gemini y Claude en razonamiento matemático visual con gráficos y diagramas.
- Investigadores advirtieron que puntajes altos pueden reflejar memorización de datos, no capacidad real de razonamiento.
La inteligencia artificial general, o AGI, suele describirse como un sistema capaz de desempeñarse en múltiples dominios tal como lo hacen los humanos. Los resultados publicados esta semana del benchmark MATHVISTA muestran que los modelos actuales aún no alcanzan ese objetivo.
Investigadores de Microsoft Research, Sahara AI y la Universidad de Emory evaluaron capacidades fundamentales para la inteligencia general: el razonamiento matemático basado en información visual, como gráficos, tablas y diagramas.
En 12 modelos de fundación evaluados, como ChatGPT, Gemini y Claude, GPT-4 Vision obtuvo la puntuación más alta con un 49,9%. Los participantes humanos promediaron un 60,3%, lo que evidencia la brecha entre los sistemas de IA actuales y la capacidad de razonamiento amplio asociada a la AGI.
"Queremos que la máquina haga lo que una persona normal y promedio puede hacer en sus tareas cotidianas", señaló Hao Cheng, investigador principal de Microsoft Research, a Decrypt. "Eso es básicamente lo que todos persiguen con la AGI".
Al presentar problemas en imágenes, diagramas y gráficos, el proyecto evalúa si los modelos pueden interpretar con precisión información visual y resolver problemas matemáticos y lógicos de varios pasos, habilidades que van más allá del reconocimiento de patrones en texto.
Los modelos aún tienen dificultades con estas tareas, y medir esa limitación resulta complejo.
Cuando el equipo de Cheng revisó los conjuntos de datos de evaluación existentes, muchos incluían problemas que no requerían razonamiento visual. Los modelos frecuentemente llegaban a respuestas correctas apoyándose únicamente en texto.
"Lo cual no es ideal", afirmó Cheng.
MathVista, disponible en GitHub y Hugging Face, se lanzó en octubre de 2023. Desde entonces, ha sido descargado más de 275.000 veces, incluyendo más de 13.000 descargas en el último mes, según Microsoft Research.
Sin embargo, crear el conjunto de datos requirió más que el etiquetado estándar de datos. Microsoft necesitaba anotadores capaces de resolver problemas de aritmética, álgebra, geometría y estadística, y a la vez distinguir entre razonamiento matemático profundo, como interpretar gráficos o resolver ecuaciones, y tareas más simples como contar objetos o leer números.
Tras una fase piloto, Microsoft seleccionó a Sahara AI para apoyar el esfuerzo. La empresa aportó anotadores capacitados, flujos de trabajo personalizados y controles de calidad en múltiples etapas para producir más de 6.000 ejemplos multimodales utilizados en el benchmark.
Sin benchmarks confiables, medir el avance hacia una inteligencia de máquina más amplia se vuelve difícil, según Sean Ren, CEO de Sahara AI y profesor asociado de informática en la USC.
"Existe este matiz de la contaminación de datos, donde una vez que comenzamos a usar este conjunto de datos para evaluar, esos resultados quedan incorporados en la siguiente versión", dijo Ren a Decrypt. "Entonces realmente no sabes si están resolviendo solo un conjunto de datos, o si tienen la capacidad".
Si las respuestas del benchmark aparecen en los datos de entrenamiento de un modelo, las puntuaciones altas pueden reflejar memorización en lugar de razonamiento, lo que dificulta determinar si los sistemas de IA están mejorando realmente.
Los investigadores también apuntan a las limitaciones en los datos de entrenamiento. Gran parte del internet público ya ha sido incorporada a los conjuntos de datos de los modelos.
"Definitivamente necesitas alguna forma de inyectar nuevo conocimiento en este proceso", agregó Cheng. "Creo que este tipo de cosas tiene que venir de datos de alta calidad para que podamos realmente superar esta frontera del conocimiento".
Un camino propuesto implica entornos simulados donde los modelos puedan interactuar, aprender de la experiencia y mejorar a través de la retroalimentación.
"Creas un mundo gemelo o un espejo del mundo real dentro de algún entorno sandbox para que el modelo pueda explorar y hacer muchas de las cosas que los humanos hacen en la vida real, de modo que pueda básicamente superar la frontera del internet", señaló Cheng.
Ren afirmó que los humanos aún podrían desempeñar un papel importante en la mejora de los sistemas de IA. Si bien los modelos pueden generar contenido rápidamente, los humanos siguen siendo más hábiles para evaluarlo.
"Esa brecha entre humanos e IA, en lo que cada uno es bueno y en lo que no, puede aprovecharse para realmente mejorar la IA en el futuro", concluyó.

