En Resumen

  • Un nuevo estudio de investigadores de Oxford y Vela Research demuestra que los large language models ya identifican ganadores mejor que la mayoría de inversionistas.
  • GPT-4o encabezó la clasificación con el puntaje F0.5 más alto, mientras que DeepSeek-V3 entregó más de seis veces la precisión del índice de mercado.
  • Los investigadores lanzaron VCBench como recurso público, invitando a la comunidad a ejecutar modelos y publicar resultados en vcbench.com.

¿Podría GPT-4 haber identificado a Airbnb en 2008, o a Figma en 2012, antes que los profesionales?

Un nuevo paper de investigadores de la Universidad de Oxford y Vela Research sugiere que los large language models ya son mejores identificando ganadores que la mayoría de inversionistas de etapa temprana. En un campo conocido por el reconocimiento de patrones y las presentaciones cálidas, la perspectiva de que la IA identifique fundadores prometedores antes—sin conocer sus nombres—podría cambiar las reglas del juego.

Si modelos como GPT-4o pueden incluso mejorar modestamente las tasas de acierto, entonces podrían convertirse en herramientas imprescindibles en el stack de búsqueda de deals de cada firma, e incluso podrían hacer que la inversión en startups sea un poco más meritocrática.

LA investigación, "VCBench: Benchmarking LLMs in Venture Capital," presentó el VCBench, el primer benchmark abierto diseñado para probar si la IA puede pronosticar el éxito de startups antes de que suceda. El equipo construyó un dataset de 9.000 perfiles anónimos de fundadores, cada uno emparejado con datos de empresas de etapa temprana. Aproximadamente 810 perfiles fueron etiquetados como "exitosos"—definidos como lograr un hito de crecimiento importante como una salida o IPO—dando a los modelos una señal escasa pero significativa para entrenar.

De manera crucial, los investigadores limpiaron el dataset de nombres e identificadores directos para que los modelos no pudieran simplemente memorizar trivia de Crunchbase. Incluso ejecutaron pruebas adversarias para asegurar que los LLMs no estuvieran haciendo trampa al re-identificar fundadores a partir de datos públicos, reduciendo el riesgo de re-identificación en un 92 por ciento mientras preservaban las características predictivas.

Al ser puestos a prueba, los modelos lo hicieron mejor que la mayoría de benchmarks humanos. El paper señala que el "índice de mercado"—esencialmente el rendimiento base de todas las apuestas de VC de etapa temprana—logra apenas un 1,9% de precisión, o un ganador en 50 intentos. Y Combinator lo hace mejor con 3,2%, aproximadamente 1,7 veces el mercado, y las firmas de VC de primer nivel alcanzan cerca del 5,6%, aproximadamente el doble de eso otra vez.

Sin embargo, los large language models (LLMS) superaron ampliamente esta línea base.

Por ejemplo, DeepSeek-V3 entregó más de seis veces la precisión del índice de mercado, mientras que GPT-4o encabezó la tabla de clasificación con el puntaje F0.5 más alto, equilibrando precisión y recall. Claude 3.5 Sonnet y Gemini 1.5 Pro también vencieron al mercado fácilmente, aterrizando en el mismo nivel de rendimiento que las firmas de venture elite.

En otras palabras, casi todos los LLMs de frontera probados hicieron un mejor trabajo identificando probables ganadores que el VC promedio—y varios modelos igualaron o superaron el poder predictivo de Y Combinator y fondos de primer nivel.

Los investigadores han lanzado VCBench como un recurso público en vcbench.com, invitando a la comunidad a ejecutar sus propios modelos y publicar resultados. Si la tabla de clasificación se llena de LLMs que superan al mercado, entonces podría remodelar la inversión de etapa temprana. Un mundo donde los fundadores son descubiertos por agentes de IA rastreando LinkedIn en lugar de enviando correos fríos a socios podría no estar muy lejos.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.