En Resumen
- Reddit demandó a Perplexity AI alegando que la empresa y sus socios de datos SerpApi, Oxylabs y AWM Proxy orquestaron un esquema de extracción industrial accediendo sin autorización a casi tres mil millones de páginas de resultados de motores de búsqueda.
- Perplexity publicó su respuesta en Reddit señalando que la demanda es un triste ejemplo de lo que sucede cuando los datos públicos se convierten en parte del modelo de negocio de una empresa pública, afirmando que es lo opuesto a una internet abierta.
- El abogado Andrew Rossow indicó que tratar el contenido generado por humanos como un recurso gratuito es una forma de explotación laboral que devalúa las contribuciones en línea, argumentando que el conocimiento detrás de un LLM es producto del esfuerzo creativo de millones de usuarios.
La plataforma de redes sociales Reddit demandó el miércoles a Perplexity AI en un tribunal federal, alegando que la empresa de inteligencia artificial y sus socios de datos orquestaron un esquema de "escala industrial" para extraer el contenido generado por usuarios de la plataforma.
Reddit alega que los otros demandados: SerpApi, Oxylabs y AWM Proxy, desarrollaron y vendieron herramientas diseñadas específicamente para romper las medidas de seguridad que protegen su contenido, permitiendo la extracción a gran escala de datos de Reddit desde los resultados de búsqueda.
Supuestamente, las herramientas fueron construidas con la intención de eludir dos capas de protección: primero, evadiendo los propios sistemas anti-extracción de Reddit, y segundo, eludiendo los controles de Google para extraer contenido de Reddit directamente desde los resultados de su motor de búsqueda.
Las empresas de datos operaban como "proveedores de servicios de extracción de datos" y "eludieron las medidas de control tecnológico de Google y accedieron de forma automatizada, sin autorización, a casi tres mil millones de páginas de resultados de motores de búsqueda", señala una copia de la demanda.
Reddit afirma que Perplexity utilizó datos de las tres empresas para su motor de respuestas incluso después de recibir una carta de cese y desistimiento en mayo de 2024.
Un representante de Perplexity respondió y compartió una respuesta completa, publicada en Reddit.
Perplexity publicó intencionalmente su respuesta en Reddit "para ilustrar un punto simple: es un enlace público de Reddit accesible para cualquiera, sin embargo, según la lógica de la demanda de Reddit, si lo referencias de cualquier manera, ellos simplemente podrían demandarte también", señaló el representante a Decrypt.
Perplexity describió la demanda como "un triste ejemplo de lo que sucede cuando los datos públicos se convierten en una gran parte del modelo de negocio de una empresa pública".
"Reddit piensa que ese es su derecho. Pero es lo opuesto a una internet abierta", afirmó Perplexity.
Un representante de SerpApi dijo a Decrypt que no recibieron "ninguna comunicación o notificación de Reddit" sobre el asunto, agregando que "están en fuerte desacuerdo con las acusaciones de Reddit" y tienen la intención de buscar un recurso legal.
"Ninguna empresa debería reclamar propiedad de datos públicos que no le pertenecen. Es posible que sea solo un intento de vender los mismos datos públicos a un precio inflado", señaló Denas Grybauskas, director de gobernanza y estrategia de Oxylabs, a Decrypt en una declaración por correo electrónico.
Reddit de manera similar "no hizo ningún intento de hablar" con Oxylabs, agregó Grybauskas.
Decrypt se comunicó con Reddit, Google y AWM Proxy para comentarios y actualizará este artículo si responden.
Una maraña legal
En casos como este, los tribunales necesitarían examinar primero si los términos de servicio de plataformas como Reddit "abordan explícitamente el entrenamiento de IA, la extracción de datos y el uso comercial", señaló Andrew Rossow, abogado de asuntos públicos y director de asociaciones estratégicas en la plataforma de búsqueda de video e inteligencia de contenido Oriane, a Decrypt.
Si un usuario aceptó términos que "otorgan a la plataforma una licencia amplia, perpetua y libre de regalías sobre su contenido", esa licencia "generalmente rige la relación entre el usuario y la plataforma", explicó Rossow.
Sin embargo, no "otorga automáticamente a la empresa de IA una licencia" para hacer lo mismo, a menos que los términos permitieran a la plataforma "sublicenciar o vender los datos para ese propósito", agregó.
Los tribunales tendrían entonces que "distinguir entre los derechos de autor del usuario en su expresión (el texto de la publicación) y el uso del contenido para minería de datos (extracción de patrones, hechos y modelos de lenguaje)", explicó.
Sin embargo, el supuesto "conocimiento" detrás de un LLM (large-language model) "es el producto del tiempo, esfuerzo y expresión creativa de millones de usuarios", argumentó Rossow.
"Tratar este contenido generado por humanos como un recurso gratuito, bruto e indiferenciado es una forma de explotación laboral que devalúa las contribuciones en línea", opinó Rossow, agregando que las empresas de IA necesitan "respetar la ciudadanía digital y las normas de la comunidad", dado que estas son "las reglas implícitas y explícitas de los espacios públicos digitales que ingieren".

