En Resumen

  • Las autoras E. Molly Tanzer y Jennifer Gilmore presentaron una demanda colectiva contra Salesforce en un tribunal federal de San Francisco, alegando que la empresa utilizó más de 196.000 libros pirateados del rastreador Bibliotik para entrenar sus modelos XGen.
  • La denuncia afirma que Salesforce eliminó las referencias a RedPajama y The Pile de su sitio web en septiembre de 2023, reemplazándolas con descripciones vagas sobre "datos de lenguaje natural" extraídos de "fuentes disponibles públicamente".
  • El CEO Marc Benioff declaró en enero de 2024 que las empresas de IA "robaron" los datos de entrenamiento, mientras expertos señalaron que los autores deben probar un daño financiero real más allá del simple uso de sus obras.

Una nueva demanda colectiva en un tribunal federal de San Francisco ha acusado al gigante de software Salesforce de construir sus modelos de IA XGen a partir de una biblioteca pirata de libros y luego eliminar las referencias a esas fuentes una vez que surgieron las preguntas.

La demanda presentada el miércoles por las autoras E. Molly Tanzer y Jennifer Gilmore, bajo la Ley de Derechos de Autor, aleg infracción continua, y afirma que Salesforce "continúa haciéndolo al seguir almacenando, copiando, usando y procesando los conjuntos de datos que contienen copias de los libros con derechos de autor de las demandantes".

La denuncia señala que Salesforce.INC "pirateó cientos de miles de libros con derechos de autor para desarrollar su serie de Large Language Models XGen", apoyándose en los "notorios conjuntos de datos RedPajama y The Pile" que incluyen un corpus de libros conocido como Books3, una colección de más de 196.000 libros copiados del rastreador privado Bibliotik.

La presentación indica que Salesforce inicialmente listó "RedPajama-Books" entre sus fuentes de entrenamiento cuando lanzó XGen en junio de 2023, con un ingeniero de la empresa vinculando directamente a los usuarios de GitHub a ambos conjuntos de datos.

Sin embargo, en septiembre, Salesforce supuestamente eliminó esas referencias de su sitio web y las reemplazó con descripciones vagas de "datos de lenguaje natural" extraídos de "fuentes disponibles públicamente".

Hugging Face, la plataforma que alojaba Books3, eliminó el conjunto de datos el mes siguiente, citando quejas de derechos de autor, según afirma la demanda.

La demanda alega que Salesforce utilizó The Pile para entrenar sus modelos CodeGen en 2022, luego comercializó la tecnología a través de su plataforma de IA Agentforce, incluido el modelo XGen-Sales lanzado en octubre de 2024.

Dos meses después, Salesforce supuestamente eliminó sus divulgaciones, borrando gráficos y referencias a "RedPajama-Books" y reemplazándolos con lenguaje vago sobre una "mezcla de datos disponibles públicamente", antes de afirmar en diciembre de 2023 que sus modelos utilizaban un "conjunto de datos legalmente conforme" sin mencionar RedPajama.

Ishita Sharma, socia directora de Fathom Legal, dijo a Decrypt que los autores deben "probar un daño financiero real, no solo que sus libros fueron utilizados para el entrenamiento", señalando cómo el juez Vince Chhabria recientemente desestimó reclamos similares contra Meta, dictaminando que "simplemente afirmar 'nuestro trabajo fue utilizado' no es suficiente".

Fallos recientes favorecieron a OpenAI y Anthropic en casos similares, con jueces determinando que los autores no lograron probar un daño al mercado, aunque uno criticó a Anthropic por mantener "una biblioteca permanente de libros pirata".

"Usar conjuntos de datos públicos como RedPajama o The Pile no borra automáticamente la infracción intencional", afirmó Sharma, agregando que "si sabían o ignoraron que se incluían obras con derechos de autor, los tribunales aún podrían encontrar un desprecio imprudente".

"A menos que la IA pueda reproducir partes de la obra original, los pesos del modelo en sí mismos no se consideran infracción de derechos de autor", añadió.

La denuncia cita declaraciones del CEO de Salesforce, Marc Benioff, quien dijo a un entrevistador de Bloomberg en enero de 2024 que las empresas de IA "robaron" los datos de entrenamiento y que "todos los datos de entrenamiento han sido robados".

Las autoras buscan la certificación de clase para todos los titulares de derechos de autor de Estados Unidos cuyas obras fueron utilizadas desde octubre de 2022, exigiendo daños estatutarios, destrucción de copias infractoras, confiscación de ganancias, una declaración de infracción intencional y honorarios de abogados.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.