En Resumen
- La empresa de servicios en la nube Cloudflare lanzó un nuevo conjunto de herramientas de inteligencia artificial para ayudar a los sitios web a detener el uso no autorizado por rastreadores de IA o cobrarles por acceder a sus datos.
- La plataforma gratuita de Gestión de Bots de Cloudflare permite a los sitios web bloquear los bots de IA o cobrar una tarifa a los bots aprobados, generando ingresos por el contenido que se utiliza.
- La herramienta de auditoría de IA también permite a los usuarios ver cómo se accede a su contenido, ayudando a identificar y gestionar el uso de sus datos por parte de rastreadores de IA.
La empresa de servicios en la nube con sede en San Francisco, Cloudflare, lanzó un nuevo conjunto de herramientas de inteligencia artificial que tiene como objetivo dar a los sitios web la capacidad de detener el uso no autorizado por rastreadores de IA, o cobrarles por acceder a sus datos.
“Lo que hemos presentado hoy es la capacidad para los propietarios de sitios y publicaciones en internet de decir, ‘este es el valor que espero recibir de mi sitio’”, dijo Sam Rhea, vicepresidente de Cloudflare, a Decrypt. “Si eres un LLM de IA y quieres escanear este contenido o entrenar contra él, o hacerlo parte de tus resultados de búsqueda, este es el valor que espero recibir por eso.”
La plataforma gratuita de Gestión de Bots de Cloudflare permite a los sitios web no solo bloquear los bots de IA, sino también cobrar una tarifa a tantos bots como aprueben, obteniendo así ingresos por las plataformas que se alimentan de forma gratuita de su contenido.
La herramienta de auditoría de IA también brinda a los usuarios la capacidad de ver cómo se accede a su contenido.
Según explicó Rhea, a diferencia de los bots maliciosos que intentan bloquear sitios web o colarse antes que los clientes humanos que intentan acceder a un sitio web, los rastreadores de IA no tienen como objetivo dañar o robar, sino escanear contenido público para entrenar grandes modelos de lenguaje.
A veces, esos bots atribuyen la información de vuelta a la fuente, enviando plausiblemente tráfico valioso, dijo Rhea. “Pero otras veces, toman material, lo ponen en una licuadora y lo comparten como si fuera parte de una fuente genérica, sin ninguna cita. Eso me parece peligroso.”
Rhea dijo que, según Cloudflare, que proporciona seguridad y optimización de rendimiento para sitios web, no hay una sola plataforma que domine la actividad de scraping de sitios web, agregando que varía según el tipo de contenido que se está raspando en un momento dado.
Los modelos de IA generativa requieren grandes cantidades de datos para funcionar e intentan proporcionar respuestas rápidas y precisas, así como crear imágenes, videos y música. Los rastreadores de IA son una industria en crecimiento e incluyen empresas como LAION, Defined.AI, Aleph Alpha y Replicate que proporcionan a los desarrolladores de IA conjuntos de datos pre-recopilados de texto, voz e imágenes. Según la firma de investigación de mercado Research Nester, se estima que la industria de software de raspado web alcanzará $2.450 millones para 2036.
El año pasado, Ed Newton-Rex, ex jefe de audio de Stability AI, renunció debido a cómo las plataformas de IA afirmaban que la ingestión de datos de sitios web era "uso justo".
"El 'uso justo' no fue diseñado teniendo en cuenta la IA generativa; entrenar modelos de IA generativa de esta manera me parece incorrecto", dijo. "Empresas valoradas en miles de millones de dólares están entrenando modelos de IA generativa en obras de creadores sin permiso, que luego se utilizan para crear nuevo contenido que en muchos casos puede competir con las obras originales."
Newton-Rex agregó: "No veo cómo esto puede ser aceptable en una sociedad que ha establecido la economía de las artes creativas de tal manera que los creadores dependen del derecho de autor."
Rhea dijo que los desarrolladores de IA más pequeños parecían dispuestos a pagar para recibir contenido seleccionado de sitios web.
“De las conversaciones que hemos tenido con proveedores de modelos fundamentales y nuevos participantes en el espacio, es que el tipo de océano de datos de alta calidad se está volviendo difícil de encontrar”, dijo, señalando que el contenido científico y matemático estaba especialmente en demanda.
Editado por Josh Quittner y Sebastian Sinclair
Generally Intelligent Newsletter
A weekly AI journey narrated by Gen, a generative AI model.