Inteligencia artificial y derechos de autor
El New York Times podría sentar precedente sobre cómo se protege la propiedad intelectual en el siglo XXI. La empresa de comunicación denunció a Microsoft y OpenAI por haber usado sus artículos sin permiso para entrenar al modelo ChatGPT. En consecuencia, pidió no solo una indemnización por miles de millones de dólares, sino también la destrucción del contenido del NYT en la base de datos del modelo ChatGPT.
En una de las tantas pruebas presentadas, hay un artículo que requirió 18 meses de investigación, 600 entrevistas, análisis de datos, revisión de miles de páginas de registros bancarios, en fin, un esfuerzo descomunal que ganó el premio Pulitzer, pero que ChatGPT vomitó en cuestión de segundos como el mi mamá me mima.
Documento completo aquí.
Ahora bien, borrar dichos datos dentro del modelo no es tarea fácil como buscar una palabra en un archivo Word. No. Una vez que el modelo de lenguaje generativo (LLM) ha sido entrenado, los parámetros del modelo se ajustan a ese conjunto de datos. Es decir, después del entrenamiento, no es posible "borrar" información textual, pues lo único que hay son números que representan patrones y características de los datos. Se podría borrar los datos de entrenamiento para futuros modelos, pero no para el modelo operativo ChatGPT, eliminar selectivamente partes del modelo no es realista.
Si suponemos que el NYT gana, no solo sería el fin de ChatGPT, sino de cualquier LLM, pues muchos reclamarían su parte del pastel en los datos. OpenAI ha afirmado que una aplicación estricta de los derechos de autor, imposibilitaría entrenar modelos avanzados de IA.[1] Su uso, según creo, se restringiría a grupos delictivos y naciones donde las leyes son menos rigurosas. Es decir, se amenaza la igualdad en cuanto al acceso a esta tecnología.
Para evitar ese destino y quitar la cabeza de ChatGPT de la guillotina, OpenAI se ha aferrado al uso "transformador" de las obras con derechos de autor, destacando el paralelismo legal del caso Authors Guild vs. Google. No vamos a entrar en detalles sobre ese caso. Para no hacer el cuento largo, Google ganó el caso; al parecer, mostrar partes de libros con derechos de autor como "aperitivos" para los lectores constituía un uso justo y legítimo.[2].
Pero esa no es toda la historia; según OpenAI, el NYT es el malo del cuento. Les achacan la manipulación indebida del modelo, esto es, engañar al modelo para que regurgite información. Lo que se conoce como un black-box attack o ataque de caja negra.
Con el prompt correcto, uno puede hacer que el modelo muestre información parcial de sus datos de entrenamiento. Sin embargo, el procedimiento requiere ciertos requisitos. Para empezar, uno necesita saber cuáles datos de entrenamiento están duplicados, pues estos son más fáciles de extraer. Luego se necesita saber qué etiquetas están asociadas a esos datos de entrenamiento. Con esta información y un poco de suerte, y luego de varios intentos, es posible hacer que un modelo regurgite información.
Por ejemplo, en el artículo "Extracting Training Data from Diffusion Models" lograron que Stable Diffusion reprodujera sus datos de entrenamiento, gracias a un ataque agresivo de prompt y la aceleración de la generación de imágenes. El modelo memorizó estas imágenes porque aparecían varias veces en los datos de entrenamiento.
Obtener datos de entrenamiento es posible, pero existen ciertos protocolos para evitar que el modelo entregue información con derechos de autor. Se debe resaltar que el modelo no copia y pega respuestas basándose en una supuesta base de datos, sino que todo depende de que tan rígidos sean los parámetros para generar el texto. Además, la opción de incluir a un inspector para examinar el contenido podría complicar aún más la entrega de datos. Así lo demuestra un estudio que intentó inducir a ChatGPT a la reproducción de poemas con derechos de autor palabra por palabra, pero que no logró ningún resultado, pues el modelo se negó a proporcionar esa información.[3] ¡Ah ha!, dirán muchos, esto quiere decir que el modelo sabe de los poemas y probablemente estén en los datos de entrenamiento. De ser cierto, lo más probable es que la empresa se escude en el uso transformador; es decir, similar a crear una versión silbada de una canción, o recrear un cuadro con cubos de Rubik, o crear un modelo mediante el uso de datos probabilísticos que capturan la disposición y los patrones de las palabras en el texto. Un proceso que, como ya hemos visto, no es infalible, pero cuyo propósito no es la replicación del texto, sino ofrecer interactividad mediante respuestas coherentes.
Al final, hay muchas preguntas sin respuesta. ¿Está bien obtener pruebas violando los términos de uso? ¿Las empresas de inteligencia artificial se construyen bajo la explotación de licencias de obras con derechos de autor? ¿Por qué nadie denunció a los modelos primigenios que reproducían texto o imágenes con derechos de autor? ¿Es posible la creación de un modelo que impida la memorización de obras con derechos de autor, promoviendo un uso completamente transformador? ¿Cómo podemos asegurarnos de que la IA se desarrolle y se use de manera responsable y beneficiosa para la sociedad?
Referencias
- https://arstechnica.com/information-technology/2024/01/openai-says-its-impossible-to-create-useful-ai-models-without-copyrighted-material/
- https://support.google.com/legal/answer/4558992?hl=es
- https://ceur-ws.org/Vol-3558/paper5712.pdf
