
La piratería está mal
Una nueva demanda judicial afirma que NVIDIA obtuvo acceso a una gran cantidad de libros pirateados para entrenar sus modelos de IA.
La demanda colectiva, presentada en el Tribunal de Distrito de EE. UU. para el Distrito Norte de California, afirma que el personal de NVIDIA se puso en contacto con Anna’s Archive, un sitio que alberga millones de libros pirateados y artículos académicos. Los demandantes afirman que las conversaciones se centraron en btener «acceso de alta velocidad» a los datos del archivo. Anna’s Archive supuestamente le dijo a NVIDIA que el material se obtuvo ilegalmente y preguntó si NVIDIA tenía aprobación interna para seguir adelante. La demanda afirma que la gerencia dio el visto bueno poco después.
Se dice que Anna’s Archive ofreció acceso a unos 500 terabytes de datos. Esa colección supuestamente incluía millones de libros, algunos de los cuales normalmente solo están disponibles a través de Internet Archive y su sistema de préstamo digital controlado. La presentación no dice si NVIDIA pagó por el acceso o utilizó los datos que se ofrecieron.
Los autores acusan a NVIDIA de utilizar otras fuentes piratas, como los sitios Library Genesis, Sci-Hub y Z-Library. Otra afirmación es que NVIDIA proporcionó scripts o herramientas que permitieron a los clientes descargar partes del set de datos «The Pile», que incluye Books3 (un gran conjunto de datos que contiene unos 200.000 libros). Los autores argumentan que esto representa una infracción clara de los derechos de autor, ya que los clientes podían acceder a libros pirateados a través de las herramientas proporcionadas por NVIDIA.
NVIDIA ha argumentado en el pasado que el entrenamiento de la IA no es ilegal ya que los modelos aprenden patrones en lugar de almacenar libros, aunque la justicia de EEUU ha emitido al menos un fallo que van en contra de esa creencia. El juicio está en curso y los detalles que se mencionan en este artículo provienen de la última presentación hecha por los demandantes.
