
Represión en arXiv
arXiv es un archivo en línea para las prepublicaciones de artículos científicos en el campo de las matemáticas, física, ciencias de la computación y biología cuantitativa. En muchos campos de las matemáticas y la física, casi todos los artículos científicos se colocan en arXiv. A fecha 27 de julio de 2010, arXiv.org contenía más de 617 767 documentos, lo que supone que miles de ellos son añadidos cada mes.
Ahora, arXiv ha decidido tomar una postura firme frente al auge del llamado “AI slop” (contenido generado por IA de baja calidad) en la literatura científica. Para preservar la integridad del discurso académico, la plataforma ha anunciado que los autores que envíen artículos con evidencia clara de contenido generado por IA sin verificar se enfrentarán a una exclusión por un periodo de un año.
Aunque arXiv permite a los investigadores compartir sus hallazgos antes de la revisión por pares formal, se ha convertido en una arteria esencial para la circulación de nuevos datos y tendencias. Sin embargo, la proliferación de los grandes modelos de lenguaje (LLM) ha provocado un aumento de envíos de baja calidad.
Responsabilidad total de los autores
Para combatir esta situación, Thomas Dietterich, presidente de la sección de informática de arXiv, aclaró recientemente la postura del repositorio. Dijo que los autores deben asumir plena responsabilidad por cada palabra de su envío, independientemente de cómo se haya producido el contenido.
La nueva política se centra en la existencia de “pruebas incontrovertibles” de que los autores no verificaron las salidas de los LLM. Entre las señales de alerta se incluyen:
- Referencias alucinadas: citas que parecen legítimas pero son completamente inventadas.
- Comentarios meta de la IA incluidos por accidente.
- Ejemplo: “Aquí tienes un resumen de 200 palabras; ¿quieres que haga cambios?”
- Marcadores de posición como: “Los datos de esta tabla son ilustrativos; rellénalos con los números reales de tus experimentos.”
Según Dietterich, si un artículo contiene este tipo de evidencia, indica negligencia por parte de los autores y hace que el resto del trabajo resulte poco fiable. Es una postura muy razonable.
arXiv aplicará penas severas
La sanción por este descuido será contundente:
- Prohibición de publicar durante un año en arXiv.
- Tras ese periodo, cualquier nuevo envío deberá ser aceptado primero por una revista o conferencia revisada por pares antes de poder publicarse en el repositorio.
Es importante subrayar que no se trata de una prohibición total del uso de IA en investigación. Los investigadores pueden seguir utilizando LLM, pero son los únicos responsables de cualquier plagio, sesgo, error o información engañosa que pueda derivarse de su uso.
Sistema de revisión y derecho a apelación
La norma de “un strike” incluirá controles y equilibrio:
- Moderadores detectan el problema.
- Los responsables de la sección confirman la evidencia.
- Los autores tendrán la oportunidad de apelar la decisión.
Un momento crítico para la comunidad científica
Esta medida llega en un momento clave. Investigaciones recientes han detectado un aumento preocupante de citas fabricadas en estudios biomédicos, a menudo vinculadas al uso acrítico de IA.
Además, arXiv está pasando de estar alojado en Cornell University a convertirse en una organización sin ánimo de lucro independiente. Con esta transición, espera asegurar más financiación para afrontar los desafíos sistémicos derivados de la desinformación generada por IA y mantener su papel como fuente fiable de conocimiento científico.

Deja una respuesta