gadgetsgenial.es » ARC-AGI-3: la prueba de inteligencia donde la IA más avanzada está fallando

ARC-AGI-3, una nueva medida de la inteligencia

Una nueva medida de inteligencia

Un nuevo benchmark publicado el 27 de marzo de 2026 está sacudiendo a la industria de la inteligencia artificial. La prueba ARC-AGI-3 muestra una enorme brecha entre la capacidad humana y la de los modelos más avanzados: mientras las personas resuelven el 100% de las tareas, los sistemas de frontera no superan el 1% de la puntuación.

Entre los modelos evaluados se encuentran Google Gemini 3.1 Pro, OpenAI GPT-5.4 y Anthropic Claude Opus 4.6.

Qué es ARC y por qué importa

El benchmark fue creado por el investigador François Chollet, quien diseñó el Abstraction and Reasoning Corpus (ARC) para medir la inteligencia fluida, es decir, la capacidad de aprender y generalizar con pocos ejemplos.

Las versiones anteriores, ARC-AGI-1 (2019) y ARC-AGI-2 (2025), utilizaban rompecabezas visuales estáticos. Sin embargo, con el tiempo los modelos de IA comenzaron a optimizarse específicamente para superar estas pruebas.

Por eso nació ARC-AGI-3: un benchmark completamente nuevo que mide cómo aprende una IA, no solo lo que sabe.

El gran cambio: entornos interactivos sin instrucciones

ARC-AGI-3 abandona los rompecabezas estáticos y coloca a la IA en mini-juegos interactivos sin ninguna explicación ni objetivo visible.

Para resolverlos, los sistemas deben demostrar cuatro habilidades clave:

Exploración: interactuar para descubrir cómo funciona el entorno
Modelado: construir un modelo mental del mundo
Definición de objetivos: inferir qué significa “ganar”
Planificación: ejecutar estrategias y corregir errores

Los entornos se basan en principios de conocimiento básico humano: física simple, geometría y permanencia de objetos. No hay lenguaje, números ni símbolos culturales.

La nueva forma de medir la inteligencia: eficiencia humana

ARC-AGI-3 introduce el concepto de Relative Human Action Efficiency (RHAE).

No basta con resolver el problema, la IA debe hacerlo con una eficiencia similar a la humana.

Por ejemplo, si un humano resuelve un nivel en 10 acciones y una IA necesita 100, recibe solo 1% del puntaje.

Este enfoque penaliza las estrategias de fuerza bruta que suelen usar los modelos actuales.

La IA se queda muy atrás

Los resultados iniciales son sorprendentes:

Gemini 3.1 Pro: 0.37%
GPT-5.4: 0.26%
Claude Opus 4.6: 0.25%
xAI Grok-4.20: 0.00%

Para acelerar el progreso, la ARC Prize Foundation lanzó el ARC Prize 2026, con una bolsa de 2 millones de dólares y la obligación de publicar el código ganador como open source.

Lo que revela este benchmark sobre el futuro de la IA

ARC-AGI-3 nos deja como conclusión que los modelos actuales son excelentes acumulando conocimiento, pero siguen teniendo dificultades para aprender desde cero en entornos desconocidos.

Hoy, este benchmark se perfila como el termómetro más exigente para medir el progreso hacia la AGI (Inteligencia Artificial General).

Y el mensaje es contundente, la verdadera inteligencia no es lo que sabes, sino qué tan rápido puedes aprender lo que aún no sabes.

ARC-AGI-3: la prueba de inteligencia donde la IA más avanzada está fallando

Una nueva medida de inteligencia

Qué es ARC y por qué importa

El gran cambio: entornos interactivos sin instrucciones

La nueva forma de medir la inteligencia: eficiencia humana

La IA se queda muy atrás

Lo que revela este benchmark sobre el futuro de la IA

Comentarios

Deja una respuesta Cancelar la respuesta

Más entradas

ChatGPT llega a Apple CarPlay

Matter 1.5.1 mejora el soporte para cámaras de seguridad inteligentes

Primer tráiler de Cabo del Miedo de Apple TV

Filtración de Claude Code: cómo un simple error expuso la hoja de ruta secreta de Anthropic