
Más allá de los LLM
Durante años, el pionero de la inteligencia artificial Yann LeCun ha criticado la obsesión de la industria por los modelos de lenguaje (LLM). Según él, sistemas como ChatGPT pueden imitar el lenguaje, pero no comprenden el mundo real ni pueden planificar de forma auténtica.
Su apuesta ha sido otra, crear World Models, una nueva clase de modelos de IA capaces de entender la física, predecir dinámicas del mundo real e impulsar la próxima generación de robots.
Ahora, ese objetivo acaba de dar un salto enorme con LeWorldModel (LeWM), una investigación presentada en 2026 por investigadores de un consorcio de Mila, New York University, Samsung SAIL y Brown University, que incluía a Yann LeCun.
IA que aprende física directamente de píxeles
El gran avance de LeWorldModel es que demuestra que una IA puede aprender leyes físicas sin sensores complejos ni supercomputadoras, solo a partir de imágenes.
El sistema pertenece a la familia de arquitecturas JEPA (Joint-Embedding Predictive Architectures), que predicen la estructura de una escena en un «espacio latente» en lugar de generar píxeles directamente.
Hasta ahora, estos modelos sufrían problemas graves:
- Colapso de representación (dejaban de predecir correctamente)
- Entrenamiento complejo y poco estable
- Dependencia de múltiples pérdidas y supervisión externa
LeWorldModel simplifica radicalmente el proceso.
Entrenamiento estable con solo dos funciones de pérdida
La clave del avance está en su diseño minimalista:
- Next-Embedding Predictive Autoregression (NEPA)
- Un nuevo regularizador llamado SIGReg
Este regularizador fuerza que el espacio latente tenga una distribución gaussiana, evitando que el modelo “haga trampa” o colapse.
Resultado, el número de hiperparámetros baja de seis a solo uno.
Sorprendente eficiencia: solo 15 millones de parámetros
Mientras los LLM actuales tienen cientos de miles de millones de parámetros, LeWorldModel funciona con apenas 15 millones.
Esto permite:
- Entrenar el modelo en tan solo unas horas
- Usar una sola GPU
- Planificar únicamente en base a imágenes
El modelo codifica cada fotograma como un token de 192 dimensiones y puede planificar acciones 48 veces más rápido que modelos más pesados como DINO-WM.
Un ejemplo:
- DINO-WM tarda 47 segundos en planificar
- LeWM lo hace en 1 segundo
Pruebas de “intuición física” para la IA
Para validar que realmente comprende el mundo, el modelo fue evaluado en múltiples tareas:
- Navegación en entornos 2D
- Control de brazos robóticos
- Manipulación de objetos
- Pick & place en 3D
Los resultados fueron sorprendentes:
- Superó a modelos base en varias pruebas
- Rivalizó con modelos mucho más grandes
- Detectó eventos físicamente imposibles mediante pruebas de “violación de expectativas”
Por ejemplo, el sistema identificó como anómalos eventos como objetos moviéndose contra la gravedad.
El impacto en la robótica y el futuro de la IA
Aunque aún no está listo para robots domésticos, LeWorldModel es una prueba de concepto clave para el futuro de la IA física.
El proyecto también está ligado a AMI Labs, la startup fundada en Francia por LeCun en 2026 y valorada en 3,500 millones de dólares.
Si un modelo tan pequeño puede aprender conceptos básicos de espacio, gravedad y movimiento, el futuro de la robótica eficiente y accesible podría estar más cerca de lo que imaginamos.
El inicio de una nueva generación de IA
LeWorldModel demuestra que la evolución de la inteligencia artificial no dependerá únicamente de modelos gigantes y centros de datos masivos.
El siguiente gran salto podría venir de sistemas más ligeros, eficientes y capaces de comprender el mundo físico.

Deja una respuesta