
Un paso importante para una mejor IA local
La velocidad es uno de los factores más importantes al trabajar con modelos de lenguaje (LLM). Ahora, los desarrolladores que utilizan Ollama, la popular herramienta open source para ejecutar modelos de IA de forma local, recibirán un importante impulso de rendimiento en computadoras Mac con Apple Silicon.
Con la actualización de Ollama a la versión 0.19, que actualmente está disponible en una versión preliminar, la plataforma integra el framework de machine learning MLX de Apple, lo que promete mejoras drásticas en la velocidad de procesamiento de IA.
La ventaja de la memoria unificada en Apple Silicon
Uno de los principales cuellos de botella en sistemas tradicionales es la separación entre la memoria del CPU y del GPU. Esto obliga a duplicar datos y transferirlos constantemente.
La arquitectura de memoria unificada de Apple Silicon elimina este problema al ofrecer un único pool de memoria compartida. Gracias a la adopción de MLX, Ollama puede aprovechar completamente esta arquitectura y mejorar la eficiencia del manejo de datos.
Además, MLX permite conectar múltiples Macs mediante Ethernet o Thunderbolt para distribuir cargas de trabajo, aunque las mejoras más notables se observan incluso usando un solo equipo.
El salto de rendimiento es especialmente visible en los nuevos chips Apple M5, que incorporan aceleradores neuronales en la GPU.
Resultados: prompts más rápidos y respuestas casi al doble de velocidad
Las cifras muestran mejoras muy importantes:
- Procesamiento de prompts: 1.6× más rápido
- Prefill: de 1,154 tokens en Ollama 0.18 a 1,810 tokens en la versión 0.19
- Velocidad de generación: de 58 tokens/segundo a 112 tokens/segundo
Esto reduce significativamente el tiempo para obtener el primer token de respuesta (Time to First Token o TTFT) y acelera la generación de texto en general.
Mejor gestión de memoria para uso prolongado
La actualización no solo mejora la velocidad, Ollama 0.19 introduce:
- Caché más eficiente
- Checkpointing inteligente
- Menor consumo de memoria
- Mayor estabilidad en sesiones largas
También añade soporte para el formato Nvidia NVFP4, que mantiene la precisión del modelo reduciendo el uso de ancho de banda.
Estas mejoras benefician especialmente a asistentes locales y herramientas de programación con IA como OpenClaw, Claude Code, OpenCode y Codex.
Requisitos y disponibilidad
Por ahora, esta versión es preliminar y está enfocada en equipos de gama alta:
- Macs con más de 32 GB de memoria unificada
- Soporte inicial limitado al modelo Qwen3.5-35B-A3B de Alibaba, optimizado para tareas de programación
El equipo de Ollama ya trabaja en ampliar la compatibilidad con más modelos y facilitar la importación de modelos personalizados.
Por qué importa
La integración de MLX marca un paso importante para la IA local en macOS. Con velocidades casi duplicadas y mejor eficiencia de memoria, los Macs con Apple Silicon se posicionan como una de las plataformas más atractivas para ejecutar LLM sin depender de la nube.
LocalIntelligence, el mejor front-end para Ollama
Si usan Ollama, les recomiendo usar mi programa LocalIntelligence que es un front-end gráfico para esa aplicación y que les permitirá realizar la mayor parte de las operaciones desde una GUI nativa de macOS, sin necesidad de tener que usar la línea de comando, incluyendo soporte completo para MCP (Model Context Protocol), la base de la IA basa en agentes.

LocalIntelligence está disponible de forma gratuita en la App Store de Apple. Sin embargo, si van a usar un servidor MCP local, necesitarán bajar la versión notariada de mi página web personal, ya que esto requiere permisos adicionales que las aplicaciones del App Store no pueden obtener.






