Apple Intelligence » gadgetsgenial.es

Todos los modelos de IA locales se pueden engañar para saltarse las reglas, incluso Apple Intelligence.

Apple Intelligence es más grosero de lo que quisiera la empresa

Apple Intelligence se ha convertido rápidamente en una pieza clave del ecosistema de la compañía. Integrado en Macs, iPhone y iPad recientes, el sistema de IA en el dispositivo impulsa apps nativas como Mail, Messages y Siri, además de estar disponible para desarrolladores. Con unos 200 millones de dispositivos compatibles activos a finales de 2025, la seguridad es crítica.

Sin embargo, investigadores de RSAC demostraron recientemente lo vulnerable que pueden ser estos modelos locales. Encadenando dos técnicas avanzadas de ataque, lograron saltarse las protecciones de seguridad y forzar al sistema a generar respuestas controladas por el atacante.

En sus pruebas, el equipo consiguió que la IA produjera texto ofensivo, pero el riesgo real iba mucho más allá porque la vulnerabilidad podía manipular datos accesibles por apps que usan el modelo.

El riesgo real es la manipulación de contactos y otros datos

Según Petros Efstathopoulos, VP de I+D en RSAC, el exploit podía crear contactos falsos en el dispositivo:

Añadir un nuevo contacto con privilegios de confianza
Insertar números maliciosos bajo nombres confiables (por ejemplo, “mamá”)

Esto abre la puerta a ataques de ingeniería social mucho más sofisticados.

Cómo funcionó el ataque

Para ejecutar el exploit, los investigadores tuvieron que burlar la cadena de seguridad del sistema. Su hipótesis:

Un filtro revisa la entrada del usuario.
El modelo LLM genera la respuesta.
Un filtro final revisa la salida antes de mostrarla.

Para romper este flujo combinaron dos técnicas:

1) Hack Unicode para engañar filtros

El equipo escribió instrucciones maliciosas al revés y aplicó la función Unicode Right-to-Left Override. El resultado:

El texto parecía inocente para los filtros
El modelo lo interpretaba correctamente y ejecutaba las instrucciones

2) Neural Exec: automatización del prompt injection

Después desplegaron Neural Exec, técnica creada por el investigador Dario Pasquini que automatiza el prompt injection.
En lugar de crear ataques manualmente, un algoritmo genera cadenas optimizadas para obligar al modelo a ignorar sus reglas.

El hecho de que Apple use modelos más pequeños en el dispositivo, en lugar de modelos gigantes albergados en la nube, los hace más vulnerables a los ataques adversariales. De hecho, recientemente se anunció una herramienta de código abierto que puede eliminar todas las medidas de seguridad en modelos locales, llamada OBLITERATUS.

76% de éxito en pruebas reales

Para medir el impacto, los investigadores ejecutaron 100 pruebas combinando:

Prompts legítimos
Cadenas maliciosas
Entradas benignas extraídas de Wikipedia

El ataque tuvo éxito en el 76% de los casos.

La solución (y el reto a futuro)

La buena noticia es que el fallo ya fue corregido. RSAC informó a Apple el 15 de octubre de 2025, y la empresa reforzó sus sistemas silenciosamente en iOS 26.4 y macOS 26.4.

Aun así, el problema de la inyección de prompts está lejos de desaparecer. A medida que la IA se integra más en dispositivos personales, la seguridad seguirá siendo un juego constante de gato y ratón entre investigadores y atacantes.

Etiqueta: Apple Intelligence

El exploit que logró que Apple Intelligence insultara a los usuarios