
Apple quiere demostrar que también sabe de IA
Imaginen a Siri respondiendo a sus solicitudes con aún mayor velocidad y fluidez. Investigadores de Apple están dando pasos significativos hacia esa realidad con un nuevo enfoque para mejorar la tecnología que convierte texto a voz. Un nuevo estudio, “Principled Coarse-Grained Acceptance for Speculative Decoding in Speech”, detalla un método que acelera drásticamente la generación de voz artificial sin sacrificar la claridad o la naturalidad usando la IA.
La clave de esta innovación reside en cómo los modelos de IA generan el habla. Muchos sistemas actuales, particularmente los modelos autorregresivos, crean el habla ensamblando pequeños fragmentos de audio llamados «tokens», uniéndolos para formar palabras y oraciones. Estos modelos autorregresivos predicen cada token subsiguiente basándose en los que vinieron antes, de manera similar a como los grandes modelos de lenguaje o LLMs predicen la siguiente palabra en una oración.
Si bien es efectivo, este proceso puede ser un cuello de botella. Los modelos autorregresivos existentes a menudo dependen de una coincidencia de tokens estricta y exacta. Esto significa que si un token predicho no se alinea perfectamente con las expectativas del modelo, se rechaza, incluso si suena virtualmente idéntico. Esta rigidez ralentiza todo el proceso de generación de voz.
La solución de Apple
Los investigadores de Apple, en colaboración con la Universidad de Tel Aviv, proponen una solución basada en la observación de que muchos tokens de voz diferentes pueden producir sonidos que son casi indistinguibles para el oído humano. Su enfoque implica agrupar los tokens de voz que suenan similares en lo que llaman Grupos de Similitud Acústica (ASG). En lugar de exigir una coincidencia exacta, el sistema acepta cualquier token que se encuentre dentro del ASG apropiado.
Este sistema emplea dos modelos: un modelo más pequeño y rápido que propone rápidamente tokens de voz potenciales, y un modelo más grande que “juzga” el resultado y determina si esos tokens pertenecen al grupo acústico correcto. Esto permite que el sistema explore múltiples posibilidades simultáneamente, acelerando significativamente el proceso.

Los resultados son impresionantes. El estudio demuestra que este nuevo método, llamado Aceptación con Principios de Grano Grueso (PCG), aumenta la velocidad de generación de voz en aproximadamente un 40% comparado con los métodos estándar actuales. Además, este aumento de velocidad no se produce a expensas de la calidad. PCG mantiene bajas tasas de error de palabras, conserva la similitud del hablante e incluso supera a los enfoques anteriores centrados en la velocidad en términos de naturalidad, logrando una alta puntuación en las calificaciones hechas por humanos.
Finalmente, los investigadores demostraron la robustez del enfoque al reemplazar un gran porcentaje de tokens de voz con alternativas del mismo grupo acústico. El audio resultante permaneció claro y natural, con un impacto mínimo en la tasa de error de palabras.
Una solución que puede ser adoptada rápidamente
Uno de los aspectos más atractivos de esta innovación es su practicidad. PCG no requiere volver a entrenar los modelos de voz existentes. Es un cambio que solo afecta al «tiempo de decodificación», lo que significa que se puede aplicar a los sistemas existentes sin la necesidad de modificaciones extensas o revisiones arquitectónicas. Además, requiere un mínimo de recursos adicionales, lo que lo hace ideal para su implementación en dispositivos con memoria limitada.
Si bien el estudio no menciona explícitamente aplicaciones específicas dentro del ecosistema de productos de Apple, las implicaciones son claras. Esta tecnología podría ser fundamental para mejorar la velocidad y la naturalidad de las respuestas de Siri, mejorando la experiencia general del usuario. Al hacer que la voz generada por IA sea más rápida y fluida, Apple está allanando el camino para interacciones más fluidas e intuitivas con sus dispositivos y plataformas. Este avance promete hacer que las conversaciones con los asistentes de IA se sientan más naturales y menos robóticas, acercándonos a una IA verdaderamente conversacional.
