5 min lectura
Ejecutar un modelo de IA en tu propia computadora es genial, hasta que deja de serlo.
La promesa es privacidad, sin tarifas de suscripción y sin que tus datos salgan de tu máquina. La realidad, para la mayoría de las personas, es ver un cursor parpadear durante cinco segundos entre oraciones.
Ese cuello de botella tiene un nombre: velocidad de inferencia. Y no tiene nada que ver con qué tan inteligente es el modelo. Es un problema de hardware. Los modelos de IA estándar generan texto un fragmento de palabra a la vez, llamado token. El hardware tiene que trasladar miles de millones de parámetros desde la memoria hacia sus unidades de cómputo solo para producir cada token. Es lento por diseño. En hardware de consumo, es desesperante.
La solución a la que recurre la mayoría es ejecutar modelos más pequeños y menos potentes, o versiones altamente comprimidas, llamados modelos cuantizados, que sacrifican algo de calidad por velocidad. Ninguna solución es ideal. Obtienes algo que funciona, pero no es el modelo que realmente querías.
Ahora Google tiene una idea diferente. La compañía acaba de lanzar los borradores de Multi-Token Prediction (MTP) para su familia de modelos abiertos Gemma 4, una técnica que puede ofrecer hasta 3 veces más velocidad sin afectar en absoluto la calidad ni la capacidad de razonamiento del modelo.
El enfoque se llama decodificación especulativa, y como concepto existe desde hace años. Los investigadores de Google publicaron el paper fundacional en 2022. La idea no se popularizó hasta ahora porque requería la arquitectura correcta para funcionar a escala.
Aquí está la versión corta de cómo funciona. En lugar de hacer que el modelo grande y poderoso realice todo el trabajo solo, se combina con un pequeño modelo "borrador". El borrador es rápido y económico: predice varios tokens a la vez en menos tiempo del que le tomaría al modelo principal producir uno solo. Luego, el modelo grande verifica todas esas predicciones en un único paso. Si las predicciones son correctas, obtienes toda la secuencia al costo de un solo paso hacia adelante.
Según Google, "si el modelo objetivo está de acuerdo con el borrador, acepta toda la secuencia en un único paso hacia adelante, e incluso genera un token adicional propio en el proceso".
No se sacrifica nada: el modelo grande, por ejemplo la versión densa de 31B de Gemma 4, sigue verificando cada token y la calidad del resultado es idéntica. Simplemente se aprovecha la potencia de cómputo inactiva que permanecía sin uso durante las partes lentas.
Google afirma que los modelos borrador comparten el caché KV del modelo objetivo, una estructura de memoria que almacena el contexto ya procesado, por lo que no pierden tiempo recalculando lo que el modelo más grande ya sabe. Para los modelos edge más pequeños diseñados para teléfonos y dispositivos Raspberry Pi, el equipo incluso desarrolló una técnica de agrupamiento eficiente para reducir aún más el tiempo de generación.
Este no es el único intento que ha hecho el mundo de la IA de paralelizar la generación de texto. Los modelos de lenguaje basados en difusión, como Mercury de Inception Labs, probaron un enfoque completamente distinto: en lugar de predecir un token a la vez, parten del ruido y refinan iterativamente toda la salida. Eso es rápido en teoría, pero los LLMs de difusión han tenido dificultades para igualar la calidad de los modelos transformer tradicionales, lo que los deja más como una curiosidad de investigación que como una herramienta práctica.
La decodificación especulativa es diferente porque no modifica el modelo subyacente en absoluto. Es una optimización de servicio, no un reemplazo de arquitectura. El mismo Gemma 4 que ya ejecutarías se vuelve más rápido.
La ventaja práctica es real. Un modelo Gemma 4 26B ejecutándose en una GPU de escritorio Nvidia RTX Pro 6000 obtiene aproximadamente el doble de tokens por segundo con el borrador MTP activado, según los propios benchmarks de Google. En Apple Silicon, tamaños de lote de 4 a 8 solicitudes desbloquean aceleraciones de alrededor de 2,2 veces. No exactamente el límite de 3 veces en todos los escenarios, pero sigue siendo una diferencia significativa entre "apenas utilizable" y "suficientemente rápido para trabajar".
El contexto importa aquí. Cuando el modelo chino DeepSeek sacudió el mercado en enero de 2025, eliminando $600.000 millones de la capitalización de mercado de Nvidia en un solo día, la lección principal fue que las ganancias en eficiencia pueden golpear más fuerte que la potencia de cómputo bruta. Funcionar de manera más inteligente supera al hecho de agregar más hardware. El borrador MTP de Google es otro movimiento en esa dirección, pero apuntado directamente al extremo de consumo del mercado.
Toda la industria de la IA es ahora un triángulo que considera la inferencia, el entrenamiento y la memoria. Cada avance en cualquiera de estas áreas tiende a impulsar o sacudir todo el ecosistema. El enfoque de entrenamiento de DeepSeek (lograr modelos potentes con hardware de gama baja) fue un ejemplo, mientras que el paper TurboQuant de Google (reducir la memoria de la IA sin perder calidad) fue otro. Ambos sacudieron los mercados mientras las empresas intentaban descifrar qué hacer.
Google afirma que el borrador desbloquea "una mayor capacidad de respuesta: reducir drásticamente la latencia para el chat en tiempo real, aplicaciones de voz inmersivas y flujos de trabajo agénticos", el tipo de tareas que demandan baja latencia para resultar verdaderamente útiles.
Los casos de uso se vislumbran rápidamente: un asistente de programación local que no tiene retrasos; una interfaz de voz que responde antes de que hayas olvidado lo que preguntaste; un flujo de trabajo agéntico que no te hace esperar tres segundos entre pasos. Todo esto, en el hardware que ya tienes.
Los borradores MTP están disponibles ahora en Hugging Face, Kaggle y Ollama, bajo la licencia Apache 2.0. Funcionan con vLLM, MLX, SGLang y Hugging Face Transformers de manera predeterminada.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.