Google ha presentado su innovadora tecnología de ‘cascadas especulativas’, diseñada para optimizar la eficiencia y reducir los costos computacionales de los modelos grandes de lenguaje (LLM), como Gemma. Esta nueva técnica permite lograr inferencias más inteligentes y rápidas, combinando sistemas de decodificación especulativa con cascadas estándar, sin sacrificar la calidad en el proceso.
Mejoras en la inferencia de modelos de lenguaje
Los LLM son fundamentales en el ámbito de la Inteligencia Artificial, impulsando desde funciones de búsqueda avanzada hasta asistentes de programación creativos. Sin embargo, su uso intensivo genera un alto costo de inferencia, lo que se vuelve un desafío a medida que su implementación crece. Google ha señalado la urgencia de desarrollar LLM “más rápidos y económicos” para satisfacer la demanda creciente de usuarios.
La tecnología de ‘cascadas especulativas’ combina lo mejor de los sistemas de cascadas y la decodificación especulativa. Según un comunicado de Google, las cascadas permiten utilizar modelos más pequeños y rápidos, que procesan consultas sencillas, mientras que las tareas complejas se transfieren a modelos más grandes y costosos. Así, se busca maximizar la eficiencia al permitir que los modelos pequeños manejen la mayor cantidad de tareas posible.
Funcionamiento de las cascadas especulativas
La decodificación especulativa, por su parte, utiliza un modelo más pequeño para predecir una secuencia de ‘tokens’, que luego se verifica con el modelo más grande. Si el modelo grande acepta la predicción, genera múltiples tokens en un solo paso, lo que acelera el proceso y asegura que el resultado sea idéntico a lo que el modelo grande habría producido por sí solo.
Este enfoque no solo reduce la latencia, sino que también incrementa la velocidad de respuesta. Las pruebas realizadas con los modelos Gemma y T5 han demostrado que las ‘cascadas especulativas’ logran un “mejor equilibrio entre costo y calidad”, generando métricas de rendimiento superiores en comparación con métodos tradicionales.
Google destaca que este sistema híbrido ofrece una herramienta más potente y flexible para los desarrolladores, permitiendo un control preciso sobre el equilibrio entre costo y calidad. Esto abre la puerta a aplicaciones más inteligentes y rápidas, adaptándose a las necesidades del presente y del futuro en el ámbito de la Inteligencia Artificial.