Google ha presentado una innovadora tecnología de ‘cascadas especulativas’ que promete revolucionar la eficiencia y el costo computacional de los modelos de lenguaje grandes (LLM), como Gemma. Esta nueva técnica logra una inferencia más inteligente y rápida, combinando los sistemas de decodificación especulativa con las cascadas estándar, lo que representa un avance significativo en la capacidad de respuesta de estos modelos.
Una solución ante los retos de inferencia
Los LLM son capaces de realizar tareas complejas que van desde la búsqueda avanzada hasta la programación creativa, pero requieren un alto nivel de inferencia —el proceso mediante el cual el modelo genera respuestas— que puede resultar lento y “computacionalmente costoso”. Este problema se acentúa a medida que más usuarios acceden a estas tecnologías. Por lo tanto, Google ha destacado la necesidad de desarrollar LLM “más rápidos y económicos sin sacrificar la calidad”.
Para lograrlo, la empresa ha desarrollado su tecnología de ‘cascadas especulativas’, que optimiza el rendimiento de los LLM mediante el uso estratégico de modelos más pequeños y rápidos según la tarea. En este enfoque, se implementa una “regla de aplazamiento” donde un modelo más pequeño decide si puede manejar una consulta o si debe transferirla a un modelo más grande y costoso. Así, se busca maximizar la cantidad de tareas procesadas por los modelos pequeños, reservando el uso de los grandes solo para aquellas que realmente lo requieran.
Mejoras significativas en velocidad y calidad
La decodificación especulativa juega un papel crucial en este nuevo enfoque. Utiliza un modelo borrador más pequeño para predecir una secuencia de ‘tokens’ futuros, que son validados por un modelo “objetivo” de mayor tamaño. Si el modelo grande acepta el borrador, se generan múltiples tokens en un solo paso, lo que acelera el proceso y garantiza que el resultado sea idéntico al que habría producido el modelo grande por sí solo. Esto reduce la latencia y mejora la velocidad de respuesta, aspectos clave en la experiencia del usuario.
Google ha probado esta técnica con los modelos Gemma y T5 en diversas tareas lingüísticas como resúmenes, traducciones, razonamiento y respuestas a preguntas. Los resultados indican un “mejor equilibrio entre costo y calidad”, logrando una mayor aceleración y mejores métricas en comparación con las técnicas utilizadas por separado.
Uno de los aspectos más interesantes de las cascadas especulativas es su capacidad para utilizar respuestas útiles de los modelos pequeños, incluso si los tokens no coinciden con el modelo grande durante la decodificación. Al replantear la interacción entre las cascadas y la decodificación, esta nueva tecnología ofrece a los desarrolladores una herramienta más potente y flexible, permitiendo un control preciso entre costo y calidad y allanando el camino para aplicaciones más inteligentes y rápidas.
Con esta tecnología, Google no solo responde a la creciente demanda de soluciones más eficientes, sino que también establece un nuevo estándar en la optimización de recursos en el ámbito de la Inteligencia Artificial.