Together AI lanza OSCAR: sistema de cuantización para cachés de 2 bits

Segun MarkTechPost (AI/ML News), un equipo de investigación de Together AI ha desarrollado OSCAR, un sistema de cuantización innovador que permite reducir el tamaño de los cachés de memoria en modelos de lenguaje de larga secuencia, operando a precisión de 2 bits. Esta solución se enfoca en resolver un problema crítico en el funcionamiento de los modelos de inteligencia artificial: el consumo excesivo de memoria por los cachés de claves y valores (KV cache) durante la decodificación autoregresiva. En escenarios con más de 100 mil tokens y múltiples solicitudes simultáneas, estos cachés pueden representar hasta el 70 por ciento del espacio de memoria gráfica disponible. La necesidad de optimizar este componente ha impulsado avances en técnicas de cuantización, especialmente en niveles de precisión muy bajos como el INT2.

El desafío principal radica en que las activaciones neuronales contienen valores extremos en un subconjunto de canales. Al aplicar cuantización en 2 bits, solo se pueden representar cuatro niveles, lo que provoca que los valores atípicos dominen el rango de escala. Como resultado, la mayoría de los valores normales se comprimen en pocos niveles, afectando drásticamente la calidad de atención del modelo. Soluciones previas, basadas en transformaciones ortogonales como la de Hadamard, lograron mejorar el rendimiento en precisión de 4 bits, pero fracasan al aplicarse a 2 bits. Esta técnica, conocida como "rotación", es "data-oblivious", es decir, no adapta su acción al comportamiento real de los canales utilizados por el mecanismo de atención. Dado que la atención no lee de forma uniforme, distribuir el error de cuantización de forma equitativa no es equivalente a dirigirlo hacia componentes menos relevantes. En el caso de 2 bits, esta distinción puede determinar si el modelo mantiene su capacidad de inferencia o falla completamente.

OSCAR introduce una innovación clave al aplicar una rotación que considera las características específicas de los canales de atención. Este enfoque permite redistribuir el rango de valores de forma más inteligente, priorizando las direcciones que realmente son leídas por el modelo. Al hacerlo, el sistema mantiene una mayor fidelidad en las predicciones, sin sacrificar el ahorro de memoria. Esta mejora es particularmente significativa en entornos de servicio de modelos de larga secuencia, donde la escalabilidad y el rendimiento son esenciales para operar con eficiencia.

Para el lector peruano, este avance tiene implicaciones directas en el acceso a tecnologías de inteligencia artificial. En un contexto donde las empresas locales buscan implementar soluciones digitales de bajo costo, como chatbots o asistentes de gestión, la capacidad de ejecutar modelos de lenguaje en dispositivos con menor potencia de procesamiento se vuelve más real. OSCAR demuestra que incluso en niveles de precisión extremos, es posible mantener la calidad funcional. Esto abre puertas para que más instituciones, desde microempresas hasta centros de educación, puedan aprovechar la potencia de la inteligencia artificial sin depender de infraestructuras de alto costo. El futuro de la automatización en Perú podría estar más cerca de lo que parece, gracias a innovaciones que reducen la barrera de entrada tecnológica.