MEMO: Modelo para actualizar conocimiento sin reentrenar LLM

Según MarkTechPost (AI/ML News), un equipo compuesto por investigadores de la Universidad Nacional de Singapur, MIT CSAIL, A*STAR y la Alianza Singapur-MIT para la Investigación y Tecnología, ha presentado una innovación en el manejo de conocimientos en modelos de lenguaje. La propuesta, denominada MEMO (Memory as a Model), aborda una limitación crítica de los grandes modelos de lenguaje: su estabilidad en el tiempo. Durante el proceso de preentrenamiento, estos modelos adquieren un conocimiento fijo, que no se actualiza ante cambios en el entorno real. Reentrenarlos completamente es una tarea costosa y poco viable en escalas modernas. Además, técnicas como el fine-tuning pueden provocar el olvido de conocimientos previos, conocido como "olvido catastrófico". Los sistemas basados en recuperación de documentos (RAG) también fallan cuando se requiere razonamiento integrado entre múltiples fuentes.

MEMO introduce una arquitectura modular que separa el proceso de almacenamiento de conocimiento de la toma de decisiones. En este diseño, se emplea un modelo especializado, el MEMORY, entrenado específicamente para almacenar información de un corpus definido. Este modelo es pequeño y se entrena de forma independiente, sin modificar los parámetros del modelo principal, denominado EXECUTIVE. El EXECUTIVE, que actúa como el núcleo de razonamiento, permanece inmutable y solo se comunica a través de su interfaz estándar. En los ensayos, el modelo MEMORY fue entrenado con Qwen2.5-14B-Instruct, mientras que el EXECUTIVE se basó en Qwen2.5-32B-Instruct o en Gemini-3-Flash, un modelo cerrado y propietario. La solución no requiere acceso a los pesos del modelo principal ni a los logits de salida, lo que simplifica su integración y aumenta la seguridad operativa.

Este enfoque permite actualizar el conocimiento de un modelo sin comprometer su funcionalidad anterior. Al aislar el módulo de memoria, se evita que el aprendizaje continuo destruya lo aprendido previamente. Además, al no depender de la transferencia de representaciones entre modelos, se reduce la limitación conocida como acoplamiento de representaciones, que dificultaba la adaptabilidad entre diferentes LLMs. La estructura modular también facilita la escalabilidad, ya que el modelo de memoria puede ser reentrenado de forma aislada y rápida, sin necesidad de modificar el sistema central.

Para los lectores peruanos, esta innovación tiene implicaciones directas en el uso de tecnologías de inteligencia artificial en entornos locales. En el sector de servicios financieros, por ejemplo, las instituciones podrían actualizar sus bases de conocimiento sobre normativas o cambios en el mercado sin reentrenar sistemas completos. Esto significaría menor costo operativo, mayor flexibilidad y una respuesta más ágil ante las fluctuaciones del entorno económico. Además, al evitar el olvido catastrófico, se preserva la consistencia en las respuestas de asesores o sistemas de apoyo, lo cual es clave para mantener la confianza de los usuarios en servicios de inversión o administración. En un contexto donde la información cambia constantemente, MEMO representa una solución práctica y sostenible para mantener la relevancia de los sistemas de inteligencia artificial.