Segun MarkTechPost (AI/ML News), un equipo de investigadores de Nous Research ha desarrollado un enfoque innovador para comprender cómo los modelos de lenguaje rechazan solicitudes dañinas. Esta metodología, denominada Atribución Neuronal Contraste (CNA), analiza el comportamiento de circuitos específicos dentro de redes de capas múltiples (MLP), identificando las neuronas cuyas activaciones más claramente diferencian entre peticiones seguras y perjudiciales. Los resultados muestran que al eliminar solo el 0.1% de las activaciones de estas neuronas, se logra reducir el porcentaje de respuestas negativas en más del 50% en múltiples modelos instruccionales, incluyendo versiones de Llama y Qwen con capacidades que van desde 1B hasta 72B parámetros. A pesar de esta intervención, la calidad del contenido generado se mantiene por encima del 0.97 en todos los niveles de control aplicado.
La innovación radica en que la estructura que permite distinguir entre peticiones seguras y peligrosas ya está presente en los modelos base, sin necesidad de entrenamiento adicional. El proceso de alineación mediante fine-tuning no crea nuevas capas o patrones, sino que modifica el funcionamiento de neuronas existentes, convirtiéndolas en un mecanismo preciso y limitado para bloquear comportamientos dañinos. Este hallazgo desafía la creencia común de que el aprendizaje de alineación genera nuevas estructuras internas, y sugiere que el control de los modelos se basa en la reconfiguración de funciones preexistentes.
En contraste, los métodos tradicionales como la Adición de Activación Contraste (CAA) miden diferencias promedio entre conjuntos de prompts, aplicando un vector de dirección en tiempo de ejecución. Este enfoque, aunque funcional, actúa sobre todo el flujo de una capa, sin localizar neuronas individuales. A mayor intensidad de control, los resultados se deterioran: los modelos comienzan a repetir frases y generan textos incoherentes. Las soluciones basadas en autoencoders esparsos (SAEs), aunque ofrecen mayor interpretabilidad, requieren entrenamientos externos costosos y son vulnerables a ruidos en las activaciones. La CNA, en cambio, se ejecuta únicamente mediante pasos de avance (forward passes), sin necesidad de gradientes, entrenamiento auxiliar ni búsquedas iterativas, lo que la hace más eficiente y escalable.
Para el lector peruano, este avance tiene implicaciones directas en la confiabilidad de las herramientas de inteligencia artificial que pueden integrarse en entornos como banca digital, servicios de asesoría financiera o plataformas de atención al cliente. Al entender con precisión cuáles neuronas actúan como "puertas de seguridad", se puede diseñar una regulación más efectiva que evite que sistemas automatizados generen contenido riesgoso. Además, esta técnica permite una supervisión más transparente y responsable, lo que es clave para que las instituciones locales, especialmente en sectores regulados como el financiero, adopten tecnologías de IA con mayor seguridad y ética. En un contexto donde la confianza del usuario es esencial, la capacidad de detectar y controlar comportamientos peligrosos en tiempo real representa un paso fundamental hacia el uso responsable de la inteligencia artificial.
