Microsoft lanza Webwright: marco para agentes web con terminal nativo

Segun MarkTechPost (AI/ML News), un equipo de investigación de Microsoft Research ha presentado Webwright, un marco abierto diseñado para agentes de inteligencia artificial que opera directamente desde una terminal, eliminando la dependencia de sesiones de navegador estables. Este avance representa una evolución clave en cómo los sistemas de inteligencia artificial interactúan con interfaces web, desplazando el modelo tradicional de interacción paso a paso. En el escenario actual, los agentes suelen recibir el estado de una página como imagen o texto de DOM y proponen una acción —como clic o entrada— en secuencia. Esa arquitectura, aunque funcional en épocas tempranas, se vuelve rígida cuando los modelos de lenguaje adquieren mayor capacidad para escribir y depurar código. Webwright rompe con esa secuencia, ofreciendo una alternativa más flexible y eficiente.

El sistema no opera dentro de una sesión persistente de navegador, sino que permite al agente lanzar, monitorear y abandonar la interfaz web durante el desarrollo. En su lugar, el proceso se centra en el código generado y los registros de ejecución, almacenados en un entorno local. Este enfoque es similar al que emplean los desarrolladores al crear scripts de automatización de procesos (RPA), donde un conjunto de instrucciones se escribe una vez y luego se ejecuta repetidamente, adaptándose según sea necesario. Webwright aplica esta lógica a agentes impulsados por modelos de lenguaje, permitiéndoles escribir código mediante Playwright —una biblioteca abierta de Microsoft— para controlar navegadores como Chromium, Firefox o WebKit. Los resultados se generan en forma iterativa, con el agente revisando logs, validando respuestas y ajustando su lógica sin necesidad de acciones manuales.

El marco se compone de tres módulos esenciales: un ejecutor de aproximadamente 150 líneas, una interfaz de modelo de unos 550 líneas y un entorno terminal de alrededor de 300 líneas. A diferencia de arquitecturas que requieren jerarquías de planificación o coordinación entre múltiples agentes, Webwright se basa en un bucle sencillo y directo. Cada ejecución genera registros completos: código intermedio, capturas de pantalla, logs y resultados, todos almacenados en el entorno de trabajo. Esto permite a cualquier usuario revisar y validar cada paso sin necesidad de depender de una sesión persistente.

Para los lectores peruanos, este avance tiene un significado práctico. Muchas tareas cotidianas —como gestionar facturas, verificar contratos o monitorear páginas de servicios públicos— requieren interacciones repetitivas con sitios web. Con herramientas como Webwright, es posible automatizar esas tareas con mayor precisión y escalabilidad, reduciendo errores humanos y aumentando la eficiencia en entornos de administración o finanzas. Aunque aún en fase inicial, su potencial para integrarse en sistemas de control de operaciones o asistentes digitales es considerable, especialmente en entornos donde la velocidad y la fiabilidad son clave.