Una forma más efectiva de entrenar máquinas para situaciones inciertas y reales

Las imágenes para descargar en el sitio web de la oficina de noticias del MIT están disponibles para entidades no comerciales, la prensa y el público en general bajo una licencia Creative Commons Attribution Non-Commercial No Derivatives. No puede alterar las imágenes proporcionadas, excepto para recortarlas al tamaño. Se debe utilizar una línea de crédito al reproducir imágenes; si no se proporciona uno a continuación, acredite las imágenes a "MIT".

Imagen anterior Imagen siguiente

Alguien que esté aprendiendo a jugar tenis podría contratar a un maestro para que lo ayude a aprender más rápido. Debido a que este maestro es (con suerte) un gran jugador de tenis, hay momentos en los que tratar de imitar exactamente al maestro no ayudará al estudiante a aprender. Quizás el maestro salta alto en el aire para devolver hábilmente una volea. El estudiante, incapaz de copiar eso, podría intentar algunos otros movimientos por su cuenta hasta que haya dominado las habilidades que necesita para devolver voleas.

Los científicos informáticos también pueden usar sistemas de "maestro" para entrenar a otra máquina para que complete una tarea. Pero al igual que con el aprendizaje humano, la máquina estudiante se enfrenta al dilema de saber cuándo seguir al profesor y cuándo explorar por su cuenta. Con este fin, investigadores del MIT y Technion, el Instituto de Tecnología de Israel, han desarrollado un algoritmo que determina de forma automática e independiente cuándo el alumno debe imitar al profesor (conocido como aprendizaje por imitación) y cuándo debe aprender por ensayo y error (conocido como como aprendizaje por refuerzo).

Su enfoque dinámico permite que el estudiante se desvíe de copiar al maestro cuando el maestro es demasiado bueno o no lo suficientemente bueno, y luego volver a seguir al maestro en un punto posterior del proceso de capacitación si al hacerlo lograría mejores resultados y un aprendizaje más rápido.

Cuando los investigadores probaron este enfoque en simulaciones, descubrieron que su combinación de aprendizaje por ensayo y error y aprendizaje por imitación permitía a los estudiantes aprender tareas de manera más efectiva que los métodos que usaban solo un tipo de aprendizaje.

Este método podría ayudar a los investigadores a mejorar el proceso de entrenamiento de las máquinas que se implementarán en situaciones inciertas del mundo real, como un robot que se entrena para navegar dentro de un edificio que nunca antes había visto.

"Esta combinación de aprendizaje por prueba y error y seguir a un maestro es muy poderosa. Le da a nuestro algoritmo la capacidad de resolver tareas muy difíciles que no se pueden resolver usando ninguna de las dos técnicas individualmente", dice Idan Shenfeld, ingeniero eléctrico e informático. (EECS) estudiante de posgrado y autor principal de un artículo sobre esta técnica.

Shenfeld escribió el artículo con los coautores Zhang-Wei Hong, estudiante de posgrado de EECS; Aviv Tamar; profesor asistente de ingeniería eléctrica e informática en Technion; y el autor principal Pulkit Agrawal, director de Improbable AI Lab y profesor asistente en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático.

Logrando un equilibrio

Muchos métodos existentes que buscan lograr un equilibrio entre el aprendizaje por imitación y el aprendizaje por refuerzo lo hacen a través de prueba y error de fuerza bruta. Los investigadores eligen una combinación ponderada de los dos métodos de aprendizaje, ejecutan todo el procedimiento de entrenamiento y luego repiten el proceso hasta que encuentran el equilibrio óptimo. Esto es ineficiente y, a menudo, tan costoso computacionalmente que ni siquiera es factible.

"Queremos algoritmos basados en principios, que involucren el ajuste de la menor cantidad posible de perillas y que logren un alto rendimiento: estos principios han impulsado nuestra investigación", dice Agrawal.

Para lograr esto, el equipo abordó el problema de manera diferente al trabajo anterior. Su solución implica entrenar a dos estudiantes: uno con una combinación ponderada de aprendizaje por refuerzo y aprendizaje por imitación, y un segundo que solo puede usar el aprendizaje por refuerzo para aprender la misma tarea.

La idea principal es ajustar de forma automática y dinámica la ponderación de los objetivos de aprendizaje de refuerzo e imitación del primer alumno. Aquí es donde entra en juego el segundo estudiante. El algoritmo de los investigadores compara continuamente a los dos estudiantes. Si el que usa al profesor lo está haciendo mejor, el algoritmo pone más peso en el aprendizaje por imitación para entrenar al estudiante, pero si el que usa solo prueba y error comienza a obtener mejores resultados, se enfocará más en el aprendizaje por refuerzo.

Al determinar dinámicamente qué método logra mejores resultados, el algoritmo se adapta y puede elegir la mejor técnica a lo largo del proceso de entrenamiento. Gracias a esta innovación, puede enseñar a los estudiantes de manera más efectiva que otros métodos que no son adaptativos, dice Shenfeld.

"Uno de los principales desafíos en el desarrollo de este algoritmo fue que nos llevó algún tiempo darnos cuenta de que no debíamos entrenar a los dos estudiantes de forma independiente. Quedó claro que necesitábamos conectar a los agentes para que compartieran información y luego encontrar el adecuado". forma de fundamentar técnicamente esta intuición", dice Shenfeld.

Resolviendo problemas difíciles

Para probar su enfoque, los investigadores establecieron muchos experimentos simulados de capacitación de maestros y estudiantes, como navegar a través de un laberinto de lava para llegar a la otra esquina de una cuadrícula. En este caso, el profesor tiene un mapa de toda la cuadrícula mientras que el alumno solo puede ver un parche delante de ella. Su algoritmo logró una tasa de éxito casi perfecta en todos los entornos de prueba y fue mucho más rápido que otros métodos.

Para darle a su algoritmo una prueba aún más difícil, configuraron una simulación que involucra una mano robótica con sensores táctiles pero sin visión, que debe reorientar un bolígrafo a la postura correcta. El maestro tenía acceso a la orientación real del bolígrafo, mientras que el estudiante solo podía usar sensores táctiles para determinar la orientación del bolígrafo.

Su método superó a otros que usaban solo aprendizaje por imitación o solo aprendizaje por refuerzo.

Reorientar objetos es una de las muchas tareas de manipulación que un futuro robot doméstico tendría que realizar, una visión en la que está trabajando el laboratorio de IA de Improbable, agrega Agrawal.

El aprendizaje profesor-alumno se ha aplicado con éxito para entrenar robots para realizar la manipulación y locomoción de objetos complejos en simulación y luego transferir las habilidades aprendidas al mundo real. En estos métodos, el profesor tiene información privilegiada accesible desde la simulación que el alumno no tendrá cuando se despliegue en el mundo real. Por ejemplo, el profesor conocerá el mapa detallado de un edificio en el que el robot estudiante está siendo entrenado para navegar usando solo imágenes capturadas por su cámara.

"Los métodos actuales para el aprendizaje de estudiantes y maestros en robótica no tienen en cuenta la incapacidad del estudiante para imitar al maestro y, por lo tanto, tienen un rendimiento limitado. El nuevo método allana el camino para construir robots superiores", dice Agrawal.

Además de mejores robots, los investigadores creen que su algoritmo tiene el potencial de mejorar el rendimiento en diversas aplicaciones donde se utiliza el aprendizaje por imitación o por refuerzo. Por ejemplo, los modelos de lenguaje grande como GPT-4 son muy buenos para realizar una amplia gama de tareas, por lo que tal vez uno podría usar el modelo grande como maestro para entrenar a un modelo de estudiante más pequeño para que sea aún "mejor" en una tarea en particular. . Otra dirección emocionante es investigar las similitudes y diferencias entre las máquinas y los humanos que aprenden de sus respectivos maestros. Tal análisis podría ayudar a mejorar la experiencia de aprendizaje, dicen los investigadores.

"Lo interesante de este enfoque en comparación con los métodos relacionados es lo sólido que parece para varias opciones de parámetros y la variedad de dominios en los que muestra resultados prometedores", dice Abhishek Gupta, profesor asistente de la Universidad de Washington, que no participó en el estudio. este trabajo. "Si bien el conjunto actual de resultados se encuentra en gran parte en simulación, estoy muy entusiasmado con las posibilidades futuras de aplicar este trabajo a problemas relacionados con la memoria y el razonamiento con diferentes modalidades, como la detección táctil".

"Este trabajo presenta un enfoque interesante para reutilizar el trabajo computacional anterior en el aprendizaje por refuerzo. En particular, su método propuesto puede aprovechar las políticas docentes subóptimas como guía y evitar los cuidadosos programas de hiperparámetros requeridos por los métodos anteriores para equilibrar los objetivos de imitar al docente versus optimizar la tarea. recompensa", agrega Rishabh Agarwal, científico investigador sénior de Google Brain, que tampoco participó en esta investigación. "Con suerte, este trabajo haría que la reencarnación del aprendizaje por refuerzo con políticas aprendidas fuera menos engorrosa".

Esta investigación fue apoyada, en parte, por MIT-IBM Watson AI Lab, Hyundai Motor Company, DARPA Machine Common Sense Program y la Oficina de Investigación Naval.

Elemento anterior Elemento siguiente

Lograr un equilibrio Resolver problemas difíciles