¿Pueden los robots aprender de los videos?
Investigadores de la Universidad Carnegie Mellon han permitido que los robots aprendan las tareas del hogar al ver videos caseros de personas que realizan actividades diarias.

Los métodos actuales de entrenamiento de robots se basan en demostraciones humanas o entornos simulados, que consumen mucho tiempo y son propensos a fallar. Anteriormente se vio que los robots aprenden observando a los humanos realizar tareas. Sin embargo, el método, conocido como In-the-Wild Human Imitating Robot Learning (WHIRL), requería que los humanos completaran tareas en el mismo entorno que el robot.
Investigadores de la Universidad Carnegie Mellon han permitido que los robots aprendan las tareas del hogar al ver videos caseros de personas que realizan tareas cotidianas. Los investigadores han mejorado la utilidad del robot doméstico, lo que permite cocinar, limpiar y cuidar más. Dos robots realizan 12 tareas, incluida la apertura de cajones, puertas y tapas de hornos; retire las sartenes de la estufa; y manipulación de teléfonos y verduras y latas de sopa.
El último modelo elimina la necesidad de demostraciones humanas y la necesidad de que el robot trabaje en un entorno idéntico. Al igual que WHIRL, el robot aún necesita práctica para sobresalir en una tarea. La investigación del equipo ha demostrado que puede adquirir un nuevo negocio en tan solo 25 minutos. Los robots pueden usar este modelo para explorar el mundo que los rodea de una manera curiosa. Para entrenar al robot para interactuar con objetos, el equipo implementó el concepto de facilitaciones. Derivadas de la psicología, las invitaciones se refieren a las oportunidades que presenta un entorno para un individuo. Esta noción se ha ampliado para abarcar el diseño y la interacción humano-computadora, denotando acciones potenciales percibidas por un individuo.
En el contexto del comportamiento robótico virtual (VRB), las invitaciones sirven como pautas para determinar dónde y cómo un robot puede interactuar con un objeto, extrayendo información del comportamiento humano. Por ejemplo, al observar a una persona que abre un cajón, el robot reconoce los puntos de contacto, como el asa, y la dirección de movimiento del cajón, normalmente directamente desde la posición inicial. Al analizar varios videos de personas que abren cajones, el robot puede obtener la capacidad de abrir cualquier cajón. El equipo utilizó conjuntos de datos de video como Ego4D y Epic Kitchens para la investigación.
Los investigadores creen que esta investigación tiene el potencial de empoderar a los bots con la capacidad de obtener conocimiento de la amplia gama de videos de Internet y YouTube a los que tienen acceso.
Referencia: Hay más información disponible en el sitio web del proyecto y en un documento presentado en la conferencia Vision and Pattern Recognition en junio.