Todo lo que debe saber sobre la estimación de poses en 3D


Definición

Seguimiento de ubicación humana es un tema ampliamente estudiado cuando se trata de Deep Learning. Se utiliza principalmente para detectar las posiciones de las articulaciones de las personas, que forman un «esqueleto». Algunas de sus aplicaciones incluyen el reconocimiento de la acción humana, divertidas aplicaciones móviles, captura de movimiento, realidad virtual y aumentada, deportes, robótica, etc.

La investigación sobre la estimación de la posición del cuerpo humano en 3D es menos madura que en el caso de 2D. Hay dos enfoques principales: uno es detectar una pose 2D, luego el otro enfoque es reconstruir una pose 3D. La investigación sobre el seguimiento de la ubicación en 3D está en curso, por lo que hay poca información debido a la falta de conjuntos de datos útiles.

La mayoría de los análisis se centran en reconstruir poses 3D a partir de una sola imagen y solo unos pocos se centran en vistas múltiples. Algunos consideran la profundidad además de la imagen RGB. Muchas obras consideran un solo marco, mientras que otras privilegian las restricciones de continuidad. Por lo tanto, la detección de ubicación 3D es generalmente más intensiva en computación y en tiempo real. La mayoría de los modelos de poses en 3D usan supervisión. Sin embargo, algunos otros modelos son semisupervisados ​​o totalmente autónomos.

¿Por qué el 3D es más difícil que el 2D?

En general, recuperar la pose 3D a partir de imágenes RGB 2D es mucho más complejo que analizar la pose 2D. Esto se debe a las mayores ambigüedades y al mayor espacio de posición 3D.

Varios accesos al seguimiento de la posición del cuerpo en 3D

La detección de poses humanas se puede clasificar en dos categorías:

Métodos generativos basados ​​en modelos

métodos discriminatorios

  • El modelo de estructura pictórica se encuentra entre los modelos generativos más comunes. PSM trata al cuerpo como una estructura articulada. El modelo generalmente comprende dos descripciones: la primera es la apariencia de la estructura de todas las partes del cuerpo y la segunda es la relación espacial entre las partes adyacentes.
  • Los métodos discriminatorios también tratan la detección como un problema de regresión. Una vez que obtiene las características de una imagen, obtiene un mapeo del espacio de características al espacio de pose. Debido a la estructura articular del esqueleto humano, las posiciones de las articulaciones están notablemente conectadas.
  • Enfoques de aprendizaje profundo: en lugar de tratar manualmente las dependencias estructurales, otro enfoque más directo es integrar la estructura en la función de mapeo y comprender la representación que revela las dependencias entre las variables de salida. En este enfoque, los marcos deben descubrir patrones de ubicación humana a partir de datos.

Análisis de la pose 3D de una sola persona.

Muchos trabajos de seguimiento de poses humanas para una sola persona utilizan una sola película o imagen. Independientemente de la incertidumbre en la profundidad de la dimensión, las estructuras entrenadas en 3-D Ground Truth muestran mejores resultados para una sola persona sin oclusiones. Al igual que los humanos, una red imparcial puede aprender a predecir la profundidad a partir de una sola imagen si ya ha manejado ejemplos similares.

Ubicación de varias personas en 3D

Oclusiones: Los principales problemas en posiciones 3D multipersona. Además, casi no hay conjuntos de datos de ubicación 3D de varias personas interpretados como el conjunto de datos Human 3.6. Muchos conjuntos de datos de varias personas carecen de GT efectivo o no son prácticos.

La publicación Todo lo que debe saber sobre la estimación de poses en 3D apareció por primera vez en Datafloq.