Diseño e implementación de una solución de estimación de mapas de profundidad a partir de vídeo monocular basada en aprendizaje profundo

Este Trabajo de Fin de Grado se enmarca dentro de la línea de investigación en vídeo inmersivo multivista del Grupo de Tratamiento de Imágenes (GTI), en concreto del sistema FVV Live. FVV Live es un sistema de punto de vista libre que permite experiencias inmersivas realistas ya que el usuario puede navegar libremente alrededor de una escena. Este sistema depende directamente de la calidad de los datos geométricos generados sobre la escena, los cuales se representan por medio de mapas de profundidad. El objetivo principal de este proyecto es utilizar las innovaciones de la estimación de profundidad monocular para solucionar los desafíos que presenta el FVV Live, especialmente en la generación precisa de datos geométricos. Este enfoque pretende superar los límites de la captura de profundidad aprovechando los datos volumétricos del FVV Live y la eficiencia de los modelos de estimación de profundidad a partir de una sola imagen. Al combinar estos datos con los de estimación de profundidad monocular, se pretende mejorar significativamente la calidad y precisión de las reconstrucciones 3D, resolviendo así los problemas que podían encontrarse previamente. Además del objetivo anterior, en este trabajo se abordarán otros objetivos como el aprendizaje y posterior uso de distintas metodologías para trabajar con redes neuronales y aprendizaje profundo. También se usarán herramientas para la captura y el procesado de imágenes que posteriormente serán utilizadas en el FVV Live.

​Este Trabajo de Fin de Grado se enmarca dentro de la línea de investigación en vídeo inmersivo multivista del Grupo de Tratamiento de Imágenes (GTI), en concreto del sistema FVV Live. FVV Live es un sistema de punto de vista libre que permite experiencias inmersivas realistas ya que el usuario puede navegar libremente alrededor de una escena. Este sistema depende directamente de la calidad de los datos geométricos generados sobre la escena, los cuales se representan por medio de mapas de profundidad. El objetivo principal de este proyecto es utilizar las innovaciones de la estimación de profundidad monocular para solucionar los desafíos que presenta el FVV Live, especialmente en la generación precisa de datos geométricos. Este enfoque pretende superar los límites de la captura de profundidad aprovechando los datos volumétricos del FVV Live y la eficiencia de los modelos de estimación de profundidad a partir de una sola imagen. Al combinar estos datos con los de estimación de profundidad monocular, se pretende mejorar significativamente la calidad y precisión de las reconstrucciones 3D, resolviendo así los problemas que podían encontrarse previamente. Además del objetivo anterior, en este trabajo se abordarán otros objetivos como el aprendizaje y posterior uso de distintas metodologías para trabajar con redes neuronales y aprendizaje profundo. También se usarán herramientas para la captura y el procesado de imágenes que posteriormente serán utilizadas en el FVV Live. Read More