Escalado y reconstrucción de imágenes

El propósito principal de este proyecto es diseñar y desarrollar modelos de redes neuronales para la reconstrucción y escalado de imágenes, con aplicaciones en medicina, astronomía y seguridad. Además, se busca comparar diversas arquitecturas de redes neuronales para determinar el modelo más eficiente y analizar su precisión en la restauración y escalado de imágenes.
La metodología se divide en dos etapas. Primero, se ha creado un conjunto de datos con imágenes en tres resoluciones: alta, media y baja. Las imágenes originales de 2k se han reducido a 1024 × 1024 y se les han aplicado transformaciones para su entrenamiento. Segundo, se han diseñado y entrenado varios modelos de redes neuronales, incluyendo autoencoders, Autoencoders Variacionales (VAE), y tres versiones de Redes Generativas Adversarias Condicionales (cGAN): una cGAN básica, una basada en la arquitectura pix2pix y otra en la arquitectura Súper Resolución Profunda Mejorada (EDSR).
Pese a que las métricas tradicionales como la Porción Máxima de Señal a Ruido (PSNR) y el Índice de Similitud Estructural (SSIM) pueden ser indicativas respecto a la calidad de las imágenes, no siempre reflejan la calidad visual percibida. El autoencoder obtuvo resultados prometedores en las métricas analíticas, pero los resultados visuales en resoluciones bajas han sido insatisfactorias. Por otro lado, la cGAN EDSR ha sido la más prometedora en cuanto a resultados analíticos y visuales, a costa de un mayor tiempo de entrenamiento.
Los resultados obtenidos en el proyecto parecen indicar que es posible mejorar significativamente la calidad de imágenes deterioradas mediante modelos de redes neuronales. La comparación de diferentes arquitecturas ha permitido identificar modelos eficientes y precisos para aplicaciones prácticas.
Abstract:
The main purpose of this project is to design and develop neural network models for image reconstruction and scaling, with applications in medicine, astronomy, and security. Additionally, the project aims to compare various neural network architectures to determine the most efficient model and analyze its accuracy in image restoration and scaling.
The methodology is divided into two stages. Firstly, a dataset was created with images in three resolutions: high, medium, and low. The original 2K images were reduced to 1024 × 1024 and underwent transformations for training purposes. Secondly, several neural network models were designed and trained, including autoencoders, Variational Autoencoders (VAEs), and three versions of Conditional Generative Adversarial Networks (cGANs): a basic cGAN, one based on the pix2pix architecture, and another on the Enhanced Deep Super Resolution (EDSR) architecture.
Although traditional metrics such as Peak Signal-to-Noise Ratio (PSNR) and Structural Similarity Index Measure (SSIM) can indicate the quality of images, they do not always reflect perceived visual quality. The autoencoder yielded promising results in analytical metrics, but the visual results at low resolutions were unsatisfactory. On the other hand, the EDSR cGAN was the most promising in terms of both analytical and visual results, at the cost of longer training times.
The results obtained in the project suggest that it is possible to significantly improve the quality of deteriorated images through neural network models. Comparing different architectures has allowed the identification of efficient and accurate models for practical applications.

​El propósito principal de este proyecto es diseñar y desarrollar modelos de redes neuronales para la reconstrucción y escalado de imágenes, con aplicaciones en medicina, astronomía y seguridad. Además, se busca comparar diversas arquitecturas de redes neuronales para determinar el modelo más eficiente y analizar su precisión en la restauración y escalado de imágenes.
La metodología se divide en dos etapas. Primero, se ha creado un conjunto de datos con imágenes en tres resoluciones: alta, media y baja. Las imágenes originales de 2k se han reducido a 1024 × 1024 y se les han aplicado transformaciones para su entrenamiento. Segundo, se han diseñado y entrenado varios modelos de redes neuronales, incluyendo autoencoders, Autoencoders Variacionales (VAE), y tres versiones de Redes Generativas Adversarias Condicionales (cGAN): una cGAN básica, una basada en la arquitectura pix2pix y otra en la arquitectura Súper Resolución Profunda Mejorada (EDSR).
Pese a que las métricas tradicionales como la Porción Máxima de Señal a Ruido (PSNR) y el Índice de Similitud Estructural (SSIM) pueden ser indicativas respecto a la calidad de las imágenes, no siempre reflejan la calidad visual percibida. El autoencoder obtuvo resultados prometedores en las métricas analíticas, pero los resultados visuales en resoluciones bajas han sido insatisfactorias. Por otro lado, la cGAN EDSR ha sido la más prometedora en cuanto a resultados analíticos y visuales, a costa de un mayor tiempo de entrenamiento.
Los resultados obtenidos en el proyecto parecen indicar que es posible mejorar significativamente la calidad de imágenes deterioradas mediante modelos de redes neuronales. La comparación de diferentes arquitecturas ha permitido identificar modelos eficientes y precisos para aplicaciones prácticas.
Abstract:
The main purpose of this project is to design and develop neural network models for image reconstruction and scaling, with applications in medicine, astronomy, and security. Additionally, the project aims to compare various neural network architectures to determine the most efficient model and analyze its accuracy in image restoration and scaling.
The methodology is divided into two stages. Firstly, a dataset was created with images in three resolutions: high, medium, and low. The original 2K images were reduced to 1024 × 1024 and underwent transformations for training purposes. Secondly, several neural network models were designed and trained, including autoencoders, Variational Autoencoders (VAEs), and three versions of Conditional Generative Adversarial Networks (cGANs): a basic cGAN, one based on the pix2pix architecture, and another on the Enhanced Deep Super Resolution (EDSR) architecture.
Although traditional metrics such as Peak Signal-to-Noise Ratio (PSNR) and Structural Similarity Index Measure (SSIM) can indicate the quality of images, they do not always reflect perceived visual quality. The autoencoder yielded promising results in analytical metrics, but the visual results at low resolutions were unsatisfactory. On the other hand, the EDSR cGAN was the most promising in terms of both analytical and visual results, at the cost of longer training times.
The results obtained in the project suggest that it is possible to significantly improve the quality of deteriorated images through neural network models. Comparing different architectures has allowed the identification of efficient and accurate models for practical applications. Read More