Búsqueda de imágenes de arquitectura mediante modelos de Deep Learning

La búsqueda de imágenes similares ha surgido como un recurso esencial en muchos campos, desde la investigación académica hasta la industria creativa. Este Trabajo de Fin de Grado se enfoca en el desarrollo de un sistema de búsqueda de imágenes similares, específicamente en el ámbito de la arquitectura española entre los años 1939 y 1975. Esto se ha conseguido a través de la integración de modelos de aprendizaje profundo preentrenados (DINOv2 y CLIP) en un sistema de búsqueda de imágenes basadas en el contenido (CBIR). Además de la implementación de este sistema, el trabajo pretende contribuir al estudio e investigación de la arquitectura en España. Concretamente, la principal motivación de este Trabajo de Fin de Grado radica en continuar la línea de trabajo del proyecto de investigación Architext Mining, que implementan un sistema de búsqueda basado en texto de revistas de arquitectura. Se pretende ampliarlo para que también soporte búsquedas basadas en imágenes. Para llevar a cabo el desarrollo del trabajo se ha utilizado un amplio conjunto de imágenes, extraídas de distintas revistas de arquitectura españolas digitalizadas. Para poder alimentar el sistema de búsqueda con imágenes de buena calidad, una parte del trabajo se ha centrado en el preprocesamiento de estas, el cual ha presentado desafíos importantes, ya que las imágenes fueron extraídas con herramientas automáticas y muchas de ellas presentan distintos errores. El núcleo del trabajo se centra en el desarrollo de un sistema de búsqueda de imágenes similares basada en una imagen de consulta. Para ello, se ha implementado una arquitectura de un sistema CBIR en el que DINOv2 y CLIP son los encargados de la extracción de características. DINOv2 es un modelo preentrenado de aprendizaje profundo, creado por Meta Research (Facebook) en abril de 2023 y utilizado en varias aplicaciones de visión por computador con unos resultados muy positivos. CLIP es otro modelo preentrenado de aprendizaje profundo, desarrollado por OpenAI en 2021, con una gran capacidad de comprender el contenido visual a través de la asociación entre imágenes y texto. La combinación de estos modelos con la herramienta de Facebook FAISS, la cual contiene algoritmos eficientes para almacenar y realizar búsquedas de vectores, permiten implementar el sistema CBIR que se busca en este Trabajo de Fin de Grado. Además del desarrollo técnico, parte del trabajo se centra en la creación de una interfaz de usuario intuitiva y accesible. Esta interfaz permite interactuar de manera efectiva con el sistema, facilitando las búsquedas a los usuarios interesados. El resultado final del trabajo se basa en una aplicación web con esta interfaz implementada y que soporta búsquedas rápidas y eficientes. Para tener una idea del funcionamiento del sistema se ha llevado a cabo un proceso de evaluación de resultados, donde se han obtenido distintas métricas que permiten comparar DINOv2 y CLIP, además de proporcionar una visión de cómo funcionaría el sistema en un entorno real. Durante esta evaluación se pueden observar resultados satisfactorios del sistema utilizando ambos modelos, lo que indica que está preparado para ayudar a la investigación arquitectónica con un nuevo enfoque de búsquedas basadas en imágenes.
ABSTRACT
Similar image search has emerged as an essential resource in many fields, from academic research to the creative industry. This project focuses on developing a similar image search system, specifically in the field of Spanish architecture developed between 1939 and 1975. This has been achieved through the integration of pre-trained deep learning models (DINOv2 and CLIP) into a Content Based Image Retrieval (CBIR) system. In addition to the implementation of this system, the work aims to contribute to the study and research of architecture in Spain. Specifically, the main motivation of this Final Degree Project lies in continuing the line of work of the Architext Mining research project, which implements a text-based search system in architectural journals. The intention is to extend it to also support image-based searches. To develop the system, a large set of images, extracted from different digitized Spanish architectural journals has been used. In order to feed the search system with good quality images, part of the work has focused on the preprocessing of these images, which presents important challenges, since the images were extracted with automatic tools and many of them present different errors. The core of the work focuses on the development of a system to search for similar images based on a query image. For this purpose, a CBIR system architecture has been implemented in which DINOv2 and CLIP are in charge of feature extraction. DINOv2 is a pre-trained deep learning model, launched by Meta Research (Facebook) in April 2023 and used in several computer vision applications with very positive results. CLIP is another pre-trained deep learning model, developed by OpenAI in 2021, with a strong ability to understand visual content through image-text association. The combination of these models with the Facebook FAISS tool, which contains efficient algorithms for storing and performing vector searches, allow implementing the CBIR system sought in this Final Degree Project. In addition to the technical development, part of the work focuses on the creation of an intuitive and accessible user interface. This interface allows to interact effectively with the system, facilitating searches to interested users. The final result of the work is based on a web application with this interface implemented and supporting fast and efficient searches. To get an idea of how good the system works, a results evaluation process has been conducted, where different metrics have been obtained to compare DINOv2 and CLIP, as well as to provide a vision of how the system would work in a real environment. During this evaluation, satisfactory results of the system can be observed using both models, indicating that it is ready to assist architectural research with a new approach to image-based searches.

​La búsqueda de imágenes similares ha surgido como un recurso esencial en muchos campos, desde la investigación académica hasta la industria creativa. Este Trabajo de Fin de Grado se enfoca en el desarrollo de un sistema de búsqueda de imágenes similares, específicamente en el ámbito de la arquitectura española entre los años 1939 y 1975. Esto se ha conseguido a través de la integración de modelos de aprendizaje profundo preentrenados (DINOv2 y CLIP) en un sistema de búsqueda de imágenes basadas en el contenido (CBIR). Además de la implementación de este sistema, el trabajo pretende contribuir al estudio e investigación de la arquitectura en España. Concretamente, la principal motivación de este Trabajo de Fin de Grado radica en continuar la línea de trabajo del proyecto de investigación Architext Mining, que implementan un sistema de búsqueda basado en texto de revistas de arquitectura. Se pretende ampliarlo para que también soporte búsquedas basadas en imágenes. Para llevar a cabo el desarrollo del trabajo se ha utilizado un amplio conjunto de imágenes, extraídas de distintas revistas de arquitectura españolas digitalizadas. Para poder alimentar el sistema de búsqueda con imágenes de buena calidad, una parte del trabajo se ha centrado en el preprocesamiento de estas, el cual ha presentado desafíos importantes, ya que las imágenes fueron extraídas con herramientas automáticas y muchas de ellas presentan distintos errores. El núcleo del trabajo se centra en el desarrollo de un sistema de búsqueda de imágenes similares basada en una imagen de consulta. Para ello, se ha implementado una arquitectura de un sistema CBIR en el que DINOv2 y CLIP son los encargados de la extracción de características. DINOv2 es un modelo preentrenado de aprendizaje profundo, creado por Meta Research (Facebook) en abril de 2023 y utilizado en varias aplicaciones de visión por computador con unos resultados muy positivos. CLIP es otro modelo preentrenado de aprendizaje profundo, desarrollado por OpenAI en 2021, con una gran capacidad de comprender el contenido visual a través de la asociación entre imágenes y texto. La combinación de estos modelos con la herramienta de Facebook FAISS, la cual contiene algoritmos eficientes para almacenar y realizar búsquedas de vectores, permiten implementar el sistema CBIR que se busca en este Trabajo de Fin de Grado. Además del desarrollo técnico, parte del trabajo se centra en la creación de una interfaz de usuario intuitiva y accesible. Esta interfaz permite interactuar de manera efectiva con el sistema, facilitando las búsquedas a los usuarios interesados. El resultado final del trabajo se basa en una aplicación web con esta interfaz implementada y que soporta búsquedas rápidas y eficientes. Para tener una idea del funcionamiento del sistema se ha llevado a cabo un proceso de evaluación de resultados, donde se han obtenido distintas métricas que permiten comparar DINOv2 y CLIP, además de proporcionar una visión de cómo funcionaría el sistema en un entorno real. Durante esta evaluación se pueden observar resultados satisfactorios del sistema utilizando ambos modelos, lo que indica que está preparado para ayudar a la investigación arquitectónica con un nuevo enfoque de búsquedas basadas en imágenes.
ABSTRACT
Similar image search has emerged as an essential resource in many fields, from academic research to the creative industry. This project focuses on developing a similar image search system, specifically in the field of Spanish architecture developed between 1939 and 1975. This has been achieved through the integration of pre-trained deep learning models (DINOv2 and CLIP) into a Content Based Image Retrieval (CBIR) system. In addition to the implementation of this system, the work aims to contribute to the study and research of architecture in Spain. Specifically, the main motivation of this Final Degree Project lies in continuing the line of work of the Architext Mining research project, which implements a text-based search system in architectural journals. The intention is to extend it to also support image-based searches. To develop the system, a large set of images, extracted from different digitized Spanish architectural journals has been used. In order to feed the search system with good quality images, part of the work has focused on the preprocessing of these images, which presents important challenges, since the images were extracted with automatic tools and many of them present different errors. The core of the work focuses on the development of a system to search for similar images based on a query image. For this purpose, a CBIR system architecture has been implemented in which DINOv2 and CLIP are in charge of feature extraction. DINOv2 is a pre-trained deep learning model, launched by Meta Research (Facebook) in April 2023 and used in several computer vision applications with very positive results. CLIP is another pre-trained deep learning model, developed by OpenAI in 2021, with a strong ability to understand visual content through image-text association. The combination of these models with the Facebook FAISS tool, which contains efficient algorithms for storing and performing vector searches, allow implementing the CBIR system sought in this Final Degree Project. In addition to the technical development, part of the work focuses on the creation of an intuitive and accessible user interface. This interface allows to interact effectively with the system, facilitating searches to interested users. The final result of the work is based on a web application with this interface implemented and supporting fast and efficient searches. To get an idea of how good the system works, a results evaluation process has been conducted, where different metrics have been obtained to compare DINOv2 and CLIP, as well as to provide a vision of how the system would work in a real environment. During this evaluation, satisfactory results of the system can be observed using both models, indicating that it is ready to assist architectural research with a new approach to image-based searches. Read More