Transformación de datos tabulares a imágenes sintéticas: optimización y evaluación de la librería TINTOlib en Python

El análisis de datos tabulares con modelos de aprendizaje profundo representa un desafío considerable, debido a la naturaleza heterogénea de la entrada de los datos. Este trabajo de fin de máster explora el uso de novedosas técnicas de transformación de datos tabulares heterogéneos en imágenes sintéticas, facilitando así su procesamiento mediante redes neuronales profundas. La hipótesis central sostiene que la representación visual de datos tabulares puede mejorar la eficacia de los modelos de aprendizaje profundo al proporcionar una estructura espacial que estos modelos pueden explotar.
Las principales contribuciones de este trabajo incluyen el desarrollo de nuevos métodos y la optimización de TINTOlib, una librería en Python diseñada para la conversión de datos tabulares en imágenes sintéticas. Esta herramienta es pionera en integrar múltiples métodos en una única librería. Se han implementado: Equidistant Bar Graphs, Normalized Distance Matrix, Combination of Options, Image Generator for Tabular Data, REpresentation of Features as Images with NEighborhood Dependencies, Super Tabular data Machine Learning, TINTO, Binary Image Encoding y Vector-of-Feature Wrapping. Con el desarrollo de la librería, se simplifica el acceso y uso de los métodos de transformación de datos tabulares a imágenes sintéticas para la comunidad científica y técnica.
Los resultados obtenidos validan la hipótesis, demostrando que las imágenes sintéticas generadas permiten una interpretación efectiva de los datos, superior, en algunos casos, a los análisis realizados mediante algoritmos clásicos de aprendizaje automático. Sin embargo, se ha comprobado que los métodos Normalized Distance Matrix y REpresentation of Features as Images with NEighborhood Dependencies, para datasets con datos numéricos en diferentes escalas, producen representaciones con significativas pérdidas de información que imposibilitan el entrenamiento de modelos de redes de neuronas.
ABSTRACT
The analysis of tabular data with deep learning models represents a considerable challenge, due to the heterogeneous nature of the data input. This master’s thesis explores the use of novel techniques for transforming heterogeneous tabular data into synthetic images, thus facilitating their processing by deep neural networks. The central hypothesis holds that visual representation of tabular data can improve the effectiveness of deep learning models by providing a spatial structure that these models can exploit.
The main contributions of this work include the development of new methods and the optimization of TINTOlib, a Python library designed for the conversion of tabular data into synthetic images. This tool is a pioneer in integrating multiple methods in a single library. The following have been implemented: Equidistant Bar Graphs, Normalized Distance Matrix, Combination of Options, Image Generator for Tabular Data, REpresentation of Features as Images with NEighborhood Dependencies, Super Tabular data Machine Learning, TINTO, Binary Image Encoding and Vector-of-Feature Wrapping. With the development of the library, the access and use of the methods of transformation of tabular data to synthetic images is simplified for the scientific and technical community.
The results obtained validate the hypothesis, demonstrating that the synthetic images generated allow for an effective interpretation of the data, superior, in some cases, to the analysis performed by classical machine learning algorithms. However, it was proven that the Normalized Distance Matrix and REpresentation of Features as Images with NEighborhood Dependencies methods, for datasets with numerical data at different scales, produce representations with significant loss of information that make it impossible to train neural network models.

​El análisis de datos tabulares con modelos de aprendizaje profundo representa un desafío considerable, debido a la naturaleza heterogénea de la entrada de los datos. Este trabajo de fin de máster explora el uso de novedosas técnicas de transformación de datos tabulares heterogéneos en imágenes sintéticas, facilitando así su procesamiento mediante redes neuronales profundas. La hipótesis central sostiene que la representación visual de datos tabulares puede mejorar la eficacia de los modelos de aprendizaje profundo al proporcionar una estructura espacial que estos modelos pueden explotar.
Las principales contribuciones de este trabajo incluyen el desarrollo de nuevos métodos y la optimización de TINTOlib, una librería en Python diseñada para la conversión de datos tabulares en imágenes sintéticas. Esta herramienta es pionera en integrar múltiples métodos en una única librería. Se han implementado: Equidistant Bar Graphs, Normalized Distance Matrix, Combination of Options, Image Generator for Tabular Data, REpresentation of Features as Images with NEighborhood Dependencies, Super Tabular data Machine Learning, TINTO, Binary Image Encoding y Vector-of-Feature Wrapping. Con el desarrollo de la librería, se simplifica el acceso y uso de los métodos de transformación de datos tabulares a imágenes sintéticas para la comunidad científica y técnica.
Los resultados obtenidos validan la hipótesis, demostrando que las imágenes sintéticas generadas permiten una interpretación efectiva de los datos, superior, en algunos casos, a los análisis realizados mediante algoritmos clásicos de aprendizaje automático. Sin embargo, se ha comprobado que los métodos Normalized Distance Matrix y REpresentation of Features as Images with NEighborhood Dependencies, para datasets con datos numéricos en diferentes escalas, producen representaciones con significativas pérdidas de información que imposibilitan el entrenamiento de modelos de redes de neuronas.
ABSTRACT
The analysis of tabular data with deep learning models represents a considerable challenge, due to the heterogeneous nature of the data input. This master’s thesis explores the use of novel techniques for transforming heterogeneous tabular data into synthetic images, thus facilitating their processing by deep neural networks. The central hypothesis holds that visual representation of tabular data can improve the effectiveness of deep learning models by providing a spatial structure that these models can exploit.
The main contributions of this work include the development of new methods and the optimization of TINTOlib, a Python library designed for the conversion of tabular data into synthetic images. This tool is a pioneer in integrating multiple methods in a single library. The following have been implemented: Equidistant Bar Graphs, Normalized Distance Matrix, Combination of Options, Image Generator for Tabular Data, REpresentation of Features as Images with NEighborhood Dependencies, Super Tabular data Machine Learning, TINTO, Binary Image Encoding and Vector-of-Feature Wrapping. With the development of the library, the access and use of the methods of transformation of tabular data to synthetic images is simplified for the scientific and technical community.
The results obtained validate the hypothesis, demonstrating that the synthetic images generated allow for an effective interpretation of the data, superior, in some cases, to the analysis performed by classical machine learning algorithms. However, it was proven that the Normalized Distance Matrix and REpresentation of Features as Images with NEighborhood Dependencies methods, for datasets with numerical data at different scales, produce representations with significant loss of information that make it impossible to train neural network models. Read More