Generador de datos sintéticos tabulares basado en modelos de difusión

La inteligencia artificial generativa está suponiendo una revolución en la comunidad científica y en la sociedad mundial. Modelos como ChatGPT, SORA y DALLE-2 han marcado un antes y un después. Un campo aún poco explorado de la inteligencia artificial generativa son los datos tabulares, los cuales son de vital importancia para diversas tareas como entrenar modelos de inteligencia artificial, llevar a cabo estudios médicos sobre pacientes o modelar comportamientos de la sociedad, entre otras aplicaciones.
En los últimos tiempos ha crecido el interés por la generación de datos sintéticos tabulares, aumentando el número de investigaciones. Entre ellas destaca TabDDPM (Kotelnikov et al., 2022), que propone modelos capaces de replicar multitud de conjuntos de datos de diferentes ámbitos. El principal problema de este tipo de datos es la dificultad de validar correctamente los datos generados, que en muchos casos son muy sensibles. Un caso en el que es crucial realizar una correcta validación es cuando se generan datos sintéticos de pacientes médicos. Estos datos, además de ser muy sensibles a variaciones, requieren un trato especial debido a su naturaleza médica.
El presente trabajo se centra en la implementación y validación de modelos de inteligencia artificial generativa aplicada a datos tabulares. Para ello, se desarrolla un modelo con una nueva arquitectura híbrida. Está basada en los modelos de difusión y cuenta con un codificador basado en Transformers, el cual mejora la validación de los datos generados. Este modelo se ha entrenado con diferentes cantidades de datos: 10, 50, 100, 500, 1.000, 5.000, 10.000 y 20.000. El conjunto de datos utilizado es uno de los empleados por TabDDPM, específicamente un conjunto de datos médicos de pacientes con enfermedades cardiovasculares.
Para realizar una validación de los datos lo más completa posible, en este trabajo se propone una nueva taxonomía de validación de datos tabulares basada en tres ejes: utilidad, calidad y privacidad. Cada uno de los ejes cuenta con subapartados que abarcan los diferentes aspectos de los datos, siendo todos ellos de vital importancia para la validación, ya que ninguno es una condición suficiente por sí solo para asegurar que los datos sean válidos.
Los resultados obtenidos muestran que los datos generados logran un equilibrio adecuado entre utilidad, calidad y privacidad. En particular, el modelo propuesto en el caso 10.000 datos de entrenamiento ha alcanzado un excelente equilibrio entre las métricas de la taxonomía y, por ello, se emplea para generar un conjunto de 20.000 datos. Otro conjunto de datos sintéticos que sorprende por su rendimiento es el que se obtuvo al entrenar el modelo propuesto con tan solo 10 datos, que ha conseguido buenos resultados en las validaciones de privacidad y calidad.
Este trabajo muestra que es posible generar datos sintéticos tabulares de alta utilidad, calidad y privacidad, así como establecer una metodología de validación robusta. Se espera que este trabajo sirva de base para otros futuros en el campo de la inteligencia artificial generativa aplicada a datos tabulares.
ABSTRACT
Generative artificial intelligence is revolutionizing the scientific community and society worldwide. Models like ChatGPT, SORA, and DALLE-2 have marked a turning point. A still relatively unexplored field of generative artificial intelligence is tabular data, which is of vital importance for various tasks such as training AI models, conducting medical studies on patients, or modeling societal behaviors, among other applications.
Recently, there has been growing interest in the generation of synthetic tabular data, increasing the number of research studies. Among them, TabDDPM stands out, proposing models capable of replicating numerous datasets from different fields. The main problem with this type of data is the difficulty of correctly validating the generated data, which, in many cases, are very sensitive. One crucial case for proper validation is generating synthetic data on medical patients. These data, besides being very sensitive to variations, require special handling due to their medical nature.
This work focuses on the implementation and validation of generative artificial intelligence models applied to tabular data. For this, a model with a new hybrid architecture is developed. It is based on diffusion models and includes a Transformer-based encoder, which improves the validation of the generated data. This model has been trained with different amounts of data: 10, 50, 100, 500, 1.000, 5.000, 10.000, and 20.000. The dataset used is one of those employed by TabDDPM, specifically a medical dataset of patients with cardiovascular diseases.
To achieve the most comprehensive data validation possible, this work proposes a new taxonomy for validating tabular data based on three axes: utility, quality, and privacy. Each axis has subcategories covering different aspects of the data, all of which are vital for validation since none of them alone is sufficient to ensure the data’s validity.
The obtained results show that the generated data achieves an adequate balance between utility, quality, and privacy. In particular, the proposed model in the case of 10.000 training data points has reached an excellent balance among the taxonomy metrics and, therefore, is used to generate a set of 20.000 data points. Another set of synthetic data that is surprising for its performance is the one obtained by training the proposed model with only 10 data points, which has achieved good results in privacy and quality validations.
This work demonstrates that it is possible to generate synthetic tabular data with high utility, quality, and privacy, as well as to establish a robust validation methodology. It is hoped that this work will serve as a foundation for future efforts in the field of generative artificial intelligence applied to tabular data.

​La inteligencia artificial generativa está suponiendo una revolución en la comunidad científica y en la sociedad mundial. Modelos como ChatGPT, SORA y DALLE-2 han marcado un antes y un después. Un campo aún poco explorado de la inteligencia artificial generativa son los datos tabulares, los cuales son de vital importancia para diversas tareas como entrenar modelos de inteligencia artificial, llevar a cabo estudios médicos sobre pacientes o modelar comportamientos de la sociedad, entre otras aplicaciones.
En los últimos tiempos ha crecido el interés por la generación de datos sintéticos tabulares, aumentando el número de investigaciones. Entre ellas destaca TabDDPM (Kotelnikov et al., 2022), que propone modelos capaces de replicar multitud de conjuntos de datos de diferentes ámbitos. El principal problema de este tipo de datos es la dificultad de validar correctamente los datos generados, que en muchos casos son muy sensibles. Un caso en el que es crucial realizar una correcta validación es cuando se generan datos sintéticos de pacientes médicos. Estos datos, además de ser muy sensibles a variaciones, requieren un trato especial debido a su naturaleza médica.
El presente trabajo se centra en la implementación y validación de modelos de inteligencia artificial generativa aplicada a datos tabulares. Para ello, se desarrolla un modelo con una nueva arquitectura híbrida. Está basada en los modelos de difusión y cuenta con un codificador basado en Transformers, el cual mejora la validación de los datos generados. Este modelo se ha entrenado con diferentes cantidades de datos: 10, 50, 100, 500, 1.000, 5.000, 10.000 y 20.000. El conjunto de datos utilizado es uno de los empleados por TabDDPM, específicamente un conjunto de datos médicos de pacientes con enfermedades cardiovasculares.
Para realizar una validación de los datos lo más completa posible, en este trabajo se propone una nueva taxonomía de validación de datos tabulares basada en tres ejes: utilidad, calidad y privacidad. Cada uno de los ejes cuenta con subapartados que abarcan los diferentes aspectos de los datos, siendo todos ellos de vital importancia para la validación, ya que ninguno es una condición suficiente por sí solo para asegurar que los datos sean válidos.
Los resultados obtenidos muestran que los datos generados logran un equilibrio adecuado entre utilidad, calidad y privacidad. En particular, el modelo propuesto en el caso 10.000 datos de entrenamiento ha alcanzado un excelente equilibrio entre las métricas de la taxonomía y, por ello, se emplea para generar un conjunto de 20.000 datos. Otro conjunto de datos sintéticos que sorprende por su rendimiento es el que se obtuvo al entrenar el modelo propuesto con tan solo 10 datos, que ha conseguido buenos resultados en las validaciones de privacidad y calidad.
Este trabajo muestra que es posible generar datos sintéticos tabulares de alta utilidad, calidad y privacidad, así como establecer una metodología de validación robusta. Se espera que este trabajo sirva de base para otros futuros en el campo de la inteligencia artificial generativa aplicada a datos tabulares.
ABSTRACT
Generative artificial intelligence is revolutionizing the scientific community and society worldwide. Models like ChatGPT, SORA, and DALLE-2 have marked a turning point. A still relatively unexplored field of generative artificial intelligence is tabular data, which is of vital importance for various tasks such as training AI models, conducting medical studies on patients, or modeling societal behaviors, among other applications.
Recently, there has been growing interest in the generation of synthetic tabular data, increasing the number of research studies. Among them, TabDDPM stands out, proposing models capable of replicating numerous datasets from different fields. The main problem with this type of data is the difficulty of correctly validating the generated data, which, in many cases, are very sensitive. One crucial case for proper validation is generating synthetic data on medical patients. These data, besides being very sensitive to variations, require special handling due to their medical nature.
This work focuses on the implementation and validation of generative artificial intelligence models applied to tabular data. For this, a model with a new hybrid architecture is developed. It is based on diffusion models and includes a Transformer-based encoder, which improves the validation of the generated data. This model has been trained with different amounts of data: 10, 50, 100, 500, 1.000, 5.000, 10.000, and 20.000. The dataset used is one of those employed by TabDDPM, specifically a medical dataset of patients with cardiovascular diseases.
To achieve the most comprehensive data validation possible, this work proposes a new taxonomy for validating tabular data based on three axes: utility, quality, and privacy. Each axis has subcategories covering different aspects of the data, all of which are vital for validation since none of them alone is sufficient to ensure the data’s validity.
The obtained results show that the generated data achieves an adequate balance between utility, quality, and privacy. In particular, the proposed model in the case of 10.000 training data points has reached an excellent balance among the taxonomy metrics and, therefore, is used to generate a set of 20.000 data points. Another set of synthetic data that is surprising for its performance is the one obtained by training the proposed model with only 10 data points, which has achieved good results in privacy and quality validations.
This work demonstrates that it is possible to generate synthetic tabular data with high utility, quality, and privacy, as well as to establish a robust validation methodology. It is hoped that this work will serve as a foundation for future efforts in the field of generative artificial intelligence applied to tabular data. Read More