El análisis exploratorio se ha consolidado en los últimos años como la primera etapa del análisis descriptivo de un conjunto de datos tras su preprocesamiento y limpieza. Como tal, esta disciplina surgió con el estadístico John Tukey que promulgaba una exploración exhaustiva apoyada en representaciones gráficas que nos hicieran descubrir en los datos detalles que no esperábamos encontrar. Sin embargo y a pesar de su popularidad, en ocasiones nos encontramos con ejemplos de aplicación no correcta de gráficos y resúmenes estadísticos que no tienen en cuenta la naturaleza de las variables que se quieren representar. Por ello, en este trabajo se propone la elaboración de una aplicación de análisis exploratorio de datos que, atendiendo a las características de tus variables, te permita entender y escoger el mejor gráfico exploratorio tanto para explorar distribuciones univariantes como relaciones entre variables de diversa naturaleza. Los métodos gráficos disponibles permitirán apreciar la estructura y distribución de los datos, así como escoger las medidas características más apropiadas en cada caso y la metodología de inferencia estadística más adecuada dependiendo del propósito del análisis, sea este descriptivo, de comparación, modelización o predicción. La aplicación se ha desarrollado usando el framework de R Shiny. La implementación con R no solo ha sido muy adecuada por la gran cantidad de librerías que tiene dedicadas al análisis de datos sino también por la existencia de librerías para gráficos que te permiten dibujar fácilmente cualquier gráfico que puedas imaginar. Además, con la librería Shiny se ha facilitado el desarrollo de la aplicación gracias a la interactividad que ofrece. En este aspecto cabe destacar el conjunto de librerías o ecosistema tidyverse, diseñados específicamente para facilitar el desarrollo de un proyecto en ciencia de datos bajo una filosofía común. La librería gráfica ggplot2 junto con otras librerías que aumentan sus funcionalidades y siguen sus principios programáticos y de diseño, propone una gramática declarativa para la construcción estructurada y por capas de gráficos estáticos. A la iniciativa tidyverse se han unido la mayoría de los desarrolladores de código en R. Casi cualquier librería moderna en R relacionada con la ciencia de datos, adopta la filosofía de tidyverse en el diseño de nuevas funciones, siendo totalmente compatible con esta. Dos de los ejemplos más importantes son tidymodels (modelización y aprendizaje automático) y modeltime (especializado en series temporales). La aplicación se ha desarrollado desde cero y se pretende ir extendiendo sus funcionalidades en un futuro. La parte desarrollada incluye gráficos básicos en el ámbito del análisis univariante (variables cuantitativas y categóricas), bivariante y tablas de contingencia 2×2, especialmente usadas en epidemiología, donde se propone, además, un análisis implementando tres métricas diferentes de asociación.
ABSTRACT
These recent years, the exploratory analysis has been consolidated as the first phase of the descriptive analysis of a dataset after its preprocessing and cleaning. This discipline arose with the statistician John Tukey, who promulgated an exhaustive exploration supported by graphical representations which make us discover details in the data that we wouldn’t expect to find. However, despite its popularity, on some occasions, we find examples of incorrect applications of graphs and statistical summaries that do not take into account the nature of the variables, which we want to depict. As a result, in this project proposes the development of an exploratory data analysis application that, considering the characteristics of your variables, it allows you to understand and choose the best exploratory graph both to explore univariate distributions and to relations between variables of diverse nature. The graphic methods available not only allows to appreciate the structure and distribution of the data, but also choose the most appropriate characteristics measures in each instance and the most adequate methodology of statistical inference depending on the purpose of the analysis, whether its descriptive, of comparison, modeling or prediction. The application has been developed using the R Shiny framework. The implementation with R has not only been very suitable due to the large number of libraries dedicated to data analysis, but also due to the existence of graph libraries that allows to easily draw any graph you can imagine. Moreover, the Shiny library has made the development easier thanks to the interactivity it offers. In this aspect, the set of libraries or ecosystems from tidyverse is distinguished, its designed specifically to facilitate the development of a data science project under a common philosophy. The ggplot2 graphic library, together with other libraries, increase its functionality and follow its programmatic and design principles, proposes a declarative grammar for the structure and layered construction by statistic graphics. The majority of R code developers have joined the tidyverse initiative. Almost any modern R library related to data science adapts the tidyverse philosophy in the design of new functions, being totally compatible with it. Two of the most important examples are tidymodels (modeling and machine learning) and modeltime (specialized in time series). The application has been developed from scratch and it is intended to extend its functionalities in a future. The developed part includes basic graphs in area of univariate analysis (quantitative and categorical variables), bivariate and 2×2 contingency tables, specially used in epidemiology, where an analysis implementing three different association metrics is also proposed.
El análisis exploratorio se ha consolidado en los últimos años como la primera etapa del análisis descriptivo de un conjunto de datos tras su preprocesamiento y limpieza. Como tal, esta disciplina surgió con el estadístico John Tukey que promulgaba una exploración exhaustiva apoyada en representaciones gráficas que nos hicieran descubrir en los datos detalles que no esperábamos encontrar. Sin embargo y a pesar de su popularidad, en ocasiones nos encontramos con ejemplos de aplicación no correcta de gráficos y resúmenes estadísticos que no tienen en cuenta la naturaleza de las variables que se quieren representar. Por ello, en este trabajo se propone la elaboración de una aplicación de análisis exploratorio de datos que, atendiendo a las características de tus variables, te permita entender y escoger el mejor gráfico exploratorio tanto para explorar distribuciones univariantes como relaciones entre variables de diversa naturaleza. Los métodos gráficos disponibles permitirán apreciar la estructura y distribución de los datos, así como escoger las medidas características más apropiadas en cada caso y la metodología de inferencia estadística más adecuada dependiendo del propósito del análisis, sea este descriptivo, de comparación, modelización o predicción. La aplicación se ha desarrollado usando el framework de R Shiny. La implementación con R no solo ha sido muy adecuada por la gran cantidad de librerías que tiene dedicadas al análisis de datos sino también por la existencia de librerías para gráficos que te permiten dibujar fácilmente cualquier gráfico que puedas imaginar. Además, con la librería Shiny se ha facilitado el desarrollo de la aplicación gracias a la interactividad que ofrece. En este aspecto cabe destacar el conjunto de librerías o ecosistema tidyverse, diseñados específicamente para facilitar el desarrollo de un proyecto en ciencia de datos bajo una filosofía común. La librería gráfica ggplot2 junto con otras librerías que aumentan sus funcionalidades y siguen sus principios programáticos y de diseño, propone una gramática declarativa para la construcción estructurada y por capas de gráficos estáticos. A la iniciativa tidyverse se han unido la mayoría de los desarrolladores de código en R. Casi cualquier librería moderna en R relacionada con la ciencia de datos, adopta la filosofía de tidyverse en el diseño de nuevas funciones, siendo totalmente compatible con esta. Dos de los ejemplos más importantes son tidymodels (modelización y aprendizaje automático) y modeltime (especializado en series temporales). La aplicación se ha desarrollado desde cero y se pretende ir extendiendo sus funcionalidades en un futuro. La parte desarrollada incluye gráficos básicos en el ámbito del análisis univariante (variables cuantitativas y categóricas), bivariante y tablas de contingencia 2×2, especialmente usadas en epidemiología, donde se propone, además, un análisis implementando tres métricas diferentes de asociación.
ABSTRACT
These recent years, the exploratory analysis has been consolidated as the first phase of the descriptive analysis of a dataset after its preprocessing and cleaning. This discipline arose with the statistician John Tukey, who promulgated an exhaustive exploration supported by graphical representations which make us discover details in the data that we wouldn’t expect to find. However, despite its popularity, on some occasions, we find examples of incorrect applications of graphs and statistical summaries that do not take into account the nature of the variables, which we want to depict. As a result, in this project proposes the development of an exploratory data analysis application that, considering the characteristics of your variables, it allows you to understand and choose the best exploratory graph both to explore univariate distributions and to relations between variables of diverse nature. The graphic methods available not only allows to appreciate the structure and distribution of the data, but also choose the most appropriate characteristics measures in each instance and the most adequate methodology of statistical inference depending on the purpose of the analysis, whether its descriptive, of comparison, modeling or prediction. The application has been developed using the R Shiny framework. The implementation with R has not only been very suitable due to the large number of libraries dedicated to data analysis, but also due to the existence of graph libraries that allows to easily draw any graph you can imagine. Moreover, the Shiny library has made the development easier thanks to the interactivity it offers. In this aspect, the set of libraries or ecosystems from tidyverse is distinguished, its designed specifically to facilitate the development of a data science project under a common philosophy. The ggplot2 graphic library, together with other libraries, increase its functionality and follow its programmatic and design principles, proposes a declarative grammar for the structure and layered construction by statistic graphics. The majority of R code developers have joined the tidyverse initiative. Almost any modern R library related to data science adapts the tidyverse philosophy in the design of new functions, being totally compatible with it. Two of the most important examples are tidymodels (modeling and machine learning) and modeltime (specialized in time series). The application has been developed from scratch and it is intended to extend its functionalities in a future. The developed part includes basic graphs in area of univariate analysis (quantitative and categorical variables), bivariate and 2×2 contingency tables, specially used in epidemiology, where an analysis implementing three different association metrics is also proposed. Read More