Tradicionalmente, ha existido una dificultad a la hora de ser capaz de extraer información en forma de patrones o subgrupos de un conjunto de datos, y en particular, encontrar un set de subgrupos (i.e. conjunto de subgrupos no ordenados) de alta calidad, que sirvan para representar la mayor parte del conjunto de datos, pero que no presenten redundancia entre ellos (i.e. ser capaz de representar distintas partes del conjunto de datos). En la literatura se han propuesto varias soluciones para poder lograr esta tarea, sin embargo, en algunas soluciones es necesario definir valores de manera manual para los distintos parámetros utilizados en la ejecución, lo que puede provocar altos tiempos de ejecución o una búsqueda ineficiente. Por otra parte, en la literatura se suele emplear una única métrica de evaluación de los subgrupos en la fase de búsqueda, lo que provoca que no podemos asegurar la total calidad de los subgrupos, ya que se hace necesario analizar distintas cualidades para ver la importancia del subgrupo. Finalmente, es necesario evaluar no solo la calidad de un subgrupo, sino también el impacto que tiene en el set de subgrupos añadir un subgrupo, en términos de redundancia. Por lo tanto, se propone DASSD (Descubrimiento de Set de Subgrupos Dinámico y Adaptable), un algoritmo heurístico que descubre sets de subgrupos maximizando la calidad de los mismos y minimizando la redundancia presente en el set. Además, la característica principal de este algoritmo es la capacidad adaptativa y dinámica que posee, siendo capaz de establecer para cualquier conjunto de datos y en cualquier fase de la búsqueda, los valores óptimos a emplear en los parámetros requeridos. Por otra parte, se ha propuesto emplear la técnica de Feature Selection como paso previo a la búsqueda de subgrupos, con el objetivo de reducir o eliminar variables redundantes o irrelevantes del conjunto de datos permitiendo así optimizar la búsqueda. Finalmente, se han estudiado los resultados obtenidos por DASSD en diferentes conjuntos de datos, así como la comparación con diferentes algoritmos presentes en el estado del arte.
ABSTRACT
Traditionally, there has been a difficulty in being able to extract information in the form of patterns or subgroups from a dataset, and more specifically, finding a set of subgroups (i.e. a set of unordered subgroups) of high quality, which serve to represent most of the dataset, but which do not present redundancy between them (i.e. being able to representing different parts of the dataset). In the literature, several approaches have been made to achieve this task, however, in some solutions it is necessary to set manual values for the different parameters employed in the execution, which may lead to high execution times or an inefficient search. On the other hand, in the literature a single evaluation metric for the subgroups is usually used during the search phase, which means that we cannot ensure the total quality of the subgroups, since it is necessary to analyse different qualities to see the importance of the subgroup. Finally, it is necessary to evaluate not only the quality of a subgroup, but also the impact that adding a subgroup has on the set of subgroups, in terms of redundancy. Therefore, we proposed DASSD (Dynamic and Adaptive Subgroup Set Discovery), a heuristic algorithm that discovers subgroup sets maximizing their quality and minimizing the redundancy present in the set. Moreover, the main characteristic of this algorithm is the adaptative and dynamic capacity it has, being able to determine for any dataset and in any phase of the search, the optimal values to employ in the required parameters. On the other hand, we propose to use the Feature Selection technique as a prior step to searching for subgroups, with the aim of reducing or eliminating redundant or irrelevant variables from the dataset, thus allowing the search to be optimized. Furthermore, the results obtained by DASSD in different datasets have been studied, as well as the comparison with State-of-the-Art algorithms.
Tradicionalmente, ha existido una dificultad a la hora de ser capaz de extraer información en forma de patrones o subgrupos de un conjunto de datos, y en particular, encontrar un set de subgrupos (i.e. conjunto de subgrupos no ordenados) de alta calidad, que sirvan para representar la mayor parte del conjunto de datos, pero que no presenten redundancia entre ellos (i.e. ser capaz de representar distintas partes del conjunto de datos). En la literatura se han propuesto varias soluciones para poder lograr esta tarea, sin embargo, en algunas soluciones es necesario definir valores de manera manual para los distintos parámetros utilizados en la ejecución, lo que puede provocar altos tiempos de ejecución o una búsqueda ineficiente. Por otra parte, en la literatura se suele emplear una única métrica de evaluación de los subgrupos en la fase de búsqueda, lo que provoca que no podemos asegurar la total calidad de los subgrupos, ya que se hace necesario analizar distintas cualidades para ver la importancia del subgrupo. Finalmente, es necesario evaluar no solo la calidad de un subgrupo, sino también el impacto que tiene en el set de subgrupos añadir un subgrupo, en términos de redundancia. Por lo tanto, se propone DASSD (Descubrimiento de Set de Subgrupos Dinámico y Adaptable), un algoritmo heurístico que descubre sets de subgrupos maximizando la calidad de los mismos y minimizando la redundancia presente en el set. Además, la característica principal de este algoritmo es la capacidad adaptativa y dinámica que posee, siendo capaz de establecer para cualquier conjunto de datos y en cualquier fase de la búsqueda, los valores óptimos a emplear en los parámetros requeridos. Por otra parte, se ha propuesto emplear la técnica de Feature Selection como paso previo a la búsqueda de subgrupos, con el objetivo de reducir o eliminar variables redundantes o irrelevantes del conjunto de datos permitiendo así optimizar la búsqueda. Finalmente, se han estudiado los resultados obtenidos por DASSD en diferentes conjuntos de datos, así como la comparación con diferentes algoritmos presentes en el estado del arte.
ABSTRACT
Traditionally, there has been a difficulty in being able to extract information in the form of patterns or subgroups from a dataset, and more specifically, finding a set of subgroups (i.e. a set of unordered subgroups) of high quality, which serve to represent most of the dataset, but which do not present redundancy between them (i.e. being able to representing different parts of the dataset). In the literature, several approaches have been made to achieve this task, however, in some solutions it is necessary to set manual values for the different parameters employed in the execution, which may lead to high execution times or an inefficient search. On the other hand, in the literature a single evaluation metric for the subgroups is usually used during the search phase, which means that we cannot ensure the total quality of the subgroups, since it is necessary to analyse different qualities to see the importance of the subgroup. Finally, it is necessary to evaluate not only the quality of a subgroup, but also the impact that adding a subgroup has on the set of subgroups, in terms of redundancy. Therefore, we proposed DASSD (Dynamic and Adaptive Subgroup Set Discovery), a heuristic algorithm that discovers subgroup sets maximizing their quality and minimizing the redundancy present in the set. Moreover, the main characteristic of this algorithm is the adaptative and dynamic capacity it has, being able to determine for any dataset and in any phase of the search, the optimal values to employ in the required parameters. On the other hand, we propose to use the Feature Selection technique as a prior step to searching for subgroups, with the aim of reducing or eliminating redundant or irrelevant variables from the dataset, thus allowing the search to be optimized. Furthermore, the results obtained by DASSD in different datasets have been studied, as well as the comparison with State-of-the-Art algorithms. Read More