Análisis de grafos en Big Data sobre datos de vuelos

Este Trabajo de Fin de Grado (TFG) se centrará en el estudio de los grafos en el ámbito del Big Data, específicamente en relación con los datos de vuelos. La organización de los datos en forma de grafo se ha vuelto esencial en el campo del Big Data. Aunque existen herramientas clásicas como MapReduce y Spark RDD/DataFrame que se utilizan ampliamente, no ofrecen un soporte directo para el modelo de grafos, lo que obliga a los programadores a adaptarse a las características de cada herramienta. Para superar esta limitación, han surgido herramientas específicas como Pregel, Apache Giraph, GraphX y GraphFrames de Spark. También se ha observado un cambio en el ámbito de las bases de datos hacia bases de datos orientadas a grafos, como Neo4j. El objetivo principal de este trabajo es realizar un análisis práctico de estas herramientas, aplicándolas al procesamiento de grandes volúmenes de datos de vuelos. Para ello, se diseñará una aplicación que procese un repositorio de datos de vuelos utilizando estas plataformas especializadas. Se plantean los siguientes objetivos: • Realizar un análisis de las herramientas de Big Data orientadas al procesamiento de grafos. • Desarrollo de una aplicación que utilice estas tecnologías para procesar un repositorio de datos de vuelo.
ABSTRACT
This Final Degree Project (TFG) will focus on the study of graphs on Big Data, specifically about flight data. The organization of the data in the form of graphs has become essential in the field of Big Data. Although classic tools such as MapReduce and Spark RDD/DataFrame are widely used, they do not offer direct support for the graph model, leading to programmers to adapt to the features of each tool. Specific tools such as Pregel, Apache Giraph, GraphX, and Spark’s GraphFrames have emerged to overcome this limitation. There has also been a change in database technology towards graph-oriented databases, such as Neo4j. The main objective of this work is to make a practical analysis of these tools by applying them to the processing of large volumes of flight data. In order to achieve this, an application will be designed to process a flight data repository using these specialized platforms. The following objectives are proposed: • Analyse the Big Data tools oriented towards graph processing. • Develop an application that uses these technologies to process a flight data repository.

​Este Trabajo de Fin de Grado (TFG) se centrará en el estudio de los grafos en el ámbito del Big Data, específicamente en relación con los datos de vuelos. La organización de los datos en forma de grafo se ha vuelto esencial en el campo del Big Data. Aunque existen herramientas clásicas como MapReduce y Spark RDD/DataFrame que se utilizan ampliamente, no ofrecen un soporte directo para el modelo de grafos, lo que obliga a los programadores a adaptarse a las características de cada herramienta. Para superar esta limitación, han surgido herramientas específicas como Pregel, Apache Giraph, GraphX y GraphFrames de Spark. También se ha observado un cambio en el ámbito de las bases de datos hacia bases de datos orientadas a grafos, como Neo4j. El objetivo principal de este trabajo es realizar un análisis práctico de estas herramientas, aplicándolas al procesamiento de grandes volúmenes de datos de vuelos. Para ello, se diseñará una aplicación que procese un repositorio de datos de vuelos utilizando estas plataformas especializadas. Se plantean los siguientes objetivos: • Realizar un análisis de las herramientas de Big Data orientadas al procesamiento de grafos. • Desarrollo de una aplicación que utilice estas tecnologías para procesar un repositorio de datos de vuelo.
ABSTRACT
This Final Degree Project (TFG) will focus on the study of graphs on Big Data, specifically about flight data. The organization of the data in the form of graphs has become essential in the field of Big Data. Although classic tools such as MapReduce and Spark RDD/DataFrame are widely used, they do not offer direct support for the graph model, leading to programmers to adapt to the features of each tool. Specific tools such as Pregel, Apache Giraph, GraphX, and Spark’s GraphFrames have emerged to overcome this limitation. There has also been a change in database technology towards graph-oriented databases, such as Neo4j. The main objective of this work is to make a practical analysis of these tools by applying them to the processing of large volumes of flight data. In order to achieve this, an application will be designed to process a flight data repository using these specialized platforms. The following objectives are proposed: • Analyse the Big Data tools oriented towards graph processing. • Develop an application that uses these technologies to process a flight data repository. Read More