Solución de Business Intelligence con herramientas de código abierto para un sistema de bicicletas compartidas

En los últimos años, el crecimiento de los sistemas de bicicletas compartidas (SBC) ha transformado la movilidad urbana, ofreciendo una alternativa de transporte sostenible y eficiente. Este Trabajo de Fin de Grado se enfoca en desarrollar una solución de Inteligencia de Negocio (BI) para el sistema de bicicletas compartidas Citi Bike en Nueva York. La motivación principal es entender el comportamiento del sistema mediante el análisis de sus datos, para optimizar su funcionamiento y que pueda adaptarse mejor a las necesidades de sus usuarios.
El proceso de desarrollo de esta solución de BI tuvo varios objetivos principales. En primer lugar, se buscó realizar un análisis sobre los datos generados por el propio sistema de Citi Bike. En segundo lugar, se pretendía integrar datos de múltiples fuentes externas, para enriquecer el análisis anterior, incluyendo datos geográficos, meteorológicos y demográficos de la ciudad de Nueva York. El tercer y último objetivo fue implementar la solución comentada utilizando herramientas innovadoras de código abierto.
La solución fue construida satisfactoriamente. La arquitectura integra diversas herramientas de código abierto como Python, Pandas, PostgreSQL, dbt, Dagster y Apache Superset. Además de analizar los datos obtenidos del sistema de Citi bike, se integraron datos de otras fuentes, en concreto, Open-Meteo, NYC OpenData y la página oficial del censo de los Estados Unidos.
El análisis de los datos reveló patrones significativos en el uso de bicicletas compartidas en función de diversas variables. Se observó que las condiciones climáticas, la proximidad a las rutas de bicicletas, la situación económica de los barrios y la cantidad de población influyen notablemente en la cantidad de viajes que se realizan.
El proyecto logró sus objetivos técnicos y, además, proporcionó una serie de propuestas para futuras mejoras como la utilización de un motor de datos columnar, el aumento de la capacidad de procesamiento o la integración de nuevas fuentes de datos.
Abstract:
In recent years, the growth of Bicycle Sharing Systems (BSS) has transformed urban mobility by providing a sustainable and efficient transportation alternative. This project focuses on developing a business intelligence (BI) solution for the Citi Bike bike sharing system in New York City. The main motivation is to understand the behavior of the system by analyzing its data in order to optimize its operation and better adapt to the needs of its users.
The development process of this BI solution had several main goals. First, we wanted to perform analysis on the data generated by the Citi Bike system itself. The second was to integrate data from multiple external sources to enrich the previous analysis, including geographic, meteorological, and demographic data from New York City. The third and final goal was to implement the solution using innovative open-source tools.
The solution was successfully implemented. The architecture integrates several open-source tools including Python, Pandas, PostgreSQL, dbt, Dagster, and Apache Superset. In addition to analyzing data from the Citi Bike system, data from other sources were integrated, such as Open-Meteo, NYC OpenData, and the official US Census website.
Analysis of the data revealed significant patterns in bike share usage as a function of several variables. Weather conditions, proximity to bike lanes, neighborhood economic status, and population size were found to significantly influence the number of trips taken.
The project met its technical goals and provided a few suggestions for future improvements, such as using a columnar data engine, increasing processing capacity, or integrating new data sources.

​En los últimos años, el crecimiento de los sistemas de bicicletas compartidas (SBC) ha transformado la movilidad urbana, ofreciendo una alternativa de transporte sostenible y eficiente. Este Trabajo de Fin de Grado se enfoca en desarrollar una solución de Inteligencia de Negocio (BI) para el sistema de bicicletas compartidas Citi Bike en Nueva York. La motivación principal es entender el comportamiento del sistema mediante el análisis de sus datos, para optimizar su funcionamiento y que pueda adaptarse mejor a las necesidades de sus usuarios.
El proceso de desarrollo de esta solución de BI tuvo varios objetivos principales. En primer lugar, se buscó realizar un análisis sobre los datos generados por el propio sistema de Citi Bike. En segundo lugar, se pretendía integrar datos de múltiples fuentes externas, para enriquecer el análisis anterior, incluyendo datos geográficos, meteorológicos y demográficos de la ciudad de Nueva York. El tercer y último objetivo fue implementar la solución comentada utilizando herramientas innovadoras de código abierto.
La solución fue construida satisfactoriamente. La arquitectura integra diversas herramientas de código abierto como Python, Pandas, PostgreSQL, dbt, Dagster y Apache Superset. Además de analizar los datos obtenidos del sistema de Citi bike, se integraron datos de otras fuentes, en concreto, Open-Meteo, NYC OpenData y la página oficial del censo de los Estados Unidos.
El análisis de los datos reveló patrones significativos en el uso de bicicletas compartidas en función de diversas variables. Se observó que las condiciones climáticas, la proximidad a las rutas de bicicletas, la situación económica de los barrios y la cantidad de población influyen notablemente en la cantidad de viajes que se realizan.
El proyecto logró sus objetivos técnicos y, además, proporcionó una serie de propuestas para futuras mejoras como la utilización de un motor de datos columnar, el aumento de la capacidad de procesamiento o la integración de nuevas fuentes de datos.
Abstract:
In recent years, the growth of Bicycle Sharing Systems (BSS) has transformed urban mobility by providing a sustainable and efficient transportation alternative. This project focuses on developing a business intelligence (BI) solution for the Citi Bike bike sharing system in New York City. The main motivation is to understand the behavior of the system by analyzing its data in order to optimize its operation and better adapt to the needs of its users.
The development process of this BI solution had several main goals. First, we wanted to perform analysis on the data generated by the Citi Bike system itself. The second was to integrate data from multiple external sources to enrich the previous analysis, including geographic, meteorological, and demographic data from New York City. The third and final goal was to implement the solution using innovative open-source tools.
The solution was successfully implemented. The architecture integrates several open-source tools including Python, Pandas, PostgreSQL, dbt, Dagster, and Apache Superset. In addition to analyzing data from the Citi Bike system, data from other sources were integrated, such as Open-Meteo, NYC OpenData, and the official US Census website.
Analysis of the data revealed significant patterns in bike share usage as a function of several variables. Weather conditions, proximity to bike lanes, neighborhood economic status, and population size were found to significantly influence the number of trips taken.
The project met its technical goals and provided a few suggestions for future improvements, such as using a columnar data engine, increasing processing capacity, or integrating new data sources. Read More