Implementación de técnicas avanzadas de aprendizaje automático para la predicción de desplazamientos de población en España

En las últimas décadas, el aumento de la población, sobre todo en los núcleos urbanos, ha generado problemas de logística en el desarrollo del sector del transporte. Esto ha sido así hasta la masificación del uso de dispositivos móviles, los cuales han permitido la captación de datos de posicionamiento, entre otros, de forma precisa e inmediata.
Este Trabajo de Fin de Grado (TFG) se centra en la extracción y análisis de los datos de desplazamientos de la población española, poniendo especial atención en la provincia de Jaén y, más concretamente, en el municipio de la ciudad de Jaén. Una vez realizada esta etapa se procede a la predicción de desplazamientos futuros y, finalmente, la creación de una aplicación piloto que permita implementar todos los procesos desarrollados durante este trabajo para Jaén, en cualquier lugar de España.
El objetivo principal de este proyecto es desarrollar modelos predictivos de movilidad que partan del uso de los datos de geolocalización captados por la red telefónica, los cuales se encuentran a disposición del público en la base de datos del Ministerio de Transportes, Movilidad y Agenda Urbana (MITMA, Open Data Movilidad, 2024). Estos modelos harán uso de técnicas de aprendizaje automático o Machine Learning, proporcionando herramientas que mejoren la planificación y gestión urbana, anticipando patrones de movilidad y optimizando el uso de los recursos.
El proyecto comienza con el minado y el procesado de los datos de movilidad desde enero de 2022 hasta marzo de 2024 (MITMA, Open Data Movilidad, 2024). Estos datos en bruto no resultan útiles para ningún estudio, es por ello que se ha llevado a cabo una gran labor filtrando y adaptando estos a los diferentes propósitos. Posteriormente, se realiza el análisis de los datos, logrando graficar los datos anteriormente minados de tal forma que podamos interpretar y extraer conclusiones sólidas y respaldadas. Se consideran tres niveles: interprovincial, intermunicipal e interdistrital:
• En el nivel interprovincial, se estudian las interacciones entre Jaén y otras provincias españolas, observando cómo los desplazamientos aumentan en festividades como Navidad, Semana Santa y verano. • En el nivel intermunicipal, se analizan los desplazamientos entre Jaén ciudad y otros municipios dentro de la provincia, destacando un patrón de movilidad diario relacionado con actividades laborales y escolares. • En el nivel interdistrital, se examinan los desplazamientos entre los nueve distritos de Jaén ciudad, observando resultados similares al nivel intermunicipal.
Para cada nivel de análisis, se seleccionaron rutas específicas haciendo uso de las gráficas, en función de la afluencia del trayecto, siendo la ruta de estudio la más transitada, para implementar los modelos de aprendizaje automático:
• Nivel interprovincial: Jaén – Granada • Nivel intermunicipal: Jaén ciudad – La Guardia de Jaén • Nivel interdistrital: Distrito 04 – Distrito 05 de Jaén ciudad
Tras un análisis exhaustivo y probar distintos tipos, se implementaron y evaluaron cuatro modelos de Machine Learning distintos:
• Random Forest • XGBoost • Sequential • Time Series Linear Regression
Entre todos ellos, XGBoost resultó ser el más eficaz, llegando a realizar predicciones con entorno al 11% de error, debido a su capacidad para captar relaciones no lineales y su eficiencia en el manejo de grandes volúmenes de datos. En contraste, el modelo de Time Series basado en regresión lineal fue el menos efectivo, realizando predicciones con entorno a un 20% de error, principalmente debido a su suposición de linealidad y falta de regularización para evitar el sobreajuste.
Además del análisis y desarrollo de modelos predictivos se ha logrado automatizar el proceso seguido con Jaén, desde el minado bruto de los datos hasta la el entrenamiento y selección de los mejores modelos de las rutas implementadas, creando un software que permite a los usuarios seleccionar cualquier región del país para realizar el minado y análisis de datos, y la posterior implementación de modelos predictivos. Esta automatización es crucial para aumentar la aplicabilidad y escalabilidad del sistema, permitiendo análisis personalizados y continuos a medida que se incorporan nuevos datos.
Este TFG no solo presenta un análisis exhaustivo de los patrones de movilidad en Jaén, sino que también se ha logrado desarrollar un programa automatizado para poder implementarlo en otras regiones de España. La automatización del proceso y su contribución a los ODS destacan el potencial del trabajo, ofreciendo una herramienta valiosa para la planificación y gestión urbana.

​En las últimas décadas, el aumento de la población, sobre todo en los núcleos urbanos, ha generado problemas de logística en el desarrollo del sector del transporte. Esto ha sido así hasta la masificación del uso de dispositivos móviles, los cuales han permitido la captación de datos de posicionamiento, entre otros, de forma precisa e inmediata.
Este Trabajo de Fin de Grado (TFG) se centra en la extracción y análisis de los datos de desplazamientos de la población española, poniendo especial atención en la provincia de Jaén y, más concretamente, en el municipio de la ciudad de Jaén. Una vez realizada esta etapa se procede a la predicción de desplazamientos futuros y, finalmente, la creación de una aplicación piloto que permita implementar todos los procesos desarrollados durante este trabajo para Jaén, en cualquier lugar de España.
El objetivo principal de este proyecto es desarrollar modelos predictivos de movilidad que partan del uso de los datos de geolocalización captados por la red telefónica, los cuales se encuentran a disposición del público en la base de datos del Ministerio de Transportes, Movilidad y Agenda Urbana (MITMA, Open Data Movilidad, 2024). Estos modelos harán uso de técnicas de aprendizaje automático o Machine Learning, proporcionando herramientas que mejoren la planificación y gestión urbana, anticipando patrones de movilidad y optimizando el uso de los recursos.
El proyecto comienza con el minado y el procesado de los datos de movilidad desde enero de 2022 hasta marzo de 2024 (MITMA, Open Data Movilidad, 2024). Estos datos en bruto no resultan útiles para ningún estudio, es por ello que se ha llevado a cabo una gran labor filtrando y adaptando estos a los diferentes propósitos. Posteriormente, se realiza el análisis de los datos, logrando graficar los datos anteriormente minados de tal forma que podamos interpretar y extraer conclusiones sólidas y respaldadas. Se consideran tres niveles: interprovincial, intermunicipal e interdistrital:
• En el nivel interprovincial, se estudian las interacciones entre Jaén y otras provincias españolas, observando cómo los desplazamientos aumentan en festividades como Navidad, Semana Santa y verano. • En el nivel intermunicipal, se analizan los desplazamientos entre Jaén ciudad y otros municipios dentro de la provincia, destacando un patrón de movilidad diario relacionado con actividades laborales y escolares. • En el nivel interdistrital, se examinan los desplazamientos entre los nueve distritos de Jaén ciudad, observando resultados similares al nivel intermunicipal.
Para cada nivel de análisis, se seleccionaron rutas específicas haciendo uso de las gráficas, en función de la afluencia del trayecto, siendo la ruta de estudio la más transitada, para implementar los modelos de aprendizaje automático:
• Nivel interprovincial: Jaén – Granada • Nivel intermunicipal: Jaén ciudad – La Guardia de Jaén • Nivel interdistrital: Distrito 04 – Distrito 05 de Jaén ciudad
Tras un análisis exhaustivo y probar distintos tipos, se implementaron y evaluaron cuatro modelos de Machine Learning distintos:
• Random Forest • XGBoost • Sequential • Time Series Linear Regression
Entre todos ellos, XGBoost resultó ser el más eficaz, llegando a realizar predicciones con entorno al 11% de error, debido a su capacidad para captar relaciones no lineales y su eficiencia en el manejo de grandes volúmenes de datos. En contraste, el modelo de Time Series basado en regresión lineal fue el menos efectivo, realizando predicciones con entorno a un 20% de error, principalmente debido a su suposición de linealidad y falta de regularización para evitar el sobreajuste.
Además del análisis y desarrollo de modelos predictivos se ha logrado automatizar el proceso seguido con Jaén, desde el minado bruto de los datos hasta la el entrenamiento y selección de los mejores modelos de las rutas implementadas, creando un software que permite a los usuarios seleccionar cualquier región del país para realizar el minado y análisis de datos, y la posterior implementación de modelos predictivos. Esta automatización es crucial para aumentar la aplicabilidad y escalabilidad del sistema, permitiendo análisis personalizados y continuos a medida que se incorporan nuevos datos.
Este TFG no solo presenta un análisis exhaustivo de los patrones de movilidad en Jaén, sino que también se ha logrado desarrollar un programa automatizado para poder implementarlo en otras regiones de España. La automatización del proceso y su contribución a los ODS destacan el potencial del trabajo, ofreciendo una herramienta valiosa para la planificación y gestión urbana. Read More