El avance de los vehículos autónomos ha experimentado un notable crecimiento en los últimos años, en gran medida gracias a la implementación de la Inteligencia Artificial. Una de las diversas áreas donde se ha aplicado este paradigma es en el control vehicular. Este Trabajo de Fin de Grado se centra en esta área, específicamente en el control lateral del vehículo. Partiendo del supuesto de que existe una trayectoria predefinida por la que debe circular el vehículo, nuestro objetivo ha sido optimizar un parámetro dentro de un controlador iPD, responsable de este seguimiento, para mejorar dicha capacidad de trazado. Este parámetro afecta directamente la agresividad en la toma de curvas y, para su control, hemos empleado principalmente técnicas de Aprendizaje Reforzado.
Este estudio se divide en dos escenarios de optimización: Una Adaptación Offline, donde el objetivo es optimizar dicho controlador dentro de un simulador en un entorno sin cambios dinámicos, utilizando el algoritmo Deep Deterministic Policy Gradient (DDPG) y un algoritmo genético como alternativa. La segunda situación es la Adaptación Online, donde el objetivo ahora es optimizar el controlador en tiempo real para un entorno con dinámicas subyacentes donde se requiere de una adaptación a una nueva situación nunca antes vista por el vehículo en simulación, como pueden ser cambios de masa del vehículo o rozamiento de los neumáticos, empleando tanto Q-Learning como un sistema experto.
Los resultados obtenidos se comparan con el estado del arte y muestran una mejora marginal con respecto a las métricas iniciales. No obstante, se han identificado problemas subyacentes en ambos casos de uso, tanto a nivel del algoritmo DDPG como en el plano conceptual del problema, lo que lleva a un análisis de sus limitaciones y una comparación con investigaciones recientes en Aprendizaje Reforzado sobre su viabilidad, donde se ejemplificará adicionalmente una falla intrínseca de DDPG para entornos deterministas con recompensas dispersas.
Abstract:
The advancement of autonomous vehicles has experienced significant growth in recent years, largely due to the implementation of Artificial Intelligence. One of the various areas where this paradigm has been applied is in vehicle control. This Bachelor’s Thesis focuses on this area, specifically on lateral vehicle control. Assuming that the vehicle has a predefined path to follow, our objective has been to optimize a parameter within an iPD controller, responsible for this tracking, in order to enhance this tracing ability. This parameter directly affects the aggressiveness in cornering, and for its control, we have mainly employed Reinforcement Learning techniques.
This study is divided into two optimization scenarios: An Offline Adaptation, where the aim is to optimize the controller within a simulator in a static environment, using the Deep Deterministic Policy Gradient (DDPG) algorithm and a genetic algorithm as an alternative. The second scenario is the Online Adaptation, where the aim is now to optimize the controller in real-time for a dynamic environment requiring adaptation to new situations never before encountered by the vehicle in simulation, such as changes in vehicle mass or tire friction, employing both Q-Learning and an expert system.
The results are compared to state of the art references and show a marginal improvement over the initial metrics. However, underlying issues have been identified in both use cases, both at the level of the DDPG algorithm and at the conceptual level of the problem, leading to an analysis of its limitations and a comparison with recent research in Reinforcement Learning regarding its viability, where an intrinsic flaw of DDPG for deterministic environments with sparse rewards will additionally be exemplified.
El avance de los vehículos autónomos ha experimentado un notable crecimiento en los últimos años, en gran medida gracias a la implementación de la Inteligencia Artificial. Una de las diversas áreas donde se ha aplicado este paradigma es en el control vehicular. Este Trabajo de Fin de Grado se centra en esta área, específicamente en el control lateral del vehículo. Partiendo del supuesto de que existe una trayectoria predefinida por la que debe circular el vehículo, nuestro objetivo ha sido optimizar un parámetro dentro de un controlador iPD, responsable de este seguimiento, para mejorar dicha capacidad de trazado. Este parámetro afecta directamente la agresividad en la toma de curvas y, para su control, hemos empleado principalmente técnicas de Aprendizaje Reforzado.
Este estudio se divide en dos escenarios de optimización: Una Adaptación Offline, donde el objetivo es optimizar dicho controlador dentro de un simulador en un entorno sin cambios dinámicos, utilizando el algoritmo Deep Deterministic Policy Gradient (DDPG) y un algoritmo genético como alternativa. La segunda situación es la Adaptación Online, donde el objetivo ahora es optimizar el controlador en tiempo real para un entorno con dinámicas subyacentes donde se requiere de una adaptación a una nueva situación nunca antes vista por el vehículo en simulación, como pueden ser cambios de masa del vehículo o rozamiento de los neumáticos, empleando tanto Q-Learning como un sistema experto.
Los resultados obtenidos se comparan con el estado del arte y muestran una mejora marginal con respecto a las métricas iniciales. No obstante, se han identificado problemas subyacentes en ambos casos de uso, tanto a nivel del algoritmo DDPG como en el plano conceptual del problema, lo que lleva a un análisis de sus limitaciones y una comparación con investigaciones recientes en Aprendizaje Reforzado sobre su viabilidad, donde se ejemplificará adicionalmente una falla intrínseca de DDPG para entornos deterministas con recompensas dispersas.
Abstract:
The advancement of autonomous vehicles has experienced significant growth in recent years, largely due to the implementation of Artificial Intelligence. One of the various areas where this paradigm has been applied is in vehicle control. This Bachelor’s Thesis focuses on this area, specifically on lateral vehicle control. Assuming that the vehicle has a predefined path to follow, our objective has been to optimize a parameter within an iPD controller, responsible for this tracking, in order to enhance this tracing ability. This parameter directly affects the aggressiveness in cornering, and for its control, we have mainly employed Reinforcement Learning techniques.
This study is divided into two optimization scenarios: An Offline Adaptation, where the aim is to optimize the controller within a simulator in a static environment, using the Deep Deterministic Policy Gradient (DDPG) algorithm and a genetic algorithm as an alternative. The second scenario is the Online Adaptation, where the aim is now to optimize the controller in real-time for a dynamic environment requiring adaptation to new situations never before encountered by the vehicle in simulation, such as changes in vehicle mass or tire friction, employing both Q-Learning and an expert system.
The results are compared to state of the art references and show a marginal improvement over the initial metrics. However, underlying issues have been identified in both use cases, both at the level of the DDPG algorithm and at the conceptual level of the problem, leading to an analysis of its limitations and a comparison with recent research in Reinforcement Learning regarding its viability, where an intrinsic flaw of DDPG for deterministic environments with sparse rewards will additionally be exemplified. Read More