Aprendizaje por refuerzo para la optimización del consumo de hidrógeno en vehículos eléctricos híbridos con pila de combustible

En las últimas décadas, las graves consecuencias del cambio climático demuestran que es necesaria una estrategia coordinada y eficaz para solucionar este problema. En este contexto, el sector del transporte es uno de los principales contribuyentes al calentamiento global, pues un gran porcentaje de las emisiones de gases de efecto invernadero son emitidos por vehículos de carretera. Para minimizar este problema, se han propuesto diversas alternativas al motor tradicional de combustión interna. Entre ellas los vehículos eléctricos híbridos de pila de combustible (FCHEV) destacan como una solución tecnológica de gran potencial. Estos vehículos emplean una pila de combustible (capaz de generar energía a partir del hidrógeno) como fuente de energía principal y una batería como fuente auxiliar.
Sin embargo, al usar dos fuentes de energía diferentes, es necesario implementar una estrategia de gestión de energía (EMS) que controle la potencia eléctrica que debe aportar cada fuente en cada instante, en función de la demanda del vehículo. Para el diseño de este sistema de control, en los últimos años se han empleado diversas técnicas de inteligencia artificial como lógica difusa, redes neuronales, etc…
En el presente trabajo, se propone el uso de aprendizaje por refuerzo para el diseño de una estrategia de gestión de energía, con el objetivo de reducir el consumo de hidrógeno y mantener a la batería en su rango de operación óptimo. Aunque este enfoque ya ha sido planteado en la literatura, se pretende estudiar la viabilidad de aplicar los algoritmos Proximal Policy Optimization (PPO) y Deep Deterministic Policy Gradient (DDPG) en la solución este problema.
Para poder realizar este estudio, se ha llevado a cabo la implementación de un simulador en el que se modela la gestión de la demanda de potencia en estos vehículos. Partiendo de este simulador, se ha diseñado un entorno de aprendizaje por refuerzo en el que se ha realizado un proceso de experimentación con los algoritmos indicados, entrenando diferentes EMS en varios escenarios de conducción del vehículo. Para su evaluación, se ha determinado la mejora en el consumo de hidrógeno y en la gestión de la batería respecto a una EMS de referencia.
Los resultados obtenidos demuestran que el aprendizaje por refuerzo es una técnica eficaz para aprender estrategias de gestión de energía eficientes, pues se han conseguido mejoras en el consumo de hidrógeno tanto en escenarios de conducción urbanos como en carretera o autovía.
ABSTRACT
In the last decades, the consequences of climate change have shown that is necessary an effective and coordinate action to address this problem. In this context, transport sector is one of the main contributors to global warming, as a large percentage of greenhouse gases come from road vehicles. In order to improve this situation, different alternatives to the traditional internal combustion engine have emerged. Among them, fuel cell hybrid electric vehicles stand out as a technological solution with great potential. These vehicles use a fuel cell (capable of generating energy from hydrogen) as a main power source and a battery as a auxiliary source.
However, when using two power sources at the same time, it is necessary to implement an energy management system (EMS) that carries out the control of the electrical power to be supplied by each source at any given moment, depending on the vehicle’s demand. In the last years, artificial intelligence techniques as fuzzy, logic, neural networks, etc. have been use to design these control systems.
In this work, the use of reinforcement learning is proposed for the design of an energy management strategy, with the aim of reducing hydrogen consumption and keep the battery in the optimal operating range. Although this approach has already been proposed in the literature, the goal is to analyze the feasibility of the Proximal Policy Optimization (PPO) and Deep Deterministic Policy Gradient (DDPG) algorithms in this problem.
In order to carry out this study, a simulator have been implemented to model the power demand management in these vehicles. Based on this simulator, a reinforcement learning environment has been designed. An experimentation process with both algorithms has been carried out in this environment, training different EMS in various vehicle driving scenarios. For the evaluation of these strategies, the improvement in hydrogen consumption and battery management has been measured against a reference EMS.
The results show that reinforcement learning is an effective technique for learning efficient energy management strategies, as improvements in hydrogen consumption have been achieved in both urban and highway driving scenarios.

​En las últimas décadas, las graves consecuencias del cambio climático demuestran que es necesaria una estrategia coordinada y eficaz para solucionar este problema. En este contexto, el sector del transporte es uno de los principales contribuyentes al calentamiento global, pues un gran porcentaje de las emisiones de gases de efecto invernadero son emitidos por vehículos de carretera. Para minimizar este problema, se han propuesto diversas alternativas al motor tradicional de combustión interna. Entre ellas los vehículos eléctricos híbridos de pila de combustible (FCHEV) destacan como una solución tecnológica de gran potencial. Estos vehículos emplean una pila de combustible (capaz de generar energía a partir del hidrógeno) como fuente de energía principal y una batería como fuente auxiliar.
Sin embargo, al usar dos fuentes de energía diferentes, es necesario implementar una estrategia de gestión de energía (EMS) que controle la potencia eléctrica que debe aportar cada fuente en cada instante, en función de la demanda del vehículo. Para el diseño de este sistema de control, en los últimos años se han empleado diversas técnicas de inteligencia artificial como lógica difusa, redes neuronales, etc…
En el presente trabajo, se propone el uso de aprendizaje por refuerzo para el diseño de una estrategia de gestión de energía, con el objetivo de reducir el consumo de hidrógeno y mantener a la batería en su rango de operación óptimo. Aunque este enfoque ya ha sido planteado en la literatura, se pretende estudiar la viabilidad de aplicar los algoritmos Proximal Policy Optimization (PPO) y Deep Deterministic Policy Gradient (DDPG) en la solución este problema.
Para poder realizar este estudio, se ha llevado a cabo la implementación de un simulador en el que se modela la gestión de la demanda de potencia en estos vehículos. Partiendo de este simulador, se ha diseñado un entorno de aprendizaje por refuerzo en el que se ha realizado un proceso de experimentación con los algoritmos indicados, entrenando diferentes EMS en varios escenarios de conducción del vehículo. Para su evaluación, se ha determinado la mejora en el consumo de hidrógeno y en la gestión de la batería respecto a una EMS de referencia.
Los resultados obtenidos demuestran que el aprendizaje por refuerzo es una técnica eficaz para aprender estrategias de gestión de energía eficientes, pues se han conseguido mejoras en el consumo de hidrógeno tanto en escenarios de conducción urbanos como en carretera o autovía.
ABSTRACT
In the last decades, the consequences of climate change have shown that is necessary an effective and coordinate action to address this problem. In this context, transport sector is one of the main contributors to global warming, as a large percentage of greenhouse gases come from road vehicles. In order to improve this situation, different alternatives to the traditional internal combustion engine have emerged. Among them, fuel cell hybrid electric vehicles stand out as a technological solution with great potential. These vehicles use a fuel cell (capable of generating energy from hydrogen) as a main power source and a battery as a auxiliary source.
However, when using two power sources at the same time, it is necessary to implement an energy management system (EMS) that carries out the control of the electrical power to be supplied by each source at any given moment, depending on the vehicle’s demand. In the last years, artificial intelligence techniques as fuzzy, logic, neural networks, etc. have been use to design these control systems.
In this work, the use of reinforcement learning is proposed for the design of an energy management strategy, with the aim of reducing hydrogen consumption and keep the battery in the optimal operating range. Although this approach has already been proposed in the literature, the goal is to analyze the feasibility of the Proximal Policy Optimization (PPO) and Deep Deterministic Policy Gradient (DDPG) algorithms in this problem.
In order to carry out this study, a simulator have been implemented to model the power demand management in these vehicles. Based on this simulator, a reinforcement learning environment has been designed. An experimentation process with both algorithms has been carried out in this environment, training different EMS in various vehicle driving scenarios. For the evaluation of these strategies, the improvement in hydrogen consumption and battery management has been measured against a reference EMS.
The results show that reinforcement learning is an effective technique for learning efficient energy management strategies, as improvements in hydrogen consumption have been achieved in both urban and highway driving scenarios. Read More