Optimización bayesiana con multifidelidad para la búsqueda de hiperparámetros en algoritmos de aprendizaje por refuerzo

Este trabajo de investigación se centra en la comparación entre la optimización bayesiana estándar y la optimización bayesiana con multifidelidad en la búsqueda de hiperparámetros para mejorar el rendimiento de algoritmos de aprendizaje por refuerzo en entornos como OpenAI LunarLander y CartPole. El objetivo principal es determinar si la optimización bayesiana con multifidelidad ofrece mejoras significativas en términos de eficiencia y rendimiento del modelo en comparación con la optimización bayesiana estándar.
Para abordar esta pregunta, se desarrollaron varias implementaciones en Python, evaluando la calidad de las soluciones mediante la media de las recompensas obtenidas como función objetivo. Se llevaron a cabo una serie de experimentos para cada entorno y versión utilizando diferentes semillas, asegurando que los resultados no fueran simplemente producto de la aleatoriedad inherente a los algoritmos de aprendizaje por refuerzo.
Los resultados obtenidos demuestran que la optimización bayesiana con multifidelidad supera a la optimización bayesiana estándar en varios aspectos clave. En el entorno de LunarLander, la multifidelidad permitió una mejor convergencia y un rendimiento más estable, logrando una mayor recompensa media en comparación con la versión estándar. En el entorno de CartPole, aunque ambos métodos alcanzaron rápidamente la recompensa máxima, la multifidelidad lo hizo con mayor consistencia y en menos tiempo.
Estos hallazgos destacan la capacidad de la multifidelidad para optimizar los hiperparámetros de manera más eficiente, utilizando menos recursos y tiempo, mientras se logra un rendimiento superior.
ABSTRACT
This research focuses on comparing standard Bayesian optimization and multifidelity Bayesian optimization in the hyperparameter search to improve the performance of reinforcement learning algorithms in environments such as OpenAI LunarLander and CartPole. The primary goal is to determine whether multifidelity Bayesian optimization provides significant improvements in solution quality compared to standard Bayesian optimization.
To address this question, several Python implementations were developed, evaluating the solution quality using the mean of the total rewards obtained as the objective function. Various experiments were conducted for each environment and version using different seeds, ensuring that the results were not merely due to the inherent randomness of reinforcement learning algorithms.
The results demonstrate that multifidelity Bayesian optimization outperforms standard Bayesian optimization in several key aspects. In the LunarLander environment, multifidelity optimization achieved better convergence and more stable performance, yielding a higher average reward compared to the standard version. In the CartPole environment, although both methods quickly reached the maximum reward, multifidelity did so with greater consistency and in less time.
These findings highlight the ability of multifidelity optimization to optimize hyperparameters more efficiently, using fewer resources and less time while achieving superior performance.

​Este trabajo de investigación se centra en la comparación entre la optimización bayesiana estándar y la optimización bayesiana con multifidelidad en la búsqueda de hiperparámetros para mejorar el rendimiento de algoritmos de aprendizaje por refuerzo en entornos como OpenAI LunarLander y CartPole. El objetivo principal es determinar si la optimización bayesiana con multifidelidad ofrece mejoras significativas en términos de eficiencia y rendimiento del modelo en comparación con la optimización bayesiana estándar.
Para abordar esta pregunta, se desarrollaron varias implementaciones en Python, evaluando la calidad de las soluciones mediante la media de las recompensas obtenidas como función objetivo. Se llevaron a cabo una serie de experimentos para cada entorno y versión utilizando diferentes semillas, asegurando que los resultados no fueran simplemente producto de la aleatoriedad inherente a los algoritmos de aprendizaje por refuerzo.
Los resultados obtenidos demuestran que la optimización bayesiana con multifidelidad supera a la optimización bayesiana estándar en varios aspectos clave. En el entorno de LunarLander, la multifidelidad permitió una mejor convergencia y un rendimiento más estable, logrando una mayor recompensa media en comparación con la versión estándar. En el entorno de CartPole, aunque ambos métodos alcanzaron rápidamente la recompensa máxima, la multifidelidad lo hizo con mayor consistencia y en menos tiempo.
Estos hallazgos destacan la capacidad de la multifidelidad para optimizar los hiperparámetros de manera más eficiente, utilizando menos recursos y tiempo, mientras se logra un rendimiento superior.
ABSTRACT
This research focuses on comparing standard Bayesian optimization and multifidelity Bayesian optimization in the hyperparameter search to improve the performance of reinforcement learning algorithms in environments such as OpenAI LunarLander and CartPole. The primary goal is to determine whether multifidelity Bayesian optimization provides significant improvements in solution quality compared to standard Bayesian optimization.
To address this question, several Python implementations were developed, evaluating the solution quality using the mean of the total rewards obtained as the objective function. Various experiments were conducted for each environment and version using different seeds, ensuring that the results were not merely due to the inherent randomness of reinforcement learning algorithms.
The results demonstrate that multifidelity Bayesian optimization outperforms standard Bayesian optimization in several key aspects. In the LunarLander environment, multifidelity optimization achieved better convergence and more stable performance, yielding a higher average reward compared to the standard version. In the CartPole environment, although both methods quickly reached the maximum reward, multifidelity did so with greater consistency and in less time.
These findings highlight the ability of multifidelity optimization to optimize hyperparameters more efficiently, using fewer resources and less time while achieving superior performance. Read More