Learning alignment with human values: a case on route choice modeling via Inverse Reinforcement Learning

Hay una demanda cada vez mayor de sistemas de inteligencia artificial (IA) que realicen decisiones éticas y actúen conforme a valores humanos. Una tendencia actual en la literatura aboga por explicitar en estos sistemas de IA el significado de los valores para que sean capaces de tomar decisiones razonando con los mismos. Uno de los problemas que, naturalmente, surge es cómo representar los valores humanos relevantes para un contexto de decisión determinado y cómo alinear nuestros sistemas en base a esas representaciones. Además, estos sistemas deberían tener en cuenta las preferencias que diversos agentes pueden tener sobre dichos valores y cómo condicionan su comportamiento.
En la literatura, se define el problema de aprendizaje de valores (value learning) como el aprendizaje de especificaciones de valores observando demostraciones de comportamiento humano. Sin embargo, para nuestro conocimiento, no se ha propuesto ningún método concreto hasta la fecha que permita aprender tanto representaciones computacionales de valores como preferencias solo mediante observaciones de comportamiento. Algunas propuestas aprenden comportamientos alineados mediante imitación, pero no valores específicos; mientras que otras aseguran aprender principios éticos, pero no son flexibles a las preferencias de distintos agentes.
En este trabajo proponemos un marco formal (agnóstico de dominios de aplicación específicos) para abordar el problema conjunto del aprendizaje de especificaciones de valores en entornos donde agentes puedan tener distintas preferencias, mediante un modelo preliminar de representación de sistemas de valores. Adaptaremos este marco formal a un entorno modelable mediante Procesos de Decisión de Markov (MDPs) y propondremos una solución a este problema de aprendizaje de sistemas de valores mediante el uso de algoritmos de aprendizaje por refuerzo inverso (Inverse Reinforcement Learning, IRL). La propuesta consiste en aprender funciones de recompensa que representen el alineamiento con los valores considerados.
Instanciaremos este marco formal a un caso de uso de modelado de toma de decisiones en redes de transporte, donde nos interesamos en cómo distintos agentes escogen sus rutas en base a tres valores: sostenibilidad, seguridad y eficiencia. Utilizaremos variantes para el algoritmo de aprendizaje por refuerzo inverso por entropía máxima (Maximum Entropy IRL) para aprender funciones de recompensa que reflejan de forma interpretable tanto el alineamiento con los tres valores como las preferencias de los distintos agentes, observando las rutas que toman. Los resultados muestran que estas funciones de recompensa aprendidas son capaces de explicar pólticas altamente semejantes a las demostraciones, aprendiendo el alineamiento con los valores considerados de forma satisfactoria. Además, identificamos interesantes propuestas para mejorar nuestro marco formal en trabajo futuro.
ABSTRACT
There is an increasing demand for artificial intelligence (AI) systems that make ethical decisions and act according to human values. A current trend in the literature advocates for making the meaning of these values explicit within AI systems so that they can make decisions by reasoning with them. One of the natural problems that arises is how to represent the relevant human values for a given decision context and how to align our systems based on these representations. Additionally, these systems should consider the preferences that various agent might have regarding these values, and their influence in their behavior.
In the literature, the problem of value learning has been identified as learning value specifications under demonstrations of human behavior. However, to our knowledge, no specific method has been proposed to date that allows for learning both computational representations of value meanings and preferences solely based on these behavioral demonstrations. Some proposals manage to learn aligned behaviors through imitation but do not learn specific values; others claim to learn ethical principles but are not flexible to different agents’ preferences.
In this work, we propose a formal framework (agnostic to specific application domains) to address the joint problem of learning value specifications in environments where agents may have different preferences, based on a preliminary value systems representation model. We will adapt this formal framework to environments able to be modeled as Markov decision processes (MDPs) and propose a solution to this value systems learning problem using inverse reinforcement learning (IRL) algorithms. The proposal involves learning reward functions that represent the alignment with the considered values.
We will instantiate this formal framework in a use case of route choice modeling in transport networks, where we are interested in how different agents choose their routes based on three values: sustainability, security, and efficiency. We will use variants of the Maximum Entropy IRL algorithm to learn reward functions that reflect, in an interpretable way, both the alignment with the three values and the preferences of different agents, by observing the routes they take. The results show that these learned reward functions can explain policies highly similar to the demonstrations, satisfactory learning the alignment with the considered values. Additionally, we identify interesting proposals to improve our formal framework in future work.

​Hay una demanda cada vez mayor de sistemas de inteligencia artificial (IA) que realicen decisiones éticas y actúen conforme a valores humanos. Una tendencia actual en la literatura aboga por explicitar en estos sistemas de IA el significado de los valores para que sean capaces de tomar decisiones razonando con los mismos. Uno de los problemas que, naturalmente, surge es cómo representar los valores humanos relevantes para un contexto de decisión determinado y cómo alinear nuestros sistemas en base a esas representaciones. Además, estos sistemas deberían tener en cuenta las preferencias que diversos agentes pueden tener sobre dichos valores y cómo condicionan su comportamiento.
En la literatura, se define el problema de aprendizaje de valores (value learning) como el aprendizaje de especificaciones de valores observando demostraciones de comportamiento humano. Sin embargo, para nuestro conocimiento, no se ha propuesto ningún método concreto hasta la fecha que permita aprender tanto representaciones computacionales de valores como preferencias solo mediante observaciones de comportamiento. Algunas propuestas aprenden comportamientos alineados mediante imitación, pero no valores específicos; mientras que otras aseguran aprender principios éticos, pero no son flexibles a las preferencias de distintos agentes.
En este trabajo proponemos un marco formal (agnóstico de dominios de aplicación específicos) para abordar el problema conjunto del aprendizaje de especificaciones de valores en entornos donde agentes puedan tener distintas preferencias, mediante un modelo preliminar de representación de sistemas de valores. Adaptaremos este marco formal a un entorno modelable mediante Procesos de Decisión de Markov (MDPs) y propondremos una solución a este problema de aprendizaje de sistemas de valores mediante el uso de algoritmos de aprendizaje por refuerzo inverso (Inverse Reinforcement Learning, IRL). La propuesta consiste en aprender funciones de recompensa que representen el alineamiento con los valores considerados.
Instanciaremos este marco formal a un caso de uso de modelado de toma de decisiones en redes de transporte, donde nos interesamos en cómo distintos agentes escogen sus rutas en base a tres valores: sostenibilidad, seguridad y eficiencia. Utilizaremos variantes para el algoritmo de aprendizaje por refuerzo inverso por entropía máxima (Maximum Entropy IRL) para aprender funciones de recompensa que reflejan de forma interpretable tanto el alineamiento con los tres valores como las preferencias de los distintos agentes, observando las rutas que toman. Los resultados muestran que estas funciones de recompensa aprendidas son capaces de explicar pólticas altamente semejantes a las demostraciones, aprendiendo el alineamiento con los valores considerados de forma satisfactoria. Además, identificamos interesantes propuestas para mejorar nuestro marco formal en trabajo futuro.
ABSTRACT
There is an increasing demand for artificial intelligence (AI) systems that make ethical decisions and act according to human values. A current trend in the literature advocates for making the meaning of these values explicit within AI systems so that they can make decisions by reasoning with them. One of the natural problems that arises is how to represent the relevant human values for a given decision context and how to align our systems based on these representations. Additionally, these systems should consider the preferences that various agent might have regarding these values, and their influence in their behavior.
In the literature, the problem of value learning has been identified as learning value specifications under demonstrations of human behavior. However, to our knowledge, no specific method has been proposed to date that allows for learning both computational representations of value meanings and preferences solely based on these behavioral demonstrations. Some proposals manage to learn aligned behaviors through imitation but do not learn specific values; others claim to learn ethical principles but are not flexible to different agents’ preferences.
In this work, we propose a formal framework (agnostic to specific application domains) to address the joint problem of learning value specifications in environments where agents may have different preferences, based on a preliminary value systems representation model. We will adapt this formal framework to environments able to be modeled as Markov decision processes (MDPs) and propose a solution to this value systems learning problem using inverse reinforcement learning (IRL) algorithms. The proposal involves learning reward functions that represent the alignment with the considered values.
We will instantiate this formal framework in a use case of route choice modeling in transport networks, where we are interested in how different agents choose their routes based on three values: sustainability, security, and efficiency. We will use variants of the Maximum Entropy IRL algorithm to learn reward functions that reflect, in an interpretable way, both the alignment with the three values and the preferences of different agents, by observing the routes they take. The results show that these learned reward functions can explain policies highly similar to the demonstrations, satisfactory learning the alignment with the considered values. Additionally, we identify interesting proposals to improve our formal framework in future work. Read More