Interaction in Social eXtended Reality: A Quality of Experience Approach

The rise of immersive technologies has led to an increase in the number of use cases that adapt this type of technology within the telecommunications area. Some examples are: industrial training, multimedia content consumption and tele-training. Among all the immersive technologies, eXtended Reality through the use of Head-Mounted Displays (HMD) is the one that focuses the majority of current developments. Specifically, the Social XR paradigm frames the use of immersive technologies in a multi-user or social context. Among the decisive factors for using immersive technology in communications use cases, two stand out: the possibility of making the user believe that they has been transported to another place (sensation of presence) and the possibility of increasing interactions by allowing displacements through space (6 degrees of freedom) as well as the possibility of interacting in a more natural way. Such improvements are ultimately improvements in user experience (UX). Therefore, UX evaluation is crucial for effective XR development. In a telecommunications context, this is known as quality of experience (QoE) evaluation.
In the initial stages of the thesis development, the focus was primarily on exploring possible areas of scientific contribution. The first significant area that emerged was the proposal of a methodology for evaluating the QoE of immersive environments based on 360 video. To this end, an inter-laboratory experiment was conducted within the video quality expert group (VQEG) of the International Telecommunications Union (ITU). As a result of this experiment, the ITU-T P.919 Recommendation was published.
As the thesis progressed, another key area of exploration was the development and evaluation of natural user interfaces (NUI) in the context of industrial training. Within a publicprivate partnership, we developed a training environment for fiber optic review with specific object manipulation requirements. In this section of the thesis, NUI-based manipulation solutions with subjective evaluation by subject matter experts are presented. Thanks to these contributions, we have been able to confirm that such natural interfaces allow the development of training that reduce cost and environmental impact while maintaining high user satisfaction values.
As we performed interaction development for Social XR, we identified that delay appeared to be a key element in guaranteeing QoE. Therefore, the third area of scientific contribution focused on investigating the impact of latency in different processing loops within the Social XR domain. In this sense the thesis presents two major contributions, a first contribution that focuses on the study of the different delays perceptible by users and how these affect them differently. Within this same contribution, a processing framework common to different existing Social XR systems is presented. Finally, a state of the art of different studies that identify allowable latencies in different use cases involving XR communication is presented. Using these values, a QoE prediction model adapted from an ITU recommendation is presented in order to be flexible to new use cases. The second major contribution presents three novel QoE studies investigating the impact of delays on: environment updates, self-view perception, and video conferencing within Social XR environments. This doctoral thesis has significantly advanced our understanding of immersive video-based environments. We can now effectively assess the QoE within these environments using novel methods. Furthermore, the thesis explores the development of natural interfaces for interaction in XR, allowing us to evaluate XR interaction environments from a QoE perspective. This includes pinpointing the impact and location of delays within Social XR systems. By understanding how different delay values influence UX for various use cases, we can establish acceptable delay thresholds for optimal QoE in video-based Social XR.
RESUMEN
El auge de las tecnologías inmersivas ha impulsado su uso en el ámbito de las telecomunicaciones para diversos fines, como la formación industrial, el consumo de contenido multimedia y la teleformación. Entre estas tecnologías, la Realidad Extendida (XR) mediante gafas de realidad virtual (HMD) es la que concentra la mayor parte del desarrollo actual. En concreto, el paradigma de la XR Social plantea el uso de tecnologías inmersivas en un contexto multiusuario o social. Dos factores decisivos para el empleo de la tecnología inmersiva en las comunicaciones son: la sensación de presencia (ser transportado a otro lugar) y la posibilidad de incrementar las interacciones permitiendo desplazamientos (6 grados de libertad) e interacciones más naturales. Estas mejoras se traducen, en última instancia, en una mejor experiencia de usuario (UX). Por tanto, la evaluación de la UX resulta crucial para un desarrollo eficaz de la XR. En el contexto de las telecomunicaciones, esto se conoce como evaluación de calidad de experiencia (QoE).
Al comenzar la tesis, el objetivo principal fue explorar posibles áreas de contribución científica. La primera área destacada fue la propuesta de una metodología para evaluar la QoE de entornos inmersivos basados en vídeo 360. Para ello, se llevó a cabo un experimento interlaboratorio dentro del grupo de expertos en calidad de vídeo (VQEG) de la Unión Internacional de Telecomunicaciones (UIT). Como resultado de este experimento, se publicó la Recomendación UIT-T P.919.
Otra área fundamental del trabajo de tesis fue el desarrollo y la evaluación de interfaces naturales de usuario (NUI) en el contexto de la formación industrial. Mediante una colaboración público-privada, se desarrolló un entorno de formación con requisitos específicos de manipulación de objetos. En esta sección de la tesis, se presentan soluciones de manipulación basadas en NUI con una evaluación subjetiva por parte de expertos en la materia. Gracias a estas aportaciones, se ha podido confirmar que dichas interfaces naturales permiten desarrollar formaciones que reducen costes e impacto medioambiental, manteniendo a la vez altos niveles de satisfacción del usuario.
Durante el desarrollo de la interacción para la XR Social, se identificó el retardo como un elemento clave para garantizar la QoE. Por lo tanto, la tercera área de contribución científica se centró en investigar el impacto de la latencia de distintos procesos en la XR Social. En este sentido, la tesis presenta dos contribuciones principales: un primer estudio sobre los distintos retardos perceptibles por los usuarios y cómo les afectan de manera diferente. Dentro de esta misma contribución, se presenta un marco de procesamiento común a diferentes sistemas de XR Social existentes. Por último, se ofrece un análisis del estado del arte sobre estudios que identifican las latencias admisibles en diferentes casos de uso que involucran comunicación por XR. Utilizando estos valores, se presenta un modelo de predicción de la QoE adaptado de una recomendación de la UIT para ser flexible ante nuevos casos de uso. La segunda contribución sobre retardos presenta tres nuevos estudios de QoE que investigan el impacto de los retardos en: actualizaciones del entorno, percepción de la autoimagen y videoconferencia dentro de entornos de XR Social.
Esta tesis doctoral ha supuesto un avance significativo en la comprensión de los entornos vii inmersivos basados en vídeo. Ahora podemos evaluar eficazmente la QoE dentro de estos entornos. Este trabajo sienta las bases para la evaluación de la QoE en entornos de interacción natural. Además, también se incluye la identificación del impacto y la ubicación de los retardos dentro de los sistemas de XR Social. Al comprender cómo los diferentes valores de retardo influyen en la UX para diversos casos de uso, hemos identificado los umbrales de retardo aceptables en entornos de XR Social basados en vídeo.

​The rise of immersive technologies has led to an increase in the number of use cases that adapt this type of technology within the telecommunications area. Some examples are: industrial training, multimedia content consumption and tele-training. Among all the immersive technologies, eXtended Reality through the use of Head-Mounted Displays (HMD) is the one that focuses the majority of current developments. Specifically, the Social XR paradigm frames the use of immersive technologies in a multi-user or social context. Among the decisive factors for using immersive technology in communications use cases, two stand out: the possibility of making the user believe that they has been transported to another place (sensation of presence) and the possibility of increasing interactions by allowing displacements through space (6 degrees of freedom) as well as the possibility of interacting in a more natural way. Such improvements are ultimately improvements in user experience (UX). Therefore, UX evaluation is crucial for effective XR development. In a telecommunications context, this is known as quality of experience (QoE) evaluation.
In the initial stages of the thesis development, the focus was primarily on exploring possible areas of scientific contribution. The first significant area that emerged was the proposal of a methodology for evaluating the QoE of immersive environments based on 360 video. To this end, an inter-laboratory experiment was conducted within the video quality expert group (VQEG) of the International Telecommunications Union (ITU). As a result of this experiment, the ITU-T P.919 Recommendation was published.
As the thesis progressed, another key area of exploration was the development and evaluation of natural user interfaces (NUI) in the context of industrial training. Within a publicprivate partnership, we developed a training environment for fiber optic review with specific object manipulation requirements. In this section of the thesis, NUI-based manipulation solutions with subjective evaluation by subject matter experts are presented. Thanks to these contributions, we have been able to confirm that such natural interfaces allow the development of training that reduce cost and environmental impact while maintaining high user satisfaction values.
As we performed interaction development for Social XR, we identified that delay appeared to be a key element in guaranteeing QoE. Therefore, the third area of scientific contribution focused on investigating the impact of latency in different processing loops within the Social XR domain. In this sense the thesis presents two major contributions, a first contribution that focuses on the study of the different delays perceptible by users and how these affect them differently. Within this same contribution, a processing framework common to different existing Social XR systems is presented. Finally, a state of the art of different studies that identify allowable latencies in different use cases involving XR communication is presented. Using these values, a QoE prediction model adapted from an ITU recommendation is presented in order to be flexible to new use cases. The second major contribution presents three novel QoE studies investigating the impact of delays on: environment updates, self-view perception, and video conferencing within Social XR environments. This doctoral thesis has significantly advanced our understanding of immersive video-based environments. We can now effectively assess the QoE within these environments using novel methods. Furthermore, the thesis explores the development of natural interfaces for interaction in XR, allowing us to evaluate XR interaction environments from a QoE perspective. This includes pinpointing the impact and location of delays within Social XR systems. By understanding how different delay values influence UX for various use cases, we can establish acceptable delay thresholds for optimal QoE in video-based Social XR.
RESUMEN
El auge de las tecnologías inmersivas ha impulsado su uso en el ámbito de las telecomunicaciones para diversos fines, como la formación industrial, el consumo de contenido multimedia y la teleformación. Entre estas tecnologías, la Realidad Extendida (XR) mediante gafas de realidad virtual (HMD) es la que concentra la mayor parte del desarrollo actual. En concreto, el paradigma de la XR Social plantea el uso de tecnologías inmersivas en un contexto multiusuario o social. Dos factores decisivos para el empleo de la tecnología inmersiva en las comunicaciones son: la sensación de presencia (ser transportado a otro lugar) y la posibilidad de incrementar las interacciones permitiendo desplazamientos (6 grados de libertad) e interacciones más naturales. Estas mejoras se traducen, en última instancia, en una mejor experiencia de usuario (UX). Por tanto, la evaluación de la UX resulta crucial para un desarrollo eficaz de la XR. En el contexto de las telecomunicaciones, esto se conoce como evaluación de calidad de experiencia (QoE).
Al comenzar la tesis, el objetivo principal fue explorar posibles áreas de contribución científica. La primera área destacada fue la propuesta de una metodología para evaluar la QoE de entornos inmersivos basados en vídeo 360. Para ello, se llevó a cabo un experimento interlaboratorio dentro del grupo de expertos en calidad de vídeo (VQEG) de la Unión Internacional de Telecomunicaciones (UIT). Como resultado de este experimento, se publicó la Recomendación UIT-T P.919.
Otra área fundamental del trabajo de tesis fue el desarrollo y la evaluación de interfaces naturales de usuario (NUI) en el contexto de la formación industrial. Mediante una colaboración público-privada, se desarrolló un entorno de formación con requisitos específicos de manipulación de objetos. En esta sección de la tesis, se presentan soluciones de manipulación basadas en NUI con una evaluación subjetiva por parte de expertos en la materia. Gracias a estas aportaciones, se ha podido confirmar que dichas interfaces naturales permiten desarrollar formaciones que reducen costes e impacto medioambiental, manteniendo a la vez altos niveles de satisfacción del usuario.
Durante el desarrollo de la interacción para la XR Social, se identificó el retardo como un elemento clave para garantizar la QoE. Por lo tanto, la tercera área de contribución científica se centró en investigar el impacto de la latencia de distintos procesos en la XR Social. En este sentido, la tesis presenta dos contribuciones principales: un primer estudio sobre los distintos retardos perceptibles por los usuarios y cómo les afectan de manera diferente. Dentro de esta misma contribución, se presenta un marco de procesamiento común a diferentes sistemas de XR Social existentes. Por último, se ofrece un análisis del estado del arte sobre estudios que identifican las latencias admisibles en diferentes casos de uso que involucran comunicación por XR. Utilizando estos valores, se presenta un modelo de predicción de la QoE adaptado de una recomendación de la UIT para ser flexible ante nuevos casos de uso. La segunda contribución sobre retardos presenta tres nuevos estudios de QoE que investigan el impacto de los retardos en: actualizaciones del entorno, percepción de la autoimagen y videoconferencia dentro de entornos de XR Social.
Esta tesis doctoral ha supuesto un avance significativo en la comprensión de los entornos vii inmersivos basados en vídeo. Ahora podemos evaluar eficazmente la QoE dentro de estos entornos. Este trabajo sienta las bases para la evaluación de la QoE en entornos de interacción natural. Además, también se incluye la identificación del impacto y la ubicación de los retardos dentro de los sistemas de XR Social. Al comprender cómo los diferentes valores de retardo influyen en la UX para diversos casos de uso, hemos identificado los umbrales de retardo aceptables en entornos de XR Social basados en vídeo. Read More