El reconocimiento de emociones en la voz tradicionalmente se realiza para un dataset de laboratorio en concreto, pero cuando los modelos se utilizan para clasificar otros conjuntos de datos o en situaciones reales muestran un descenso muy acusado en la precisión con respecto a las informadas inicialmente. En este trabajo se realizan varias tareas encaminadas a mejorar el reconocimiento de emociones frente a hablantes desconocidos. Para ello se han realizado varios clasificadores basados en la arquitectura transformer. Se han utilizado los datasets CAFE, CREMA-D, EMOFILM, RAVDESS, SAVEE y TESS. En primer lugar se han ajustado modelos para todos los datasets anteriores a partir de varios modelos pre-entrenados HuBERT y Wav2Vec2, con el fin de conseguir las mejores precisiones posibles y poder comparar en pasos posteriores. Las mejores precisiones conseguidas para los seis datasets son respectivamente 90,96%, 80,49%, 84,30%, 91,93% 92,70%, y 100%, en línea con los mejores valores en el estado del arte o incluso superándolos. A continuación, se han probado estos modelos con otros datasets desconocidos para contrastar su capacidad de generalización, bajando su precisión considerablemente. Los valores obtenidos al probar con CREMA-D tras haber entrenado individualmente con RAVDESS, SAVEE y TESS son respectivamente 39,00%, 37,05% y 33,64%. Por último, con el objetivo de extraer características que permitan generalizar mejor e incrementar la precisión frente a hablantes desconocidos, se han entrenado modelos agregando estos tres datasets como conjunto de entrenamiento. Al utilizar de nuevo CREMA-D con conjunto de prueba el resultado aumenta en más de 15 puntos sobre el mejor valor de referencia, que era de un 39,00%, hasta un 54,76%, siendo el promedio de precisión para CREMA-D en entrenamiento y prueba individual un 77,48%. Como referencia adicional de la capacidad de generalización al agregar datasets, en otro ejercicio entrenando con EMOFILM, CAFE y CREMA-D, al probar con RAVDESS se ha conseguido una precisión de un 65,28%.
ABSTRACT
Voice emotion recognition is traditionally implemented for an specific laboratory dataset but when the models are used to classify other datasets or in real life situations they show a very sharp decrease in precision with respect to the initially reported. This work includes several tasks aimed at improving the recognition of emotions when clasifying audios from speakers unknown to the model. Several classifiers have been trained based on the transformer architecture. The datasets used along this work are CAFE, CREMA-D, EMOFILM, RAVDESS, SAVEE and TESS. Firstly several models have been fine-tuned for all the previous datasets, from several pre-trained HuBert and Wav2Vec2 models in order to achieve the best possible precision and to have a baseline to compare with in later steps. The best accuracies achieved for the six datasets are respectively 90.96%, 80.49%, 84.30%, 91.93% 92.70%, and 100%, aligned with the best values of the state of the art or even exceeding them. Next these models have been tested with the rest unknown datasets for each model to contrast their capacity of generalization, lowering its accuracy considerably for the unkown datasets. The values obtained using CREMA-D as test set after having trained individually with RAVDESS, SAVEE and TESS are respectively 39.00%, 37.05% and 33.64%. Lastly, with the objective to extract features that allow better generalization and increase precision facing unknown speakers, new models have been fine-tuned by adding different datasets as a training set. The result increases by more than 15 points the best reference value mentioned above, which was 39.00%, up to 54.76%, being the average accuracy for CREMA-D at individual training/test a 77.48%. As an additional reference to the generalization capacity when combining datasets, in another exercise training with EMOFILM, CAFE and CREMA-D aggregated, when testing with RAVDESS, an accuracy of 65.28% has been achieved.
El reconocimiento de emociones en la voz tradicionalmente se realiza para un dataset de laboratorio en concreto, pero cuando los modelos se utilizan para clasificar otros conjuntos de datos o en situaciones reales muestran un descenso muy acusado en la precisión con respecto a las informadas inicialmente. En este trabajo se realizan varias tareas encaminadas a mejorar el reconocimiento de emociones frente a hablantes desconocidos. Para ello se han realizado varios clasificadores basados en la arquitectura transformer. Se han utilizado los datasets CAFE, CREMA-D, EMOFILM, RAVDESS, SAVEE y TESS. En primer lugar se han ajustado modelos para todos los datasets anteriores a partir de varios modelos pre-entrenados HuBERT y Wav2Vec2, con el fin de conseguir las mejores precisiones posibles y poder comparar en pasos posteriores. Las mejores precisiones conseguidas para los seis datasets son respectivamente 90,96%, 80,49%, 84,30%, 91,93% 92,70%, y 100%, en línea con los mejores valores en el estado del arte o incluso superándolos. A continuación, se han probado estos modelos con otros datasets desconocidos para contrastar su capacidad de generalización, bajando su precisión considerablemente. Los valores obtenidos al probar con CREMA-D tras haber entrenado individualmente con RAVDESS, SAVEE y TESS son respectivamente 39,00%, 37,05% y 33,64%. Por último, con el objetivo de extraer características que permitan generalizar mejor e incrementar la precisión frente a hablantes desconocidos, se han entrenado modelos agregando estos tres datasets como conjunto de entrenamiento. Al utilizar de nuevo CREMA-D con conjunto de prueba el resultado aumenta en más de 15 puntos sobre el mejor valor de referencia, que era de un 39,00%, hasta un 54,76%, siendo el promedio de precisión para CREMA-D en entrenamiento y prueba individual un 77,48%. Como referencia adicional de la capacidad de generalización al agregar datasets, en otro ejercicio entrenando con EMOFILM, CAFE y CREMA-D, al probar con RAVDESS se ha conseguido una precisión de un 65,28%.
ABSTRACT
Voice emotion recognition is traditionally implemented for an specific laboratory dataset but when the models are used to classify other datasets or in real life situations they show a very sharp decrease in precision with respect to the initially reported. This work includes several tasks aimed at improving the recognition of emotions when clasifying audios from speakers unknown to the model. Several classifiers have been trained based on the transformer architecture. The datasets used along this work are CAFE, CREMA-D, EMOFILM, RAVDESS, SAVEE and TESS. Firstly several models have been fine-tuned for all the previous datasets, from several pre-trained HuBert and Wav2Vec2 models in order to achieve the best possible precision and to have a baseline to compare with in later steps. The best accuracies achieved for the six datasets are respectively 90.96%, 80.49%, 84.30%, 91.93% 92.70%, and 100%, aligned with the best values of the state of the art or even exceeding them. Next these models have been tested with the rest unknown datasets for each model to contrast their capacity of generalization, lowering its accuracy considerably for the unkown datasets. The values obtained using CREMA-D as test set after having trained individually with RAVDESS, SAVEE and TESS are respectively 39.00%, 37.05% and 33.64%. Lastly, with the objective to extract features that allow better generalization and increase precision facing unknown speakers, new models have been fine-tuned by adding different datasets as a training set. The result increases by more than 15 points the best reference value mentioned above, which was 39.00%, up to 54.76%, being the average accuracy for CREMA-D at individual training/test a 77.48%. As an additional reference to the generalization capacity when combining datasets, in another exercise training with EMOFILM, CAFE and CREMA-D aggregated, when testing with RAVDESS, an accuracy of 65.28% has been achieved. Read More