Segmentación e identificación de gestos en imágenes y vídeos: aplicación en la traducción de la Lengua de Signos Española (LSE)

Este estudio tiene como objetivo desarrollar un sistema de reconocimiento de gestos para la lengua de signos española para mejorar la comunicación entre personas sordas y oyentes. La investigación se enmarca en un contexto histórico que sitúa la formación de asociaciones de sordos en España a principios del siglo XX, en particular la Confederación Estatal de Personas Sordas (CNSE), al igual que la promulgación de la Ley 27/2007, de 23 de octubre, por la que se reconocen las lenguas de signos españolas y se regulan los medios de apoyo a la comunicación oral de las personas sordas, con discapacidad auditiva y sordociegas.
Motivado por la necesidad actual de cerrar las brechas de comunicación y promover la conciencia de la comunicación gestual, en este estudio se busca crear un prototipo de sistema que utilice técnicas avanzadas de aprendizaje automático y computación visual para identificar e interpretar gestos de lengua de signos española en texto. Los objetivos específicos incluyen establecer el estado del arte en la detección de gestos, generar un conjunto de datos de vocabulario en la lengua de signos española y analizar distintos modelos de aprendizaje automático para la detección de gestos en tiempo real.
Asimismo, se hace una revisión exhaustiva del estado del arte en el reconocimiento de gestos en lengua de signos, señalando avances significativos en el campo, en particular el crecimiento generalizado de la investigación y la aplicación en países como India, China y Estados Unidos. Analiza las técnicas de computación visual para la detección de gestos, como las redes neuronales convolucionales (CNN) y las redes neuronales recurrentes (RNN), y herramientas prácticas como Google MediaPipe para detectar puntos clave del cuerpo. También se exploran los algoritmos para la clasificación de gestos, incluida la agrupación de K-medias, los modelos ocultos de Markov y las máquinas de vectores de soporte.
Por otra parte, se evalúan diversas metodologías para el reconocimiento de la lengua de signos, que van desde cámaras de vídeo convencionales y dispositivos de seguimiento de movimiento como Microsoft Kinect hasta sensores portátiles. El estudio enfatiza el enfoque holístico para capturar múltiples partes del cuerpo, como las manos, el torso y la cara, para mejorar la precisión del reconocimiento de gestos.
El análisis comparativo de los modelos, incluidos InceptionResNetV2, redes neuronales de memoria a corto plazo extendida, unidades recurrentes cerradas, entre otras. Destacando la precisión y eficiencia en las épocas de cada modelo.
Esta investigación no solo avanza en las capacidades técnicas de los sistemas de reconocimiento de gestos, sino que también se alinea con objetivos sociales más amplios, como los descritos en la Agenda 2030 para el Desarrollo Sostenible de las Naciones Unidas, que aboga por una educación inclusiva y equitativa de calidad y la reducción de las desigualdades dentro de los países y entre ellos.
ABSTRACT
This study aims to develop a gesture recognition system for Spanish sign language to improve communication between deaf and hearing people. The research is framed in a historical context that places the formation of associations of the deaf in Spain at the beginning of the twentieth century, in particular the State Confederation of Deaf People (CNSE), as well as the enactment of Law 27/2007, of October 23, which recognizes Spanish sign languages and regulates the means of support for oral communication of deaf people. hearing impaired and deafblind.
Motivated by the current need to close communication gaps and promote awareness of gestural communication, this study seeks to create a prototype system that uses advanced machine learning and visual computing techniques to identify and interpret Spanish sign language gestures in text. Specific objectives include establishing the state of the art in gesture detection, generating a vocabulary dataset in Spanish sign language, and analyzing different machine learning models for real-time gesture detection.
It also makes an exhaustive review of the state of the art in the recognition of gestures in sign language, pointing out significant advances in the field, in particular the widespread growth of research and application in countries such as India, China and the United States. It discusses visual computing techniques for gesture detection, such as convolutional neural networks (CNNs) and recurrent neural networks (RNNs), and practical tools such as Google MediaPipe for detecting key points on the body. Algorithms for gesture classification, including K-mean clustering, hidden Markov models, and support vector machines, are also explored.
On the other hand, various methodologies for sign language recognition are being evaluated, ranging from conventional vídeo cameras and motion tracking devices such as Microsoft Kinect to portable sensors. The study emphasizes the holistic approach to capturing multiple body parts, such as the hands, torso, and face, to improve the accuracy of gesture recognition.
Comparative analysis of models, including InceptionResNetV2, extended shortterm memory neural networks, closed recurrent units, among others. Highlighting the precision and efficiency in the eras of each model.
This research not only advances the technical capabilities of gesture recognition systems, but also aligns with broader societal goals, such as those outlined in the United Nations’ 2030 Agenda for Sustainable Development, which advocates for inclusive and equitable quality education and the reduction of inequalities within and between countries.

​Este estudio tiene como objetivo desarrollar un sistema de reconocimiento de gestos para la lengua de signos española para mejorar la comunicación entre personas sordas y oyentes. La investigación se enmarca en un contexto histórico que sitúa la formación de asociaciones de sordos en España a principios del siglo XX, en particular la Confederación Estatal de Personas Sordas (CNSE), al igual que la promulgación de la Ley 27/2007, de 23 de octubre, por la que se reconocen las lenguas de signos españolas y se regulan los medios de apoyo a la comunicación oral de las personas sordas, con discapacidad auditiva y sordociegas.
Motivado por la necesidad actual de cerrar las brechas de comunicación y promover la conciencia de la comunicación gestual, en este estudio se busca crear un prototipo de sistema que utilice técnicas avanzadas de aprendizaje automático y computación visual para identificar e interpretar gestos de lengua de signos española en texto. Los objetivos específicos incluyen establecer el estado del arte en la detección de gestos, generar un conjunto de datos de vocabulario en la lengua de signos española y analizar distintos modelos de aprendizaje automático para la detección de gestos en tiempo real.
Asimismo, se hace una revisión exhaustiva del estado del arte en el reconocimiento de gestos en lengua de signos, señalando avances significativos en el campo, en particular el crecimiento generalizado de la investigación y la aplicación en países como India, China y Estados Unidos. Analiza las técnicas de computación visual para la detección de gestos, como las redes neuronales convolucionales (CNN) y las redes neuronales recurrentes (RNN), y herramientas prácticas como Google MediaPipe para detectar puntos clave del cuerpo. También se exploran los algoritmos para la clasificación de gestos, incluida la agrupación de K-medias, los modelos ocultos de Markov y las máquinas de vectores de soporte.
Por otra parte, se evalúan diversas metodologías para el reconocimiento de la lengua de signos, que van desde cámaras de vídeo convencionales y dispositivos de seguimiento de movimiento como Microsoft Kinect hasta sensores portátiles. El estudio enfatiza el enfoque holístico para capturar múltiples partes del cuerpo, como las manos, el torso y la cara, para mejorar la precisión del reconocimiento de gestos.
El análisis comparativo de los modelos, incluidos InceptionResNetV2, redes neuronales de memoria a corto plazo extendida, unidades recurrentes cerradas, entre otras. Destacando la precisión y eficiencia en las épocas de cada modelo.
Esta investigación no solo avanza en las capacidades técnicas de los sistemas de reconocimiento de gestos, sino que también se alinea con objetivos sociales más amplios, como los descritos en la Agenda 2030 para el Desarrollo Sostenible de las Naciones Unidas, que aboga por una educación inclusiva y equitativa de calidad y la reducción de las desigualdades dentro de los países y entre ellos.
ABSTRACT
This study aims to develop a gesture recognition system for Spanish sign language to improve communication between deaf and hearing people. The research is framed in a historical context that places the formation of associations of the deaf in Spain at the beginning of the twentieth century, in particular the State Confederation of Deaf People (CNSE), as well as the enactment of Law 27/2007, of October 23, which recognizes Spanish sign languages and regulates the means of support for oral communication of deaf people. hearing impaired and deafblind.
Motivated by the current need to close communication gaps and promote awareness of gestural communication, this study seeks to create a prototype system that uses advanced machine learning and visual computing techniques to identify and interpret Spanish sign language gestures in text. Specific objectives include establishing the state of the art in gesture detection, generating a vocabulary dataset in Spanish sign language, and analyzing different machine learning models for real-time gesture detection.
It also makes an exhaustive review of the state of the art in the recognition of gestures in sign language, pointing out significant advances in the field, in particular the widespread growth of research and application in countries such as India, China and the United States. It discusses visual computing techniques for gesture detection, such as convolutional neural networks (CNNs) and recurrent neural networks (RNNs), and practical tools such as Google MediaPipe for detecting key points on the body. Algorithms for gesture classification, including K-mean clustering, hidden Markov models, and support vector machines, are also explored.
On the other hand, various methodologies for sign language recognition are being evaluated, ranging from conventional vídeo cameras and motion tracking devices such as Microsoft Kinect to portable sensors. The study emphasizes the holistic approach to capturing multiple body parts, such as the hands, torso, and face, to improve the accuracy of gesture recognition.
Comparative analysis of models, including InceptionResNetV2, extended shortterm memory neural networks, closed recurrent units, among others. Highlighting the precision and efficiency in the eras of each model.
This research not only advances the technical capabilities of gesture recognition systems, but also aligns with broader societal goals, such as those outlined in the United Nations’ 2030 Agenda for Sustainable Development, which advocates for inclusive and equitable quality education and the reduction of inequalities within and between countries. Read More