Named entity recognition of human phenotype ontology concepts in Spanish clinical texts

El presente trabajo aborda el reconocimiento de entidades de la Human Phenotype Ontology (HPO) en textos clínicos en español, utilizando técnicas avanzadas de Procesamiento del Lenguaje Natural (NLP). Este proceso es fundamental para la estandarización y codificación de información fenotípica contenida en la Historia Clínica Electrónica (HCE), facilitando la interoperabilidad semántica entre sistemas de salud y mejorando la precisión en el diagnóstico de enfermedades complejas.
Con la digitalización de los datos clínicos, ha surgido la necesidad de utilizar terminologías y ontologías clínicas para asegurar la interoperabilidad de la información, contexto en el cual la HPO es crucial, ya que permite identificar patrones y correlaciones entre síntomas y enfermedades, agilizando y mejorando la precisión diagnóstica, especialmente en enfermedades raras y complejas.
El principal desafío radica en que la mayoría de la información fenotípica se registra en formato de texto libre, lo que dificulta su estandarización automática. Además, existe una escasez de datos etiquetados en español, ya que la HPO no está completamente traducida a este idioma, lo que limita el uso de modelos de aprendizaje profundo. Este proyecto se propone desarrollar un modelo híbrido que combine técnicas de búsqueda en diccionarios y modelos de aprendizaje profundo para mejorar el reconocimiento de términos HPO en textos clínicos en español.
La arquitectura del modelo se basa en dos módulos principales: el de búsqueda en diccionarios y el modelo de aprendizaje profundo. Ambos utilizan un diccionario basado en la HPO como fuente de conocimiento. Los pasos clave llevados a cabo incluyen: 1. Construcción del diccionario. 2. Entrenamiento del modelo de aprendizaje profundo. 3. Preprocesamiento de los textos de entrada. 4. Etiquetado dual del texto mediante métodos basados en aprendizaje profundo y diccionarios. 5. Combinación de resultados
Adicionalmente, para aumentar el número de instancias en el diccionario, se emplearon técnicas de aumento de datos, como la traducción inversa (roundtrip translation).
El sistema híbrido demostró una mejora significativa en el recall, reconociendo variaciones no incluidas en el diccionario y manteniendo una precisión similar a la de la búsqueda en diccionarios. Los resultados finales del modelo muestran una precisión de 0.7016, un recall de 0.7655 y un F1 score de 0.7321, lo que refleja un equilibrio entre precisión y capacidad de reconocimiento de conceptos.
Este trabajo sienta las bases para la implementación de sistemas automatizados de reconocimiento de entidades fenotípicas en español, contribuyendo a la mejora de la interoperabilidad semántica en el ámbito de la salud y potenciando la capacidad diagnóstica en entornos clínicos.
ABSTRACT
The present work addresses the recognition of entities from the Human Phenotype Ontology (HPO) in Spanish clinical texts, using advanced Natural Language Processing (NLP) techniques. This process is fundamental for the standardization and coding of phenotypic information in electronic health records (EHR), facilitating semantic interoperability between health systems and improving the precision in diagnosing complex diseases.
With the digitization of clinical data, the need to use clinical terminologies and ontologies has arisen to ensure information interoperability. The HPO is crucial in this context, as it allows the identification of patterns and correlations between symptoms and diseases, expediting and improving diagnostic precision, especially in rare and complex diseases.
The main challenge lies in the fact that most phenotypic information is recorded in free-text format, making automatic standardization difficult. Additionally, there is a scarcity of labeled data in Spanish since the HPO is not fully translated into this language, limiting the use of deep learning models. This project aims to develop a hybrid model that combines dictionary-based search techniques and deep learning models to improve the recognition of HPO terms in Spanish clinical texts.
The model architecture is based on two main modules: the dictionary search module and the deep learning model. Both use a dictionary based on the HPO as a knowledge source. The key steps include: 1. Dictionary construction. 2. Training the deep learning model. 3. Preprocessing input texts. 4. Dual text labeling using deep learning and dictionary-based methods. 5. Combining results.
Additionally, to increase the number of instances in the dictionary, data augmentation techniques such as round-trip translation were employed.
The hybrid system demonstrated a significant improvement in recall, recognizing variations not included in the dictionary while maintaining precision similar to dictionary search. The final model results show a precision of 0.7016, a recall of 0.7655, and an F1 score of 0.7321, reflecting a balance between precision and concept recognition ability.
This work lays the foundation for the implementation of automated phenotypic entity recognition systems in Spanish, contributing to the improvement of semantic interoperability in the healthcare field and enhancing diagnostic capabilities in clinical settings.

​El presente trabajo aborda el reconocimiento de entidades de la Human Phenotype Ontology (HPO) en textos clínicos en español, utilizando técnicas avanzadas de Procesamiento del Lenguaje Natural (NLP). Este proceso es fundamental para la estandarización y codificación de información fenotípica contenida en la Historia Clínica Electrónica (HCE), facilitando la interoperabilidad semántica entre sistemas de salud y mejorando la precisión en el diagnóstico de enfermedades complejas.
Con la digitalización de los datos clínicos, ha surgido la necesidad de utilizar terminologías y ontologías clínicas para asegurar la interoperabilidad de la información, contexto en el cual la HPO es crucial, ya que permite identificar patrones y correlaciones entre síntomas y enfermedades, agilizando y mejorando la precisión diagnóstica, especialmente en enfermedades raras y complejas.
El principal desafío radica en que la mayoría de la información fenotípica se registra en formato de texto libre, lo que dificulta su estandarización automática. Además, existe una escasez de datos etiquetados en español, ya que la HPO no está completamente traducida a este idioma, lo que limita el uso de modelos de aprendizaje profundo. Este proyecto se propone desarrollar un modelo híbrido que combine técnicas de búsqueda en diccionarios y modelos de aprendizaje profundo para mejorar el reconocimiento de términos HPO en textos clínicos en español.
La arquitectura del modelo se basa en dos módulos principales: el de búsqueda en diccionarios y el modelo de aprendizaje profundo. Ambos utilizan un diccionario basado en la HPO como fuente de conocimiento. Los pasos clave llevados a cabo incluyen: 1. Construcción del diccionario. 2. Entrenamiento del modelo de aprendizaje profundo. 3. Preprocesamiento de los textos de entrada. 4. Etiquetado dual del texto mediante métodos basados en aprendizaje profundo y diccionarios. 5. Combinación de resultados
Adicionalmente, para aumentar el número de instancias en el diccionario, se emplearon técnicas de aumento de datos, como la traducción inversa (roundtrip translation).
El sistema híbrido demostró una mejora significativa en el recall, reconociendo variaciones no incluidas en el diccionario y manteniendo una precisión similar a la de la búsqueda en diccionarios. Los resultados finales del modelo muestran una precisión de 0.7016, un recall de 0.7655 y un F1 score de 0.7321, lo que refleja un equilibrio entre precisión y capacidad de reconocimiento de conceptos.
Este trabajo sienta las bases para la implementación de sistemas automatizados de reconocimiento de entidades fenotípicas en español, contribuyendo a la mejora de la interoperabilidad semántica en el ámbito de la salud y potenciando la capacidad diagnóstica en entornos clínicos.
ABSTRACT
The present work addresses the recognition of entities from the Human Phenotype Ontology (HPO) in Spanish clinical texts, using advanced Natural Language Processing (NLP) techniques. This process is fundamental for the standardization and coding of phenotypic information in electronic health records (EHR), facilitating semantic interoperability between health systems and improving the precision in diagnosing complex diseases.
With the digitization of clinical data, the need to use clinical terminologies and ontologies has arisen to ensure information interoperability. The HPO is crucial in this context, as it allows the identification of patterns and correlations between symptoms and diseases, expediting and improving diagnostic precision, especially in rare and complex diseases.
The main challenge lies in the fact that most phenotypic information is recorded in free-text format, making automatic standardization difficult. Additionally, there is a scarcity of labeled data in Spanish since the HPO is not fully translated into this language, limiting the use of deep learning models. This project aims to develop a hybrid model that combines dictionary-based search techniques and deep learning models to improve the recognition of HPO terms in Spanish clinical texts.
The model architecture is based on two main modules: the dictionary search module and the deep learning model. Both use a dictionary based on the HPO as a knowledge source. The key steps include: 1. Dictionary construction. 2. Training the deep learning model. 3. Preprocessing input texts. 4. Dual text labeling using deep learning and dictionary-based methods. 5. Combining results.
Additionally, to increase the number of instances in the dictionary, data augmentation techniques such as round-trip translation were employed.
The hybrid system demonstrated a significant improvement in recall, recognizing variations not included in the dictionary while maintaining precision similar to dictionary search. The final model results show a precision of 0.7016, a recall of 0.7655, and an F1 score of 0.7321, reflecting a balance between precision and concept recognition ability.
This work lays the foundation for the implementation of automated phenotypic entity recognition systems in Spanish, contributing to the improvement of semantic interoperability in the healthcare field and enhancing diagnostic capabilities in clinical settings. Read More