Uso de modelos del lenguaje para búsquedas semánticas en textos científicos

A diferencia de los buscadores tradicionales, los buscadores semánticos nos permiten obtener información más relevante y de mayor utilidad a partir de una consulta. Esto se debe a que no se limitan a buscar coincidencias en palabras clave, si no que tratan de entender el significado y el contexto detrás de la consulta. Para ello, en la búsqueda semántica se utilizan técnicas del PLN (Procesamiento del Lenguaje Natural) y, de forma más específica, de la CLN (Comprensión del Lenguaje Natural), como pueden ser el análisis sintáctico y semántico, o la contextualización de la consulta, entre otras. Este trabajo se centra en el uso y adaptación de diferentes modelos del lenguaje para el desarrollo de un buscador semántico especializado en búsquedas en textos científicos. Para ello, el sistema utiliza distintos modelos Sentence Transfromers para la generación de embeddings de los textos científicos. Posteriormente, estos embeddings se almacenan e indexan de forma eficiente en una base de datos semántica, de forma que cuando el sistema recibe una consulta de un usuario, se pueden recuperar de forma eficiente los documentos más relevantes. Asimismo, se ha desarrollado una aplicación web que permite introducir todo tipo de consultas y filtrar los resultados según parámetros específicos, como el título o el autor del documento. Por último, para probar la efectividad y precisión del buscador semántico, se ha llevado a cabo una evaluación del sistema utilizando artículos de investigación biomédica. Esta evaluación se ha realizado con la ayuda de Álvaro García Barragán, científico informático e investigador especializado en “machine learning”, y Andrea Álvarez Pérez, ingeniera biotecnológica, investigadora y experta en reposicionamiento de medicamentos. Los resultados obtenidos en la evaluación han sido positivos y garantizan el buen funcionamiento y la efectividad del sistema a la hora de responder consultas de carácter científico.
ABSTRACT
Unlike traditional search engines, semantic search engines allow us to obtain more relevant and useful information from a query. This is because they are not limited to searching for keyword matches but try to understand the meaning and context behind the query. For this purpose, semantic search uses techniques from NLP (Natural Language Processing) and, more specifically, from NLU (Natural Language Understanding), such as syntactic and semantic analysis, or query contextualization, among others. This work focuses on the use and adaptation of different language models for the development of a semantic search engine specialized in scientific text searches. To this end, the system uses different Sentence Transfromers models for the generation of embeddings from scientific texts. Subsequently, these embeddings are stored and indexed efficiently in a semantic database, so that when the system receives a query from a user, the most relevant documents can be retrieved efficiently. A web application has also been developed, which allows, among other functionalities, to enter all types of queries and filter the results according to specific parameters, such as the title or author of the document. Finally, to test the effectiveness and accuracy of the semantic search engine, an evaluation of the system has been carried out using biomedical research articles. This evaluation has been conducted with the help of Álvaro García Barragán, computer scientist and researcher specialized in machine learning, and Andrea Álvarez Pérez, biotechnological engineer, researcher, and expert in drug repositioning. The results obtained in the evaluation guarantee the good performance and effectiveness of the system in answering scientific queries.

​A diferencia de los buscadores tradicionales, los buscadores semánticos nos permiten obtener información más relevante y de mayor utilidad a partir de una consulta. Esto se debe a que no se limitan a buscar coincidencias en palabras clave, si no que tratan de entender el significado y el contexto detrás de la consulta. Para ello, en la búsqueda semántica se utilizan técnicas del PLN (Procesamiento del Lenguaje Natural) y, de forma más específica, de la CLN (Comprensión del Lenguaje Natural), como pueden ser el análisis sintáctico y semántico, o la contextualización de la consulta, entre otras. Este trabajo se centra en el uso y adaptación de diferentes modelos del lenguaje para el desarrollo de un buscador semántico especializado en búsquedas en textos científicos. Para ello, el sistema utiliza distintos modelos Sentence Transfromers para la generación de embeddings de los textos científicos. Posteriormente, estos embeddings se almacenan e indexan de forma eficiente en una base de datos semántica, de forma que cuando el sistema recibe una consulta de un usuario, se pueden recuperar de forma eficiente los documentos más relevantes. Asimismo, se ha desarrollado una aplicación web que permite introducir todo tipo de consultas y filtrar los resultados según parámetros específicos, como el título o el autor del documento. Por último, para probar la efectividad y precisión del buscador semántico, se ha llevado a cabo una evaluación del sistema utilizando artículos de investigación biomédica. Esta evaluación se ha realizado con la ayuda de Álvaro García Barragán, científico informático e investigador especializado en “machine learning”, y Andrea Álvarez Pérez, ingeniera biotecnológica, investigadora y experta en reposicionamiento de medicamentos. Los resultados obtenidos en la evaluación han sido positivos y garantizan el buen funcionamiento y la efectividad del sistema a la hora de responder consultas de carácter científico.
ABSTRACT
Unlike traditional search engines, semantic search engines allow us to obtain more relevant and useful information from a query. This is because they are not limited to searching for keyword matches but try to understand the meaning and context behind the query. For this purpose, semantic search uses techniques from NLP (Natural Language Processing) and, more specifically, from NLU (Natural Language Understanding), such as syntactic and semantic analysis, or query contextualization, among others. This work focuses on the use and adaptation of different language models for the development of a semantic search engine specialized in scientific text searches. To this end, the system uses different Sentence Transfromers models for the generation of embeddings from scientific texts. Subsequently, these embeddings are stored and indexed efficiently in a semantic database, so that when the system receives a query from a user, the most relevant documents can be retrieved efficiently. A web application has also been developed, which allows, among other functionalities, to enter all types of queries and filter the results according to specific parameters, such as the title or author of the document. Finally, to test the effectiveness and accuracy of the semantic search engine, an evaluation of the system has been carried out using biomedical research articles. This evaluation has been conducted with the help of Álvaro García Barragán, computer scientist and researcher specialized in machine learning, and Andrea Álvarez Pérez, biotechnological engineer, researcher, and expert in drug repositioning. The results obtained in the evaluation guarantee the good performance and effectiveness of the system in answering scientific queries. Read More