Validación de explicabilidad post-hoc de modelos de tipo caja-negra usando grandes modelos de lenguaje

Este trabajo de fin de máster, titulado “Validación de explicabilidad post-hoc de modelos de tipo caja-negra usando grandes modelos de lenguaje”, aborda los desafíos que presenta la naturaleza opaca de los modelos de inteligencia artificial (IA) de tipo caja negra. Estos modelos, a pesar de su alta precisión, carecen de transparencia e interpretabilidad, lo cual es un problema significativo en aplicaciones donde los procesos de toma de decisiones necesitan ser comprensibles y justificables.
El documento comienza exponiendo el problema de los modelos de caja negra en la IA, particularmente la dificultad de interpretar cómo modelos como las redes neuronales profundas y los transformers llegan a sus predicciones. Se introduce el concepto de Inteligencia Artificial Explicable (IAX) y la necesidad de técnicas de explicabilidad post-hoc para hacer estos modelos más transparentes.
La sección del estado del arte profundiza en las técnicas existentes de explicabilidad post-hoc como LIME, SHAP y Grad-CAM, que buscan proporcionar explicaciones locales y globales de las predicciones de los modelos. También se presenta la evolución de los grandes modelos de lenguaje (LLMs) como GPT-3 y GPT-4, que han demostrado capacidades notables en la comprensión y generación de texto similar al humano.
La metodología describe la integración de técnicas de explicabilidad con grandes modelos de lenguaje para mejorar la interpretabilidad de los modelos de caja negra. Se desarrollan métricas para medir la consistencia y la veracidad de las explicaciones generadas. El desarrollo experimental incluye el uso de varios conjuntos de datos y LLMs para validar explicaciones.
Los resultados presentan los hallazgos de los experimentos, destacando la efectividad de los LLMs en proporcionar explicaciones coherentes y contextualmente relevantes para las predicciones de los modelos. También se analiza la robustez y fiabilidad de estas explicaciones en diferentes contextos.
Finalmente, el documento concluye resumiendo las contribuciones de la integración técnicas de explicabilidad con LLMs para mejorar la transparencia de los modelos de IA, al validar las explicaciones obtenidas. Se sugiere una futura línea de investigación, que incluye la expansión de la aplicación de estas técnicas en un contexto diferente para evaluar cómo pueden cambiar las respuestas generadas de los modelos de lenguaje.
ABSTRACT
This master’s thesis, titled “Validación de explicabilidad post-hoc de modelos de tipo caja-negra usando grandes modelos de lenguaje” (“Validation of post-hoc explainability for black-box models using large language models”), addresses the challenges posed by the opaque nature of black-box artificial intelligence (AI) models. Despite their high accuracy, these models lack transparency and interpretability, which is a significant issue in applications where decision-making processes need to be understandable and justifiable.
The document begins by outlining the problem of black-box models in AI, particularly the difficulty in interpreting how models such as deep neural networks and transformers arrive at their predictions. The concept of Explainable Artificial Intelligence (XAI) is introduced, along with the need for post-hoc explainability techniques to make these models more transparent.
The state-of-the-art section delves into existing post-hoc explainability techniques like LIME, SHAP, and Grad-CAM, which aim to provide local and global explanations for model predictions. It also presents the evolution of large language models (LLMs) like GPT-3 and GPT-4, which have demonstrated remarkable capabilities in understanding and generating human-like text.
The methodology describes the integration of explainability techniques with large language models to improve the interpretability of black-box models. Metrics are developed to measure the consistency and truthfulness of the generated explanations. The experimental development includes using various datasets and LLMs to validate the explanations.
The results present the findings of the experiments, highlighting the effectiveness of LLMs in providing coherent and contextually relevant explanations for model predictions. The robustness and reliability of these explanations in different contexts are also analyzed.
Finally, the document concludes by summarizing the contributions of integrating explainability techniques with LLMs to enhance the transparency of AI models by validating the obtained explanations. A future line of research is suggested, which includes expanding the application of these techniques in different contexts to evaluate how the responses generated by language models might change.

​Este trabajo de fin de máster, titulado “Validación de explicabilidad post-hoc de modelos de tipo caja-negra usando grandes modelos de lenguaje”, aborda los desafíos que presenta la naturaleza opaca de los modelos de inteligencia artificial (IA) de tipo caja negra. Estos modelos, a pesar de su alta precisión, carecen de transparencia e interpretabilidad, lo cual es un problema significativo en aplicaciones donde los procesos de toma de decisiones necesitan ser comprensibles y justificables.
El documento comienza exponiendo el problema de los modelos de caja negra en la IA, particularmente la dificultad de interpretar cómo modelos como las redes neuronales profundas y los transformers llegan a sus predicciones. Se introduce el concepto de Inteligencia Artificial Explicable (IAX) y la necesidad de técnicas de explicabilidad post-hoc para hacer estos modelos más transparentes.
La sección del estado del arte profundiza en las técnicas existentes de explicabilidad post-hoc como LIME, SHAP y Grad-CAM, que buscan proporcionar explicaciones locales y globales de las predicciones de los modelos. También se presenta la evolución de los grandes modelos de lenguaje (LLMs) como GPT-3 y GPT-4, que han demostrado capacidades notables en la comprensión y generación de texto similar al humano.
La metodología describe la integración de técnicas de explicabilidad con grandes modelos de lenguaje para mejorar la interpretabilidad de los modelos de caja negra. Se desarrollan métricas para medir la consistencia y la veracidad de las explicaciones generadas. El desarrollo experimental incluye el uso de varios conjuntos de datos y LLMs para validar explicaciones.
Los resultados presentan los hallazgos de los experimentos, destacando la efectividad de los LLMs en proporcionar explicaciones coherentes y contextualmente relevantes para las predicciones de los modelos. También se analiza la robustez y fiabilidad de estas explicaciones en diferentes contextos.
Finalmente, el documento concluye resumiendo las contribuciones de la integración técnicas de explicabilidad con LLMs para mejorar la transparencia de los modelos de IA, al validar las explicaciones obtenidas. Se sugiere una futura línea de investigación, que incluye la expansión de la aplicación de estas técnicas en un contexto diferente para evaluar cómo pueden cambiar las respuestas generadas de los modelos de lenguaje.
ABSTRACT
This master’s thesis, titled “Validación de explicabilidad post-hoc de modelos de tipo caja-negra usando grandes modelos de lenguaje” (“Validation of post-hoc explainability for black-box models using large language models”), addresses the challenges posed by the opaque nature of black-box artificial intelligence (AI) models. Despite their high accuracy, these models lack transparency and interpretability, which is a significant issue in applications where decision-making processes need to be understandable and justifiable.
The document begins by outlining the problem of black-box models in AI, particularly the difficulty in interpreting how models such as deep neural networks and transformers arrive at their predictions. The concept of Explainable Artificial Intelligence (XAI) is introduced, along with the need for post-hoc explainability techniques to make these models more transparent.
The state-of-the-art section delves into existing post-hoc explainability techniques like LIME, SHAP, and Grad-CAM, which aim to provide local and global explanations for model predictions. It also presents the evolution of large language models (LLMs) like GPT-3 and GPT-4, which have demonstrated remarkable capabilities in understanding and generating human-like text.
The methodology describes the integration of explainability techniques with large language models to improve the interpretability of black-box models. Metrics are developed to measure the consistency and truthfulness of the generated explanations. The experimental development includes using various datasets and LLMs to validate the explanations.
The results present the findings of the experiments, highlighting the effectiveness of LLMs in providing coherent and contextually relevant explanations for model predictions. The robustness and reliability of these explanations in different contexts are also analyzed.
Finally, the document concludes by summarizing the contributions of integrating explainability techniques with LLMs to enhance the transparency of AI models by validating the obtained explanations. A future line of research is suggested, which includes expanding the application of these techniques in different contexts to evaluate how the responses generated by language models might change. Read More