Integración neuro-simbólica en la generación de moléculas: evaluación de grandes modelos de lenguaje restringidos por gramáticas para la generación de SMILES

Este trabajo investiga la aplicación de Grandes Modelos de Lenguaje (LLMs, por sus siglas en inglés) a la generación de moléculas, con un enfoque específico en los métodos de generación restringida por gramáticas. Nuestro trabajo se sitúa dentro del contexto más amplio de la IA neuro-simbólica, que busca integrar las capacidades de aprendizaje de las redes neuronales con el poder de razonamiento de los sistemas simbólicos. Exploramos cómo las gramáticas formales, que representan conocimientos químicos estructurados, pueden combinarse con los modelos de lenguaje para mejorar la generación de moléculas válidas y novedosas.
Nuestro estudio evalúa múltiples arquitecturas de LLM, incluyendo Mistral (7B y 7B-Instruct), Mixtral (8x7B-Instruct) y Nach0, a través de diversas estrategias de “prompting” (zero-shot, one-shot y few-shot) y diversos conjuntos de datos moleculares (Moses, GuacaMol, ZINC y GDB13). Representamos las moléculas utilizando la notación SMILES (Simplified Molecular-Input Line-Entry System) e implementamos un marco de evaluación personalizado que evalúa las moléculas generadas en función de la validez sintáctica, la validez semántica, la unicidad, la novedad y la viabilidad de las moléculas para sintetizarse como fármacos.
El núcleo de nuestra investigación compara la generación de LLMs sin restricciones con un enfoque restringido por gramática que utiliza una gramática libre de contexto en la Forma de Backus-Naur (BNF) para imponer las reglas de sintaxis de SMILES. Este método restringido por gramática, implementado utilizando la biblioteca transformers-CFG, representa un intento de incorporar conocimientos simbólicos en el proceso de generación neuronal, encarnando los principios clave de la IA neuro-simbólica.
Sorprendentemente, nuestros resultados indican que los modelos sin restricciones, particularmente en configuraciones “zero-shot”, superan a los enfoques restringidos por gramática en la mayoría de las métricas. El modelo Mixtral exhibe una validez semántica superior, mientras que la solicitud few-shot mejora tanto la validez semántica como la novedad. Notablemente, el enfoque “zero-shot” inesperadamente produce el mejor rendimiento general, planteando dudas sobre el conocimiento químico latente codificado en los LLMs preentrenados.
Los desafíos encontrados con el enfoque restringido por gramáticas parecen derivarse de problemas específicos de la implementación empleada más que de fallos fundamentales en la metodología o teoría. Observamos que los modelos restringidos a menudo generaban cadenas SMILES incompletas, lo que sugiere dificultades para alcanzar estados terminales dentro de la gramática. Esto resalta la complejidad de integrar restricciones simbólicas con la generación neuronal y subraya la necesidad ide criterios de detención e implementaciones de gramática más sofisticados.
A pesar de estos desafíos, argumentamos que este enfoque neuro-simbólico para la generación de moléculas sigue siendo prometedor. Nuestros hallazgos abren numerosas direcciones para futuras investigaciones, incluyendo implementaciones de gramáticas refinadas, enfoques de extracción de gramáticas y la implementación de mejores métodos de restricción. También identificamos la necesidad de una investigación más profunda sobre la naturaleza de la información específica de dominio codificada en los LLMs preentrenados y cómo esto puede afectar a dichos modelos en las etapas de evaluación.
Esta investigación contribuye al creciente cuerpo de trabajo sobre la generación de moléculas impulsada por IA, la decodificación restringida de LLMs y proporciona conocimientos sobre el potencial y las limitaciones actuales de los enfoques neurosimbólicos en este dominio, así como la evaluación de las capacidades de los LLM en escenarios específicos del dominio.
ABSTRACT
This thesis investigates the application of Large Language Models (LLMs) to molecule generation, with a specific focus on grammar-constrained generation methods. Our work is situated within the broader context of neuro-symbolic AI, which aims to integrate the learning capabilities of neural networks with the reasoning power of symbolic systems. We explore how formal grammars, representing structured chemical knowledge, can be combined with state-of-the-art LLMs to enhance the generation of valid and novel molecules.
Our study evaluates multiple LLM architectures, including Mistral (7B and 7B-Instruct), Mixtral (8x7B-Instruct), and Nach0, across various prompting strategies (zero-shot, one-shot, and few-shot) and diverse molecular datasets (Moses, GuacaMol, ZINC, and GDB13). Were present molecules using the SMILES (Simplified Molecular-Input LineEntry System) notation and implement a custom evaluation framework that assesses generated molecules based on syntactic validity, semantic validity, uniqueness, novelty, and drug-likeness. The core of our research compares unconstrained LLM generation against a grammar-constrained approach utilizing a context-free grammar in Backus-Naur Form (BNF)to enforce SMILES syntax rules. This grammar-constrained method, implemented using the transformers-CFG library, represents an attempt to incorporate symbolic knowledge into the neural generation process, embodying key principles of neuro-symbolic AI.
Surprisingly, our results indicate that unconstrained models, particularly in zero-shot settings, outperform grammar-constrained approaches across most metrics. The Mixtral model exhibits superior semantic validity, while few-shot prompting enhances both semantic validity and novelty. Notably, zero-shot prompting unexpectedly yields the highest overall performance, raising intriguing questions about the latent chemical knowledge encoded in pre-trained LLMs.
The challenges encountered with the grammar-constrained approach appear to stem from specific implementation issues rather than fundamental flaws in the methodology. We observed that constrained models often generated incomplete SMILES strings, suggesting difficulties in reaching terminal states within the grammar. This highlights the complexity of integrating symbolic constraints with neural generation and underscores the need for more sophisticated stopping criteria and grammar implementations.
Despite these challenges, we argue that the neuro-symbolic approach to molecule generation remains promising. Our findings open up numerous directions for future research, including refined grammar implementations, grammar extracting approaches, and the implementation of better constrining methods. We also identify the need for further investigation into the nature of domain specific information encoded in pre-trained LLMs and how this can affect such models in evaluation stages.
This research contributes to the growing body of work on AI-driven molecule generation, constrained LLM decoding and provides insights into the potential and current limitations of neuro-symbolic approaches in this domain ass well as the evaluation of LLM’s capabilities in domain specific scenarios.

​Este trabajo investiga la aplicación de Grandes Modelos de Lenguaje (LLMs, por sus siglas en inglés) a la generación de moléculas, con un enfoque específico en los métodos de generación restringida por gramáticas. Nuestro trabajo se sitúa dentro del contexto más amplio de la IA neuro-simbólica, que busca integrar las capacidades de aprendizaje de las redes neuronales con el poder de razonamiento de los sistemas simbólicos. Exploramos cómo las gramáticas formales, que representan conocimientos químicos estructurados, pueden combinarse con los modelos de lenguaje para mejorar la generación de moléculas válidas y novedosas.
Nuestro estudio evalúa múltiples arquitecturas de LLM, incluyendo Mistral (7B y 7B-Instruct), Mixtral (8x7B-Instruct) y Nach0, a través de diversas estrategias de “prompting” (zero-shot, one-shot y few-shot) y diversos conjuntos de datos moleculares (Moses, GuacaMol, ZINC y GDB13). Representamos las moléculas utilizando la notación SMILES (Simplified Molecular-Input Line-Entry System) e implementamos un marco de evaluación personalizado que evalúa las moléculas generadas en función de la validez sintáctica, la validez semántica, la unicidad, la novedad y la viabilidad de las moléculas para sintetizarse como fármacos.
El núcleo de nuestra investigación compara la generación de LLMs sin restricciones con un enfoque restringido por gramática que utiliza una gramática libre de contexto en la Forma de Backus-Naur (BNF) para imponer las reglas de sintaxis de SMILES. Este método restringido por gramática, implementado utilizando la biblioteca transformers-CFG, representa un intento de incorporar conocimientos simbólicos en el proceso de generación neuronal, encarnando los principios clave de la IA neuro-simbólica.
Sorprendentemente, nuestros resultados indican que los modelos sin restricciones, particularmente en configuraciones “zero-shot”, superan a los enfoques restringidos por gramática en la mayoría de las métricas. El modelo Mixtral exhibe una validez semántica superior, mientras que la solicitud few-shot mejora tanto la validez semántica como la novedad. Notablemente, el enfoque “zero-shot” inesperadamente produce el mejor rendimiento general, planteando dudas sobre el conocimiento químico latente codificado en los LLMs preentrenados.
Los desafíos encontrados con el enfoque restringido por gramáticas parecen derivarse de problemas específicos de la implementación empleada más que de fallos fundamentales en la metodología o teoría. Observamos que los modelos restringidos a menudo generaban cadenas SMILES incompletas, lo que sugiere dificultades para alcanzar estados terminales dentro de la gramática. Esto resalta la complejidad de integrar restricciones simbólicas con la generación neuronal y subraya la necesidad ide criterios de detención e implementaciones de gramática más sofisticados.
A pesar de estos desafíos, argumentamos que este enfoque neuro-simbólico para la generación de moléculas sigue siendo prometedor. Nuestros hallazgos abren numerosas direcciones para futuras investigaciones, incluyendo implementaciones de gramáticas refinadas, enfoques de extracción de gramáticas y la implementación de mejores métodos de restricción. También identificamos la necesidad de una investigación más profunda sobre la naturaleza de la información específica de dominio codificada en los LLMs preentrenados y cómo esto puede afectar a dichos modelos en las etapas de evaluación.
Esta investigación contribuye al creciente cuerpo de trabajo sobre la generación de moléculas impulsada por IA, la decodificación restringida de LLMs y proporciona conocimientos sobre el potencial y las limitaciones actuales de los enfoques neurosimbólicos en este dominio, así como la evaluación de las capacidades de los LLM en escenarios específicos del dominio.
ABSTRACT
This thesis investigates the application of Large Language Models (LLMs) to molecule generation, with a specific focus on grammar-constrained generation methods. Our work is situated within the broader context of neuro-symbolic AI, which aims to integrate the learning capabilities of neural networks with the reasoning power of symbolic systems. We explore how formal grammars, representing structured chemical knowledge, can be combined with state-of-the-art LLMs to enhance the generation of valid and novel molecules.
Our study evaluates multiple LLM architectures, including Mistral (7B and 7B-Instruct), Mixtral (8x7B-Instruct), and Nach0, across various prompting strategies (zero-shot, one-shot, and few-shot) and diverse molecular datasets (Moses, GuacaMol, ZINC, and GDB13). Were present molecules using the SMILES (Simplified Molecular-Input LineEntry System) notation and implement a custom evaluation framework that assesses generated molecules based on syntactic validity, semantic validity, uniqueness, novelty, and drug-likeness. The core of our research compares unconstrained LLM generation against a grammar-constrained approach utilizing a context-free grammar in Backus-Naur Form (BNF)to enforce SMILES syntax rules. This grammar-constrained method, implemented using the transformers-CFG library, represents an attempt to incorporate symbolic knowledge into the neural generation process, embodying key principles of neuro-symbolic AI.
Surprisingly, our results indicate that unconstrained models, particularly in zero-shot settings, outperform grammar-constrained approaches across most metrics. The Mixtral model exhibits superior semantic validity, while few-shot prompting enhances both semantic validity and novelty. Notably, zero-shot prompting unexpectedly yields the highest overall performance, raising intriguing questions about the latent chemical knowledge encoded in pre-trained LLMs.
The challenges encountered with the grammar-constrained approach appear to stem from specific implementation issues rather than fundamental flaws in the methodology. We observed that constrained models often generated incomplete SMILES strings, suggesting difficulties in reaching terminal states within the grammar. This highlights the complexity of integrating symbolic constraints with neural generation and underscores the need for more sophisticated stopping criteria and grammar implementations.
Despite these challenges, we argue that the neuro-symbolic approach to molecule generation remains promising. Our findings open up numerous directions for future research, including refined grammar implementations, grammar extracting approaches, and the implementation of better constrining methods. We also identify the need for further investigation into the nature of domain specific information encoded in pre-trained LLMs and how this can affect such models in evaluation stages.
This research contributes to the growing body of work on AI-driven molecule generation, constrained LLM decoding and provides insights into the potential and current limitations of neuro-symbolic approaches in this domain ass well as the evaluation of LLM’s capabilities in domain specific scenarios. Read More