Optimización de Vision Transformer

Durante este trabajo fin de grado se va a realizar un análisis de cómo se pueden optimizar los transformers de visión (ViT) tanto en entrenamiento como en inferencia. Se comienza explicando la necesidad de aliviar los costos computacionales en los que se incurre al entrenar redes neuronales profundas, especialmente en el contexto del crecimiento exponencial de la demanda de recursos computacionales y los potenciales beneficios que se pueden obtener al aplicar las técnicas de optimización para fomentar el Green Deep-Learning.
A continuación, se analizan las arquitecturas más importantes del momento, prestando especial atención al potencial de Vision Transformers (ViT). Se estudia cómo estas arquitecturas afectan la eficiencia energética y las emisiones de gases de efecto invernadero.
Se estudian las técnicas de optimización más prevalentes que se utilizan en la actualidad para reducir la eficiencia computacional y energética de los modelos ViT y se exponen las herramientas y experimentos realizados a lo largo de este trabajo.
Finalmente se presentan los resultados de aplicar los métodos de mejora aplicados durante el experimento, para obtener modelos que, siendo menos intensivos en el uso de recursos computacionales, den resultados equiparables a los de sus contrapartes más costosas.
Abstract:
This Bachelor´s thesis delves into how Vision Transformers (ViT) could be optimized during both stages of training and inference. It begins with an explanation as of why there is a need to reduce the computational costs in which neural networks incur during training and inference, specifically in the context of the exponential growth in the requirement of computational resources and the potential benefits that can be achieved through the use of optimization techniques to promote Green Deep Leaning.
Following that, the most prevalent model architectures will be presented, paying special attention to the potential of the Vision Transformers (ViT). The impact of these architectural designs on energy efficiency and greenhouse gas emissions will be investigated and presented.
The most prevalent SOTA optimization techniques currently employed to reduce the computational and energy efficiency of ViT models are examined, along with the tools and experiments conducted throughout this work.
Finally, the results of applying the optimization methods during the experiments are presented, with the aim of obtaining models that, while being less computationally intensive, yield results comparable to those of their more expensive counterparts.

​Durante este trabajo fin de grado se va a realizar un análisis de cómo se pueden optimizar los transformers de visión (ViT) tanto en entrenamiento como en inferencia. Se comienza explicando la necesidad de aliviar los costos computacionales en los que se incurre al entrenar redes neuronales profundas, especialmente en el contexto del crecimiento exponencial de la demanda de recursos computacionales y los potenciales beneficios que se pueden obtener al aplicar las técnicas de optimización para fomentar el Green Deep-Learning.
A continuación, se analizan las arquitecturas más importantes del momento, prestando especial atención al potencial de Vision Transformers (ViT). Se estudia cómo estas arquitecturas afectan la eficiencia energética y las emisiones de gases de efecto invernadero.
Se estudian las técnicas de optimización más prevalentes que se utilizan en la actualidad para reducir la eficiencia computacional y energética de los modelos ViT y se exponen las herramientas y experimentos realizados a lo largo de este trabajo.
Finalmente se presentan los resultados de aplicar los métodos de mejora aplicados durante el experimento, para obtener modelos que, siendo menos intensivos en el uso de recursos computacionales, den resultados equiparables a los de sus contrapartes más costosas.
Abstract:
This Bachelor´s thesis delves into how Vision Transformers (ViT) could be optimized during both stages of training and inference. It begins with an explanation as of why there is a need to reduce the computational costs in which neural networks incur during training and inference, specifically in the context of the exponential growth in the requirement of computational resources and the potential benefits that can be achieved through the use of optimization techniques to promote Green Deep Leaning.
Following that, the most prevalent model architectures will be presented, paying special attention to the potential of the Vision Transformers (ViT). The impact of these architectural designs on energy efficiency and greenhouse gas emissions will be investigated and presented.
The most prevalent SOTA optimization techniques currently employed to reduce the computational and energy efficiency of ViT models are examined, along with the tools and experiments conducted throughout this work.
Finally, the results of applying the optimization methods during the experiments are presented, with the aim of obtaining models that, while being less computationally intensive, yield results comparable to those of their more expensive counterparts. Read More