El objetivo de esta tesis es explorar la aplicación de modelos Transformer en el dominio del pronóstico de series temporales financieras, enfocándose específicamente en los mercados de criptomonedas. El trabajo evalúa la efectividad de los Transformers para capturar patrones complejos en datos financieros con el fin de predecir los precios de las criptomonedas, que son altamente volátiles y difíciles de predecir. La idea principal es la siguiente: se comparan y evalúan los modelos Transformer frente a modelos tradicionales de pronóstico de series temporales como las redes de Long Short-Term Memory (LSTM) y los híbridos LSTM-CNN para ver las capacidades de los modelos de última generación en el manejo de datos de criptomonedas.
Una característica clave de esta tesis es la combinación de valores de análisis de sentimiento en los modelos de pronóstico. La tesis investiga el potencial de las métricas de análisis de sentimiento (los “likes” de las redes sociales y el volumen de tweets) para mejorar la precisión de la predicción de precios de criptomonedas. Se hipotetiza que esta integración podría sacar a la luz relaciones que no son captadas por los indicadores financieros tradicionales.
El marco metodológico de esta investigación comienza con la recolección de datos, el preprocesamiento y los procesos de ingeniería de características o feature engineering. La estrategia de preprocesamiento aborda problemas comunes en los datos de series temporales financieras, como los valores faltantes y la estacionariedad. Para tratar los valores faltantes y las características desbalanceadas, se emplean técnicas como la imputación de la mediana, el ajuste estacional mediante indicadores alcistas o bajistas y técnicas de medias móviles para refinar el conjunto de datos antes de la fase de definición del modelo.
Para el desarrollo del modelo, se comparan varios modelos de pronóstico basados en la arquitectura de LSTM, híbridos LSTM-CNN y Transformers. Se realizan dos experimentos paralelos: en el primero, sólo se utilizan datos financieros (precios de apertura, cierre, máximos, mínimos y capitalización de mercado) como características. En el segundo experimento, en cambio, se incorporan también características de análisis de sentimiento. Este enfoque permite una comparación directa de cómo cada tipo de datos contribuye a la precisión del pronóstico. Los modelos se validan inicialmente con datos de Bitcoin (BTC) antes de aplicarse a otras criptomonedas como Aave (AAVE), Cardano (ADA), Dogecoin (DOGE), Ethereum (ETH), Monero (XMR) y Ripple (XRP) para explorar la variabilidad en el rendimiento a través de diferentes series temporales y condiciones del mercado con criptomonedas altamente volátiles. También se aborda la implementación de aprendizaje por transferencia en este dominio, entrenando modelos en una criptomoneda (BTC) y probándolos en otra (ETH), para evaluar la generalización de los modelos aprendidos en diferentes pero relacionados instrumentos financieros.
Finalmente, se resumen los hallazgos más importantes de este trabajo: los modelos Transformer incorporando el análisis de sentimiento tienden a superar a los modelos construidos únicamente con datos financieros, lo que significa que modelos de este tipo parecen ser capaces de captar patrones entre datos de diferente naturaleza. Por otro lado, aumentar el conjunto de datos para incluir características de sentimiento no ha resultado particularmente útil para mejorar la eficacia de los modelos LSTM o LSTM-CNN. Estos hallazgos son importantes para el conocimiento académico, pero tienen también una aplicación práctica directa para desarrollar herramientas de pronóstico más sofisticadas en mercados financieros donde la especulación es un factor impulsor, como en el caso de las criptomonedas.
ABSTRACT
The goal of this thesis is to explore the application of Transformer models in the domain of financial time series forecasting, specifically focusing on cryptocurrency markets. The work assesses the effectiveness of Transformers in capturing complex patterns in financial data in order to predict the highly volatile and unpredictable cryptocurrency prices. The main idea is the following: Transformer models are compared and evaluated against traditional time series forecasting models like Long ShortTerm Memory (LSTM) networks and LSTM-Convolutional Neural Network (CNN) hybrids to see the capabilities of current state-of-the-art models in handling cryptocurrency data.
A key feature of this thesis is the combination of sentiment analysis values into the forecasting models. The thesis investigates the potential of sentiment analysis metrics—the likes of social media contributions and tweet volumes—to enhance the predictive accuracy of cryptocurrency price predictions. This integration is hypothesized to potentially uncover latent signals that are not captured by traditional financial indicators alone.
The methodological framework of this research starts with the data collection, pre-processing, and feature engineering processes. The pre-processing strategy addresses common issues in financial time series data, such as missing values and non-stationarity. To account for missing values and unbalanced features, median imputation, seasonal adjustment via bullish/bearish indicators, and moving averages techniques are employed to refine the dataset prior to the model definition phase.
For model development, several forecasting models based on the architecture of LSTMs, LSTMCNN hybrids and Transformers are compared. Two parallel experiments are conducted: in the first, only financial data (including features like open, close, high, low prices, and market capitalization) is used as features. In the second experiment, instead, sentiment analysis features are used. This approach allows for a direct comparison of how each type of data contributes to forecasting accuracy. The models are initially validated on Bitcoin (BTC) data before being applied to other cryptocurrencies such as Aave (AAVE), Cardano (ADA), Dogecoin (DOGE), Ethereum (ETH), Monero (XMR), and Ripple (XRP) to explore variability in performance across different time series data and market conditions with highly volatile cryptocurrencies. The implementation of transfer learning within this domain is also addressed by raining models on one cryptocurrency (BTC) and testing them on another (ETH), to evaluate the generalizability of the learned models across different but related financial instruments.
The evaluation of model performance is discussed in the results section in detail, comparing the performance of the Transformers both with and without sentiment data against the baseline models established by the LSTM and LSTM-CNN configurations plus a simple model predicting for tomorrow the value of today.
Finally, the most important findings from this work are summarized: Transformer models with sentiment analysis tend to outperform the models constructed solely based on the financial data features, which means that models of this type seem to be capable of grasping patterns between data of a different nature. On the other hand, augmentation with sentiment data is not particularly helpful in enlarging the originative efficacy for LSTM or LSTM-CNN models. These insights are of importance to academic knowledge but have a direct practical implementation to further develop more sophisticated forecasting tools in financial markets where speculation is a driving factor, as in the case of cryptocurrencies.
El objetivo de esta tesis es explorar la aplicación de modelos Transformer en el dominio del pronóstico de series temporales financieras, enfocándose específicamente en los mercados de criptomonedas. El trabajo evalúa la efectividad de los Transformers para capturar patrones complejos en datos financieros con el fin de predecir los precios de las criptomonedas, que son altamente volátiles y difíciles de predecir. La idea principal es la siguiente: se comparan y evalúan los modelos Transformer frente a modelos tradicionales de pronóstico de series temporales como las redes de Long Short-Term Memory (LSTM) y los híbridos LSTM-CNN para ver las capacidades de los modelos de última generación en el manejo de datos de criptomonedas.
Una característica clave de esta tesis es la combinación de valores de análisis de sentimiento en los modelos de pronóstico. La tesis investiga el potencial de las métricas de análisis de sentimiento (los “likes” de las redes sociales y el volumen de tweets) para mejorar la precisión de la predicción de precios de criptomonedas. Se hipotetiza que esta integración podría sacar a la luz relaciones que no son captadas por los indicadores financieros tradicionales.
El marco metodológico de esta investigación comienza con la recolección de datos, el preprocesamiento y los procesos de ingeniería de características o feature engineering. La estrategia de preprocesamiento aborda problemas comunes en los datos de series temporales financieras, como los valores faltantes y la estacionariedad. Para tratar los valores faltantes y las características desbalanceadas, se emplean técnicas como la imputación de la mediana, el ajuste estacional mediante indicadores alcistas o bajistas y técnicas de medias móviles para refinar el conjunto de datos antes de la fase de definición del modelo.
Para el desarrollo del modelo, se comparan varios modelos de pronóstico basados en la arquitectura de LSTM, híbridos LSTM-CNN y Transformers. Se realizan dos experimentos paralelos: en el primero, sólo se utilizan datos financieros (precios de apertura, cierre, máximos, mínimos y capitalización de mercado) como características. En el segundo experimento, en cambio, se incorporan también características de análisis de sentimiento. Este enfoque permite una comparación directa de cómo cada tipo de datos contribuye a la precisión del pronóstico. Los modelos se validan inicialmente con datos de Bitcoin (BTC) antes de aplicarse a otras criptomonedas como Aave (AAVE), Cardano (ADA), Dogecoin (DOGE), Ethereum (ETH), Monero (XMR) y Ripple (XRP) para explorar la variabilidad en el rendimiento a través de diferentes series temporales y condiciones del mercado con criptomonedas altamente volátiles. También se aborda la implementación de aprendizaje por transferencia en este dominio, entrenando modelos en una criptomoneda (BTC) y probándolos en otra (ETH), para evaluar la generalización de los modelos aprendidos en diferentes pero relacionados instrumentos financieros.
Finalmente, se resumen los hallazgos más importantes de este trabajo: los modelos Transformer incorporando el análisis de sentimiento tienden a superar a los modelos construidos únicamente con datos financieros, lo que significa que modelos de este tipo parecen ser capaces de captar patrones entre datos de diferente naturaleza. Por otro lado, aumentar el conjunto de datos para incluir características de sentimiento no ha resultado particularmente útil para mejorar la eficacia de los modelos LSTM o LSTM-CNN. Estos hallazgos son importantes para el conocimiento académico, pero tienen también una aplicación práctica directa para desarrollar herramientas de pronóstico más sofisticadas en mercados financieros donde la especulación es un factor impulsor, como en el caso de las criptomonedas.
ABSTRACT
The goal of this thesis is to explore the application of Transformer models in the domain of financial time series forecasting, specifically focusing on cryptocurrency markets. The work assesses the effectiveness of Transformers in capturing complex patterns in financial data in order to predict the highly volatile and unpredictable cryptocurrency prices. The main idea is the following: Transformer models are compared and evaluated against traditional time series forecasting models like Long ShortTerm Memory (LSTM) networks and LSTM-Convolutional Neural Network (CNN) hybrids to see the capabilities of current state-of-the-art models in handling cryptocurrency data.
A key feature of this thesis is the combination of sentiment analysis values into the forecasting models. The thesis investigates the potential of sentiment analysis metrics—the likes of social media contributions and tweet volumes—to enhance the predictive accuracy of cryptocurrency price predictions. This integration is hypothesized to potentially uncover latent signals that are not captured by traditional financial indicators alone.
The methodological framework of this research starts with the data collection, pre-processing, and feature engineering processes. The pre-processing strategy addresses common issues in financial time series data, such as missing values and non-stationarity. To account for missing values and unbalanced features, median imputation, seasonal adjustment via bullish/bearish indicators, and moving averages techniques are employed to refine the dataset prior to the model definition phase.
For model development, several forecasting models based on the architecture of LSTMs, LSTMCNN hybrids and Transformers are compared. Two parallel experiments are conducted: in the first, only financial data (including features like open, close, high, low prices, and market capitalization) is used as features. In the second experiment, instead, sentiment analysis features are used. This approach allows for a direct comparison of how each type of data contributes to forecasting accuracy. The models are initially validated on Bitcoin (BTC) data before being applied to other cryptocurrencies such as Aave (AAVE), Cardano (ADA), Dogecoin (DOGE), Ethereum (ETH), Monero (XMR), and Ripple (XRP) to explore variability in performance across different time series data and market conditions with highly volatile cryptocurrencies. The implementation of transfer learning within this domain is also addressed by raining models on one cryptocurrency (BTC) and testing them on another (ETH), to evaluate the generalizability of the learned models across different but related financial instruments.
The evaluation of model performance is discussed in the results section in detail, comparing the performance of the Transformers both with and without sentiment data against the baseline models established by the LSTM and LSTM-CNN configurations plus a simple model predicting for tomorrow the value of today.
Finally, the most important findings from this work are summarized: Transformer models with sentiment analysis tend to outperform the models constructed solely based on the financial data features, which means that models of this type seem to be capable of grasping patterns between data of a different nature. On the other hand, augmentation with sentiment data is not particularly helpful in enlarging the originative efficacy for LSTM or LSTM-CNN models. These insights are of importance to academic knowledge but have a direct practical implementation to further develop more sophisticated forecasting tools in financial markets where speculation is a driving factor, as in the case of cryptocurrencies. Read More