Este Trabajo de Fin de Grado trata de explorar la desaparición que se produce de la información en internet. Tiene el objetivo de poder realizar un análisis de cómo va desapareciendo dicha información e intentar descubrir el por qué. Para ello, se utilizó una aplicación, desarrollada por ciclos. Dicha aplicación, se encarga de extraer de un fichero con terminación XML, de la biblioteca digital DBLP, los títulos de los artículos contenidos en él. Una vez extraídos se encarga de buscar, gracias a SerpApi de Google Scholar, dichos artículos en formato PDF para posteriormente descargarlos. Una vez descargados, se extráen los enlaces contenidos en el apartado de referencias de dichos PDFs y se verifica su existencia, guardando los datos obtenidos en una base de datos. Esto último, se realiza para poder llevar a cabo las estadísticas sobre cómo desaparece la información que se encuentra recogida en Internet. Los resultados de los análisis realizados mostraron que cuanto mayor es el tiempo de publicación del artículo, más propensa es la información a desaparecer. Además, hay relación entre los servicios online donde se almacena la información y su desaparición, como repositorios o servicios cloud que son personales. Estos resultados sugieren que se deben de tomar medidas para poder mantener la información disponible en la red, como almacenarla en sitios web oficiales. Además, todavía es necesario mejorar las técnicas de extracción y manipulación de las URLs para que el análisis pueda ser lo más verídico posible. En este documento se abordan el diseño de la aplicación, junto con sus ciclos de desarrollo, los antecedentes utilizados, los objetivos a cumplir, los resultados que se han obtenido de los análisis realizados y el trabajo futuro que se debe de realizar.
ABSTRACT
This document explores the phenomenon of information disappearance on the internet. Its objective is to conduct an analysis of how this information disappears and attempt to uncover the reasons behind it. To achieve this, an application was used, developed through iterative cycles. This application is responsible for extracting titles of articles from a file with XML extension, obtained from the digital library DBLP. Once they are extracted, it searches for these articles in PDF format using SerpApi from Google Scholar, and later it downloads them. After downloading, it extracts the links that are in the references section of these PDFs and verifies their existence, storing the obtained data in a database. This is done in order to conduct statistics on how the information collected from the internet disappears over time. The results of the conducted analyses showed that the longer the publication time of the article, the more likely the information is to disappear. Furthermore, there is a relationship between online services where information is stored and its disappearance, such as personal repositories or cloud services. These results suggest that measures should be taken to keep information available on the web, such as storing it on official websites. Additionally, there is still a need to improve techniques for extracting and manipulating URLs so that the analysis can be as accurate as possible. This document addresses the design of the application, along with its development cycles, the background used, the objectives to be achieved, the results obtained from the analyses performed, and the future work to be done.
Este Trabajo de Fin de Grado trata de explorar la desaparición que se produce de la información en internet. Tiene el objetivo de poder realizar un análisis de cómo va desapareciendo dicha información e intentar descubrir el por qué. Para ello, se utilizó una aplicación, desarrollada por ciclos. Dicha aplicación, se encarga de extraer de un fichero con terminación XML, de la biblioteca digital DBLP, los títulos de los artículos contenidos en él. Una vez extraídos se encarga de buscar, gracias a SerpApi de Google Scholar, dichos artículos en formato PDF para posteriormente descargarlos. Una vez descargados, se extráen los enlaces contenidos en el apartado de referencias de dichos PDFs y se verifica su existencia, guardando los datos obtenidos en una base de datos. Esto último, se realiza para poder llevar a cabo las estadísticas sobre cómo desaparece la información que se encuentra recogida en Internet. Los resultados de los análisis realizados mostraron que cuanto mayor es el tiempo de publicación del artículo, más propensa es la información a desaparecer. Además, hay relación entre los servicios online donde se almacena la información y su desaparición, como repositorios o servicios cloud que son personales. Estos resultados sugieren que se deben de tomar medidas para poder mantener la información disponible en la red, como almacenarla en sitios web oficiales. Además, todavía es necesario mejorar las técnicas de extracción y manipulación de las URLs para que el análisis pueda ser lo más verídico posible. En este documento se abordan el diseño de la aplicación, junto con sus ciclos de desarrollo, los antecedentes utilizados, los objetivos a cumplir, los resultados que se han obtenido de los análisis realizados y el trabajo futuro que se debe de realizar.
ABSTRACT
This document explores the phenomenon of information disappearance on the internet. Its objective is to conduct an analysis of how this information disappears and attempt to uncover the reasons behind it. To achieve this, an application was used, developed through iterative cycles. This application is responsible for extracting titles of articles from a file with XML extension, obtained from the digital library DBLP. Once they are extracted, it searches for these articles in PDF format using SerpApi from Google Scholar, and later it downloads them. After downloading, it extracts the links that are in the references section of these PDFs and verifies their existence, storing the obtained data in a database. This is done in order to conduct statistics on how the information collected from the internet disappears over time. The results of the conducted analyses showed that the longer the publication time of the article, the more likely the information is to disappear. Furthermore, there is a relationship between online services where information is stored and its disappearance, such as personal repositories or cloud services. These results suggest that measures should be taken to keep information available on the web, such as storing it on official websites. Additionally, there is still a need to improve techniques for extracting and manipulating URLs so that the analysis can be as accurate as possible. This document addresses the design of the application, along with its development cycles, the background used, the objectives to be achieved, the results obtained from the analyses performed, and the future work to be done. Read More