Effects of sliding window variation in the performance of acceleration-based human activity recognition using deep learning models

Los modelos de aprendizaje profundo (DL) son muy útiles para el reconocimiento de la actividad humana (HAR); estos métodos presentan una mejor precisión para HAR en comparación con los tradicionales, entre otras ventajas. DL aprende de los datos no etiquetados y extrae características de los datos sin procesar, como en el caso de la aceleración de series temporales. Las ventanas correderas son una técnica de extracción de características. Cuando se utiliza para el preprocesamiento de datos de series temporales, proporciona una mejora en la precisión, la latencia y el costo del procesamiento. El tiempo y el costo del preprocesamiento pueden ser beneficiosos, especialmente si el tamaño de la ventana es pequeño, pero ¿qué tan pequeña puede ser esta ventana para mantener una buena precisión? El objetivo de esta investigación fue analizar el rendimiento de cuatro modelos de DL: una red neuronal profunda simple (DNN); una red neuronal convolucional (CNN); una red de memoria a largo y corto plazo (LSTM); y un modelo híbrido (CNN-LSTM), al variar el tamaño de la ventana corredera utilizando ventanas superpuestas fijas para identificar un tamaño de ventana óptimo para HAR. Comparamos los efectos en dos fuentes de aceleración: sensores de unidad de medición inercial (IMU) portátiles y sistemas de subtítulos de movimiento (MOCAP). Además, se compararon las ventanas correderas cortas de los tamaños 5, 10, 15, 20 y 25 con las largas de los tamaños 50, 75, 100 y 200 marcos. Los modelos se alimentaron utilizando datos brutos de aceleración adquiridos en condiciones experimentales para tres actividades: caminar, sentarse para pararse y ponerse en cuclillas. Los resultados muestran que la ventana más óptima es de 20 a 25 fotogramas (0,20 a 0,25 s) para ambas fuentes, proporcionando una precisión del 99,07% y una puntuación F1 del 87,08% en el (CNN-LSTM) utilizando los datos de los sensores portátiles, y una precisión del 98,8% y una puntuación F1 del 82,80% utilizando datos MOCAP; se obtuvieron resultados precisos similares con el modelo LSTM. Casi no hay diferencia en la precisión en fotogramas más grandes (100, 200). Sin embargo, las ventanas más pequeñas presentan una disminución en la puntuación F1. Con respecto al tiempo de inferencia, los datos con una ventana deslizante de 20 fotogramas se pueden preprocesar alrededor de 4 veces (LSTM) y 2 veces (CNN-LSTM) más rápido que los datos que utilizan 100 fotogramas.

​Los modelos de aprendizaje profundo (DL) son muy útiles para el reconocimiento de la actividad humana (HAR); estos métodos presentan una mejor precisión para HAR en comparación con los tradicionales, entre otras ventajas. DL aprende de los datos no etiquetados y extrae características de los datos sin procesar, como en el caso de la aceleración de series temporales. Las ventanas correderas son una técnica de extracción de características. Cuando se utiliza para el preprocesamiento de datos de series temporales, proporciona una mejora en la precisión, la latencia y el costo del procesamiento. El tiempo y el costo del preprocesamiento pueden ser beneficiosos, especialmente si el tamaño de la ventana es pequeño, pero ¿qué tan pequeña puede ser esta ventana para mantener una buena precisión? El objetivo de esta investigación fue analizar el rendimiento de cuatro modelos de DL: una red neuronal profunda simple (DNN); una red neuronal convolucional (CNN); una red de memoria a largo y corto plazo (LSTM); y un modelo híbrido (CNN-LSTM), al variar el tamaño de la ventana corredera utilizando ventanas superpuestas fijas para identificar un tamaño de ventana óptimo para HAR. Comparamos los efectos en dos fuentes de aceleración: sensores de unidad de medición inercial (IMU) portátiles y sistemas de subtítulos de movimiento (MOCAP). Además, se compararon las ventanas correderas cortas de los tamaños 5, 10, 15, 20 y 25 con las largas de los tamaños 50, 75, 100 y 200 marcos. Los modelos se alimentaron utilizando datos brutos de aceleración adquiridos en condiciones experimentales para tres actividades: caminar, sentarse para pararse y ponerse en cuclillas. Los resultados muestran que la ventana más óptima es de 20 a 25 fotogramas (0,20 a 0,25 s) para ambas fuentes, proporcionando una precisión del 99,07% y una puntuación F1 del 87,08% en el (CNN-LSTM) utilizando los datos de los sensores portátiles, y una precisión del 98,8% y una puntuación F1 del 82,80% utilizando datos MOCAP; se obtuvieron resultados precisos similares con el modelo LSTM. Casi no hay diferencia en la precisión en fotogramas más grandes (100, 200). Sin embargo, las ventanas más pequeñas presentan una disminución en la puntuación F1. Con respecto al tiempo de inferencia, los datos con una ventana deslizante de 20 fotogramas se pueden preprocesar alrededor de 4 veces (LSTM) y 2 veces (CNN-LSTM) más rápido que los datos que utilizan 100 fotogramas. Read More