Resumen
La predicción de los estudiantes en riesgo de fracaso académico es valiosa para que las instituciones de educación superior mejoren el rendimiento de los estudiantes. Durante la pandemia, con la transición a la educación a distancia obligatoria en la educación superior, se ha vuelto aún más importante identificar a estos estudiantes y realizar intervenciones educativas para evitar dejarlos atrás. Este objetivo se puede lograr mediante nuevas técnicas de minería de datos y métodos de aprendizaje automático. Este estudio tomó en cuenta las características de actividad sincrónica y asincrónica de los estudiantes para identificar a los estudiantes en riesgo de fracaso académico durante la pandemia. Además, este estudio propone un modelo de conjunto óptimo que predice a los estudiantes en riesgo utilizando una combinación de algoritmos de aprendizaje automático relevantes. Se predijeron las actuaciones de más de dos mil estudiantes universitarios con un modelo de conjunto en términos de género, grado, número de notas de lectura descargadas y materiales del curso, tiempo total dedicado a las sesiones en línea, número de asistencias y puntuación de la prueba. Las actividades de aprendizaje asincrónicas se encontraron más determinantes que las sincrónicas. El modelo de conjunto propuesto hizo una buena predicción con una especificidad del 90,34%. Por lo tanto, se sugiere a los profesionales que supervisen y organicen las actividades de formación en consecuencia.
Introducción
Después de que la Organización Mundial de la Salud declarara el coronavirus COVID-19 como una pandemia mundial el 11 de marzo de 2020 (OMS, 2020), los gobiernos tuvieron que tomar decisiones estratégicas para hacer frente al virus. Casi todos los campos de la vida se vieron afectados por estas decisiones. Las instituciones educativas se cerraron temporalmente en muchos países. Según datos de la Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura del 2 de abril de 2020 (UNESCO, 2020), aproximadamente 1500 millones de estudiantes (alrededor del 85 % a nivel mundial) en 172 países se vieron afectados por el cierre de las escuelas. En Turquía, con decisiones tomadas por el Consejo de Educación Superior (2020), la educación a distancia obligatoria (CDE) comenzó en las universidades el 13 de marzo de 2020. Esta decisión sigue vigente en el primer semestre de 2021.
Para las instituciones de educación superior, predecir los estudiantes en riesgo durante la pandemia se vuelve más importante ya que los estudiantes pueden sentirse aislados durante la CDE. Para reducir este riesgo, es importante dar a los estudiantes retroalimentación alentadora y de apoyo a tiempo. Los estudiantes en riesgo deben anticiparse primero durante CDE. Durante más de diez años, los investigadores están tratando de desarrollar una solución mediante técnicas de minería de datos (DM) y aprendizaje automático (ML) que puedan analizar y predecir el rendimiento de los estudiantes y su causa principal (Injadat et al., 2020; Romero y Ventura, 2013). Hasta donde sabemos, no existe ningún estudio que prediga a los estudiantes en riesgo de fracaso académico durante la pandemia.
Para mejorar el desempeño de los estudiantes y la eficiencia y eficacia de la educación superior, la predicción de los estudiantes en riesgo de fracaso académico también es esencial para las intervenciones educativas oportunas (Adejo & Connolly, 2017; Helal et al., 2018). Los estudios para predecir el desempeño de los estudiantes han cobrado un impulso significativo en la última década (Abu Saa et al., 2019). Estas predicciones se centran principalmente en modelos de clasificación y regresión. La clasificación (aprobado/reprobado) es más popular que la predicción de la nota o puntuación final (Khan & Ghosh, 2021; Peña Ayala, 2014). Diferentes algoritmos de clasificación han arrojado resultados notables en varios temas, es decir, bosque aleatorio (Gray & Perkins, 2019; Kumar y Singh, 2017), lógica difusa (Yildiz et al., 2013), agrupación de k-medias (Sisovic et al., 2016), bayes ingenuos (Kotsiantis et al., 2004), árbol de decisión (Bunkar et al., 2012; Guruler et al., 2010), máquinas de vectores de soporte (Tekin, 2014), red neuronal artificial (Aydoğdu, 2019), y k-vecino más cercano (Nouri et al., 2019). Las diferencias en sus logros son bastante normales ya que el conjunto de datos de los estudiantes es diferente. Los mismos algoritmos pueden mostrar diferentes rendimientos para diferentes conjuntos de datos (Injadat et al., 2020; Kotsiantis et al., 2006). Además, cada algoritmo tiene algunos sesgos según el tipo de datos a los que se aplica, lo que puede dificultar la determinación del algoritmo universalmente aceptable. Por lo tanto, se recomienda utilizar modelos de aprendizaje en conjunto que combinen las predicciones de diferentes algoritmos para superar la capacidad de generalización, la robustez de un solo algoritmo de aprendizaje y hacer predicciones más precisas. (Kotsiantis et al., 2010). Los estudios deben llevarse a cabo con algoritmos de ML modernos donde los registros de aprendizaje sincrónicos y asincrónicos obtenidos de grandes grupos de muestra se incluyen en el proceso analítico (Corsatea & Walker, 2015; Korkmaz y Correia, 2019; Romero et al., 2013).
Este estudio tuvo como objetivo principal crear y optimizar un modelo de conjunto para predecir estudiantes en riesgo de fracaso académico durante la pandemia. Se aplicaron alrededor de cien ensayos en diferentes modelos de conjunto que combinan análisis discriminante cuadrático (QDA), árbol de decisión (DT), bosque aleatorio (RF), árboles adicionales (ET), regresión logística (LR) y red neuronal artificial (ANN) algoritmos de clasificación. En este estudio se buscaron respuestas a las siguientes preguntas:
-
¿Qué modelo de conjunto es el mejor para predecir los estudiantes en riesgo de fracaso académico durante la pandemia?
-
¿Qué característica(s) de los estudiantes afectan el desempeño predictivo?
Este manuscrito está organizado de la siguiente manera: antecedentes en “Fondosección “Metodología de la investigación en “Metodología” sección, da como resultado “Resultadossección ”, discusión en “Discusión” mientras que las conclusiones y sugerencias se proporcionan en “Conclusión y sugerencia» sección.
Fondo
Predecir el desempeño de los estudiantes
DM es un proceso de descubrimiento de información que descubre las estructuras ocultas en grandes conjuntos de datos y obtiene información significativa para los tomadores de decisiones (Romero et al., 2013). ML se enfoca en el diseño y desarrollo de algoritmos que permiten a las computadoras desarrollar comportamientos y generar reglas basadas en datos empíricos (Singh & Lal, 2013). Reconoce automáticamente patrones complejos basados en datos pasados o actuales. Predice cuál será el valor de una característica de destino en una gran cantidad de datos (Singh & Lal, 2013). En los últimos años, los algoritmos de DM y ML se están utilizando ampliamente en educación, finanzas, marketing, salud, ingeniería y seguridad para aumentar su eficiencia y calidad. Estos algoritmos se pueden usar de manera eficiente en la educación superior para el descubrimiento de patrones de estudiantes, la automatización, el modelado de estudiantes y la predicción del rendimiento académico (Adejo, & Connolly, 2017).
Durante la pandemia de COVID-19, el uso de sistemas de gestión de aprendizaje (LMS) en los sistemas de educación a distancia se ha incrementado exponencialmente, lo que ha producido grandes datos educativos. Sin embargo, el análisis manual de estos datos no es posible (Romero et al., 2008). Con la aplicación de algoritmos DM o ML para facilitar el análisis de datos educativos, han surgido dos nuevos campos de estudio, a saber, Minería de datos educativos (EDM) y Análisis de aprendizaje (LA). EDM & LA intersecta informática, educación y estadística (Romero & Ventura, 2013, 2020). Los temas principales de LA son la predicción del rendimiento, el apoyo a la decisión de profesores y alumnos, la detección de patrones de comportamiento y el modelado del alumno, y la predicción de la deserción escolar (Du et al., 2021). Los beneficios de LA para la educación incluyen una mayor participación de los estudiantes, mejores resultados de aprendizaje, identificación de estudiantes en riesgo, brindar retroalimentación en tiempo real y personalización del aprendizaje (Banihashem et al., 2018). EDM se enfoca en desarrollar modelos para mejorar la experiencia de aprendizaje y la efectividad institucional (Dutt et al., 2017; Hussain et al., 2021). En el estrechamente relacionado EDM & LA (Siemens & Baker, 2012) tiene como objetivo comprender y optimizar el proceso de aprendizaje (Gašević et al., 2016). Por lo tanto, la predicción del desempeño de los estudiantes tiene un lugar importante en los estudios realizados en estos campos (Banihashem et al., 2018; Du et al., 2021; Peña Ayala, 2014; Romero y Ventura, 2020). Más específicamente, la predicción de estudiantes en riesgo de reprobar un curso (problema de clasificación) y la predicción de las calificaciones finales de los estudiantes (problema de regresión) son dos áreas de estudio comúnmente estudiadas.
Estudios previos relacionados con EDM y LA se han aplicado con éxito para predecir el rendimiento académico de los estudiantes (Aydoğdu, 2019; Bunkar et al., 2012; gris y perkins, 2019; Kotsiantis et al., 2004; Kumar y Singh, 2017; Nouri et al., 2019; Sisovic et al., 2016; Tekín, 2014; Yildiz et al., 2013). Según Peña-Ayala (2014), el 60% de los artículos de investigación de EDM han utilizado el enfoque predictivo de DM. Del mismo modo, Shahiri et al. (2015) revisaron la predicción del desempeño de los estudiantes usando técnicas de DM y encontraron que el promedio de calificaciones (GPA) acumulativo y las evaluaciones internas son los atributos más frecuentes. También encontraron que los árboles de decisión (DT) y las redes neuronales artificiales (ANN) eran las técnicas de DM más utilizadas para predecir el rendimiento de los estudiantes. Del mismo modo, Abu Saa et al. (2019) revisó y analizó 36 artículos de investigación de 2009 a 2018 y encontró DT, Naïve Bayes (NB) y ANN como los algoritmos de DM más comunes para predecir y clasificar los factores de los estudiantes. Los factores que afectan el desempeño del estudiante se encontraron como calificaciones anteriores de los estudiantes, desempeño en clase, actividad de aprendizaje electrónico, demografía de los estudiantes e información social. Tomasevic et al. (2020) llevó a cabo un análisis exhaustivo para comparar las técnicas de aprendizaje automático supervisado y descubrió que las ANN son las mejores al alimentar los datos de participación de los estudiantes y los datos de rendimiento anteriores para las tareas de clasificación y regresión. No encontraron ninguna influencia de la demografía en las predicciones.
Estudios recientes han tratado de identificar el mejor algoritmo de clasificación para predecir el rendimiento de los estudiantes (Akçapınar et al., 2019; Kotsiantis et al., 2004; Nouri et al., 2019). Por otro lado, Helal et al. (2018) se centró en diferentes algoritmos de clasificación para predecir el rendimiento de los estudiantes teniendo en cuenta…