Aplicación de aprendizaje automático para evaluar el rendimiento escolar a partir de la prueba enlace.
Abstract
El logro académico de los estudiantes está relacionado con diferentes variables que lo afectan, algunas son de características personales de los alumnos, estructurales o de ubicación geográfica de las escuelas, características del entorno escolar entre otras. La capacidad para predecir el rendimiento académico de los estudiantes ofrece beneficios a los profesores, alumnos y a las escuelas, para poder generar programas estratégicos de prevención o acompañamiento de estudiantes con bajo desempeño, detección de alumnos con alta probabilidad de deserción e identificación de características de los estudiantes que permita un buen aprovechamiento. A través de algoritmos de aprendizaje automático, es posible clasificar a estudiantes de acuerdo con características determinadas, por ejemplo, la calificación que obtuvieron en una materia o todo su historial académico. En esta investigación se implementan tres algoritmos de aprendizaje automático supervisado, bosque aleatorio, red neuronal multicapa y potenciación del gradiente para clasificar a estudiantes de la prueba ENLACE en tres clases o niveles de logro, 0: insuficiente, 1: elemental, 2: bueno o excelente en las asignaturas de español y matemáticas de 2008 y 2011. Se consideraron 13 variables predictoras que pueden influir en la clasificación. Bosque aleatorio se aplica para seleccionar las variables más importantes que se incluirán en los modelos; red neuronal multicapa y potenciación del gradiente para clasificar a los alumnos de tres entidades, Tlaxcala, Guerrero y Nuevo León. Los resultados muestran que es importante conocer previamente la calificación de los alumnos en español para clasificarlos en matemáticas y la calificación en matemáticas para predecir su clasificación en español, esto como una medida general de capacidad. Con la red neuronal multicapa se obtienen mejores resultados de clasificación en todas las entidades para español y con el modelo de potenciación del gradiente se obtienen mejores precisiones de clasificación para matemáticas. Al comparar los niveles de logro por sexo en las tres entidades, se observa que en español y matemáticas la proporción de mujeres en los niveles de logro académico 1 y 2 es mayor a la de los hombres. _______________ MACHINE LEARNING APP FOR TO ASSESSS SCHOOL PERFORMANCE FROM THE ENLACE TEST. ABSTRACT: The academic achievement of students is related to different variables that affect it, some personal characteristics of the students, structural or geographic location of the schools, characteristics of the school environment, among others. The ability to predict the academic performance of students offers benefits to teachers, students, and schools, to be able to generate strategic programs for the prevention or monitoring of students with low performance, detection of students with a high probability of dropping out and identification of characteristics of the students that allow good achievement. Through machine learning algorithms, it is possible to classify students according to certain characteristics, for example, the grade they obtained in a subject or their entire academic history. In this research, three supervised machine learning algorithms, random forest, multilayer neural network and gradient boosting are implemented to classify ENLACE test students into three classes or levels of achievement, 0: insufficient, 1: elementary, 2: good or excellent in spanish and mathematics subjects 2008 and 2011. Thirteen predictor variables that may influence the classification were considered. Random forest is applied to select the most important variables to be included in the models; Multilayer neural network and gradient boosting to classify students from three entities, Tlaxcala, Guerrero, and Nuevo León. The results show that it is important to previously know the qualification of the students in spanish to classify them in mathematics and the qualification in mathematics to predict their classification in spanish, this as a general measure of ability. With the multilayer neural network, better classification results are obtained in all entities for spanish and with the gradient boosting model, better classification accuracies are obtained for mathematics. When comparing achievement levels by sex in the three entities, it is observed that in spanish and mathematics the proportion of women in academic achievement levels 1 and 2 is higher than that of men.