Algoritmos de aprendizaje automático para la clasificación del rezago social a nivel municipal en México.
Abstract
El grado de rezago social es una medida que permite estimar las carencias fundamentales de millones de personas en México, que además de asociarse con la pobreza, cuantifica un fenómeno distinto porque no toma en cuenta el ingreso. Este indicador se estima oficialmente, por el Consejo Nacional para la Evaluación de la Política de Desarrollo Social cada cinco años a nivel municipal; sin embargo, disponer de predicciones anuales es importante para mejorar el establecimiento de políticas de mitigación del rezago social. En este trabajo se propone un nuevo enfoque para predecir el grado de rezago social (alto, medio y bajo) a nivel municipal con base en algoritmos de inteligencia artificial (aprendizaje automático y aprendizaje profundo) e información anual de la estadística oficial de las unidades económicas de cada municipio. Con aprendizaje automático se implementaron, en el lenguaje de código abierto Python, tres clasificadores: regresión logística (LR), máquina de soporte vectorial (SVM), y bosques aleatorios (RF). Con aprendizaje profundo se implementaron tres arquitecturas de redes neuronales: red neuronal con escala nominal (DL-NOM); y dos redes neuronales con escala ordinal (DL1-ORD y DL2-ORD). Los modelos se entrenaron bajo diferentes escenarios y métodos de regularización, y se optimizaron con la técnica de validación cruzada y búsqueda de hiperparámetros por retícula. Para evaluar el desempeño de los modelos se calcularon las métricas precisión global de clasificación (ACC), F1-macro, y el error absoluto promedio (MAE). Los mejores resultados con aprendizaje automático supervisado se obtuvieron con el clasificador bosques aleatorios, con un valor de F1-macro 71.6% y ACC de 74.4%; así como valores F1, para las clases de rezago social alto, medio y, bajo de 59.6%, 73.0% y 82.2% respectivamente. Por otro lado, el mejor desempeño global para la predicción de las tres clases de rezago social se obtuvo con la arquitectura de redes neuronales DL1-ORD que presentó una ACC promedio de 76.2%, MAE promedio de 0.241 y F1-macro promedio de 73.8%; y valores F1 para las clases objetivo de rezago social de 63.3% para alto, 73.8% para medio, y 84.6% para bajo. En este estudio se muestra la fuerte relación entre el grado de rezago social y las unidades económicas a nivel municipal. Asimismo, se ilustran en mapas la distribución geográfica del grado de rezago social en México. La metodología propuesta representa una valiosa herramienta para obtener estimaciones anuales del rezago social; en particular en periodos donde no existen estimaciones oficiales anuales. _______________ MACHINE LEARNING ALGORITHMS FOR THE CLASSIFICATION OF SOCIAL LAG AT MUNICIPAL LEVEL IN MEXICO. ABSTRACT: The social lag index is a measure that allows estimating the primary deficiencies of millions of people in Mexico, which, in addition to being correlated with poverty, quantifies a different phenomenon because it does not take income into account. This indicator is officially estimated by the National Council for the Evaluation of Social Development Policy every five years at the municipal level. However, having annual predictions is important to improve the establishment of policies to mitigate the social lag. In this work, a new approach is proposed to predict the degree of social lag (high, medium and low) at the municipal level based on artificial intelligence algorithms (machine learning and deep learning) as well as annual information from the official statistics of economic units of each municipality. Using machine learning tools, three classifiers were implemented in the Python programming language: logistic regression (LR), support vector machine (SVM), and random forests (RF). With deep learning, three neural network architectures were implemented: neural network with nominal scale (DL-NOM); and two neural networks with ordinal scale (DL1-ORD and DL2-ORD). The models were trained under different scenarios and regularization methods, and were optimized with the cross-validation technique and hyperparameters grid-search. To evaluate the performance of the models, the global classification precision metrics (ACC), F1-macro, and the mean absolute error (MAE) were calculated. The best results with supervised machine learning algorithms were obtained with the random forests classifier, with a value of F1-macro 71.6% and ACC of 74.4%; as well as F1 values, for the high, medium and low social lag classes of 59.6%, 73.0% and 82.2% respectively. On the other hand, the best global performance for the prediction of the three target classes of social lag was obtained with the DL1-ORD neural network architecture that presented an average ACC of 76.2%, average MAE of 0.241 and average F1-macro of 73.8%; and F1 values for the target classes of social lag of 63.3% for high, 73.8% for medium, and 84.6% for low. This study shows the strong relationship between the degree of social lag and economic units at the municipal level. Also, the geographical distribution of the degree of social lag in Mexico is illustrated on maps. The proposed methodology represents a valuable tool to obtain annual estimates of social lag; particularly in periods where there are no official annual estimates.
Collections
- Tesis MC, MT, MP y DC [131]