Modelos geoestadísticos aplicados a la distribución de contaminantes en suelo.
Abstract
El estudio de datos espaciales presenta: dependencia entre las muestras observadas, distribución de datos no normales y heterocedasticidad. Por ello, es importante la implementación de metodologías que permitan predecir niveles de contaminación en suelo con mayor precisión. El presente trabajo analiza y compara el comportamiento de los estimadores de diferentes modelos de regresión lineales (GLM y GLMM) y no lineales (GAM y GAMM), a través de la simulación de una variable de respuesta generada por diferentes tipos de matrices de pesos, niveles de autocorrelación, errores autocorrelacionados y distribuciones con el objetivo de identificar que modelos que son capaces de describir el comportamiento de datos espaciales. Adicionalmente se aplicaron los modelos a un conjunto de 72 datos del Valle del Mezquital, Hgo. para elaborar mapas de predicción de concentración de metales pesados en función de los modelos ajustados. Además se propuso un tamaño de muestra óptimo en función del nivel de autocorrelación. Cuando la variable respuesta es generada a través de la matriz de pesos de tipo U, la estimación de los parámetros es más robusta al nivel de autocorrelación debido a que se acerca más al valor inicial de los parámetros. Los mejores resultados se obtuvieron con los modelos mixtos y no lineales, debido a la integración de efectos aleatorios y a las funciones de suavizamiento respectivamente. Las medidas de autocorrelación espacial permiten calcular tamaños de muestra con el fin de optimizar los recursos sin perder información estadísticamente importante. _______________ STATISTICAL MODELS APPLIED TO THE DISTRIBUTION OF CONTAMINANTS IN SOIL. ABSTRACT: The study of spatial data presents: dependence between observed samples, non-normal distribution of data, and heteroskedasticity. Therefore, It is important to implement methodologies to predict pollution levels in soil more accurately. This paper analyzes and compares the behavior of the estimators of different linear (GLM and GLMM) and nonlinear (GAM and GAMM) regression models, through simulation of a response variable generated by different types of weight matrices, autocorrelation levels, autocorrelated errors, and distributions in order to identify which models are able to better describe the behavior of geospatial data. Additionally, models were applied to a set of 72 data from the Mezquital Valley, Hidalgo to map prediction of concentration of heavy metals as function of the adjusted models. In addition, an optimal sample size was proposed depending on the level of autocorrelation. When the response variable is generated by the weight matrix type U, the estimation of parameters is more robust at the autocorrelation level because it is closer to the initial value of the parameters. The best results were obtained with the mixed and nonlinear models due to the integration of random effects and smoothing functions respectively. Spatial autocorrelation measures allow calculating sample sizes in order to optimize resources without losing statistically important information.
Collections
- Tesis MC, MT, MP y DC [102]