Modelos de predicción robustos con datos masivos: inferencia y alternativas al MCMC clásico.
Abstract
Los datos de alta dimensión han surgido gracias al desarrollo sostenido de las tecnologías que facilitan la generación y recolección de datos. Estos datos se caracterizan por tener una serie de covariables, p, mayores al tamaño de muestra, n, (p n). El problema principal se presenta durante el ajuste de un modelo, en particular en los cálculos numéricos, asociados a la estimación de un gran número de componentes aleatorios. El modelo lineal mixto (MLM) es una alternativa para analizar datos agrupados, que incorpora efectos fijos y aleatorios. El ajuste del MLM se realiza mediante el enfoque clásico o bayesiano, en ambos casos generalmente se requiere de la implementación de algoritmos. En presencia de alta dimensionalidad, los algoritmos de ajuste se vuelve, en términos computacionales, muy intensos. Este trabajo presenta dos métodos para el ajuste del MLM con datos de alta dimensión. El primer método consiste en ajustar el MLM utilizando diferentes matrices de varianzas-covarianzas en los efectos fijos y aleatorios. Este método da como resultado el desarrollo del paquete lme4GS de R que proporciona estimaciones REML de los parámetros de interés. El segundo método consiste en aplicar la técnica de aumentación ortogonal de datos al MLM para su ajuste mediante el algoritmo esperanza-maximización. Para cada método se evaluó el poder predictivo del modelo y el tiempo de cómputo utilizando datos reales. Los resultados muestran que los métodos aquí propuestos son rápidos ya que los tiempos de cómputo son menores en comparación con los algoritmos basados en Cadenas de Markov Monte Carlo (MCMC), al menos en un 50 %. Las correlaciones entre las estimaciones de los parámetros de varianza mediante los métodos propuestos y los métodos MCMC fueron altas. _______________ ROBUST PREDICTION MODELS WITH BIG DATA: INFERENCE AND ALTERNATIVES TO MCMC METHODS. ABSTRACT: High-dimensional data has emerged thanks to the sustained development of technologies that facilitate data generation and collection. Those data are characterized by a number of covariates p, larger than the sample size, n, (p n). The main problem arises during the fitting of the model, particularly in the numerical calculations, associated with the estimation of a large number of random components. The linear mixed model (LMM) is an alternative to analyze clustered data that incorporate fixed and random effects. The LMM fit is performed by the classic and Bayesian approach, in both cases the implementation of algorithms is generally required. In the presence of high dimensionality, the fitting algorithms become very computationally intensive. This work presents two methods for fitting the LMM with high-dimensional data. The first method consists of fitting the LMM using different variance-covariance matrices in the fixed and random effects. This method results in the development of the lme4GS R package that provides REML estimates of the parameters of interest. The second method consists of applying the orthogonal data augmentation technique to the linear mixed model for its fit using the expectation-maximization algorithm. For each method, the prediction accuracy of the model and the computation time were evaluated using real data. The results show that the proposed methods are fast since the computation times are lower than Markov Chain Monte Carlo algorithms at least by 50 %. The correlations between the variance parameter estimates using the proposed methods and the MCMC methods were high.
Collections
- Tesis MC, MT, MP y DC [102]