Una prueba estadística para GWAS considerando la no independencia de los BLUP.
Abstract
En el presente trabajo se desarrolló una prueba estadística para análisis de asociación aplicada a plantas basada en el BLUP, calculado a partir de un modelo lineal mixto (MLM), y sus propiedades distribucionales. La prueba se ensayó utilizando simulación. Los escenarios simulados se determinaron de acuerdo a: número de SNPs a probar, número de SNPs con efecto no nulo, número de genotipos, tamaño de bloque, magnitud de varianza genética y magnitud de correlación entre residuales asumiendo una estructura de correlación AR(1). En total se simularon 204 escenarios con 1000 iteraciones cada uno. Los resultados de 180 escenarios fueron comparados con otro método de estudio de asociación implementado en PLINK. La comparación se realizó utilizando dos indicadores, la TDV qué es la tasa de detecciones verdaderas y la TDF qué es la tasa de detecciones falsas. Cada indicador fue analizado utilizando ANOVA donde se obtuvo que ambos métodos son estadísticamente diferentes para TDV y TDF. El método implementado en PLINK resultó tener mejor comportamiento para TDV, sin embargo, cuando el tamaño del efecto fue lo suficientemente grande, la propuesta obtuvo valores de TDV cercanos a uno. Con respecto a TDF, el método propuesto se mantuvo, en todos los casos, por debajo del umbral de 0.05 y el método implementado en PLINK tuvo un comportamiento poco deseado ya que obtuvo valores por arriba de 0.2. Los últimos 24 escenarios confirman que la propuesta tiene un comportamiento deseado para TDV cuando el tamaño del efecto es lo suficientemente grande. En conclusión, la prueba estadística, en general, muestra un desempeño deseado en el sentido de que controla de forma óptima la tasa de asociaciones espurias y detecta SNPs con tamaños de efectos grandes, lo que arroja alta certeza de estar detectando asociaciones verdaderas. _______________ A STATISTICAL TEST FOR GWAS CONSIDERING THE NON-INDEPENDENCE OF THE BLUP. ABSTRACT: In the present work a statistical test was developed for analysis of association applied to plants based on the BLUP, calculated from a mixed linear model (MLM), and its distributional properties. The test was tested using simulation. The simulated scenarios were determined according to: number of SNPs to be tested, number of SNPs with non-zero effect, number of genotypes, block size, magnitude of genetic variance and magnitude of correlation between residuals assuming an AR(1) correlation structure. In total, 204 scenarios were simulated with 1000 iterations each. The results of 180 scenarios were compared with another method of association study implemented in PLINK. The comparison was made using two indicators, the TDV what is the true detections rate and the TDF what is the false detections rate. Each indicator was analyzed using ANOVA where it was obtained that both methods are statistically different for TDV and TDF. The method implemented in PLINK turned out to have better behavior for TDV; however, when the effect size was large enough, the proposal obtained values of TDV close to one. With respect to TDF, the proposed method remained, in all cases, below the threshold of 0.05 and the method implemented in PLINK had an undesired behavior since it obtained values above 0.2. The last 24 scenarios confirm that the proposal has a desired behavior for TDV when the effect size is large enough. In conclusion, the statistical test shows a desired performance in the sense that it controls in an optimal way the rate of spurious associations and detects SNPs with large effect sizes, which gives high certainty of detecting associations true.
Collections
- Tesis MC, MT, MP y DC [102]