Dos métodos para la predicción de intrones y exones en un gen.
Abstract
Para organismos eucariontes, en un gen, además de las regiones codificantes de proteínas (exones) se encuentran regiones no codificantes conocidas como intrones. Existen diferentes enfoques para encontrar las fronteras entre intrones y exones, uno de ellos trata de distinguir cambios en la composición (proporción) de sus nucleótidos y en este contexto usar la segmentación recursiva basada en medidas de divergencia; en esta metodología se necesita definir un “umbral” (parámetro que sirve como criterio de parada). En este estudio se propone que la elección del umbral sea basada en la distribución Monte Carlo de la máxima divergencia, y que dicho umbral dependa del tamaño de la secuencia considerada. Bajo la misma perspectiva de encontrar diferencias en la proporción de nucleótidos dentro de las secuencias, se propone usar la búsqueda de puntos de cambio en datos categóricos. Para este fin se optó por la alternativa de reformular la búsqueda como un problema de selección de variables y para ello se usó LASSO Binomial. Usando secuencias simuladas para probar ambas metodologías se obtuvieron resultados, en términos de precisión, comparables con los de estudios existentes. _______________ TWO METHODS FOR THE PREDICTION OF INTRONS AND EXONS INTO A GENE. ABSTRACT: For eukaryotic organisms, within a gen in addition to protein coding regions (exons) there are noncoding regions know as introns. There are different approaches to find the boundaries between introns and exons, one of those tries to distinguish changes in the composition (proportion) of its nucleotides and in this context the recursive segmentation based on measures of divergence can be used. To implement this methodology a threshold (a parameter that serves as a stopping criterion) needs to be define. Here it is proposed that the choice of the threshold be through by Montecarlo distribution of the maximum divergence; moreover, that such the threshold depends on the size of the sequence under study. Under the same perspective of finding differences in the proportion of nucleotides within the sequences, the search of change points in categorical data can be used. For this purpose, the alternative of reformulating the search as a problem of selection of variables was used following the LASSO binomial. Simulated sequences were used to test both methods and results similar to those of previous studies were obtained.
Collections
- Tesis MC, MT, MP y DC [102]