Modelos probabilísticos para secuencias sobre un alfabeto

Enviado por Programa Chuletas y clasificado en Matemáticas

Escrito el en español con un tamaño de 15,13 KB

1.- ¿Qué es una secuencia sobre un alfabeto y qué modelos probabilísticos se pueden utilizar para modelizar su composición?

Una secuencia, palabra, sobre un alfabeto A = { a1, … , an} es: S = s1s2…sL, donde s E A1. Los modelos probabilísticos que podemos utilizar son:

  • Modelo multinomial: cada elemento es independiente y todos tienen la misma probabilidad de aparecer. P(s) = PIG 1<><=l pst[pa="P(st" = a) >=l>.
  • Modelo Markov: la probabilidad de un símbolo depende del símbolo inmediatamente anterior. P(s) = Pi s1 PIG 1<><=l pst, st >=l // T(matriz de transición – T=(Pai,aj) y Pi (vector inicial – PI ai = P(s1 = ai).

2.- Describir los elementos de:

* Un modelo multinomial de las secuencias sobre un alfabeto:

  • Alfabeto: A={a1 a2…an}
  • Secuencia: S = s1s2…SL
  • Probabilidades para cada símbolo del alfabeto, si no me dieran las probabilidades asumimos que serán todas iguales SUM Pi = 1

* Una cadena de Markov que modelice las secuencias sobre un alfabeto:

  • Estados
  • Matriz de transición: encontramos las probabilidades de que aparezca un símbolo en función del anterior (P condicionadas).
  • Vector inicial: Encontramos el vector con la probabilidad del símbolo inicial de la secuencia.

Para cada uno de los modelos anteriores:

Multinomial A={A T C G} // S = TC // P(T) = X // P(C)=Y // Markov Estados: (A C G T) // T= ([PAA PAC PAG PAT],[PCA PCC PCG PCT], [PGA PGC PGG PGT], [PTA PTC PTG PTT]] //// PIG = PiA PiC PiG PiT.

Indicar cómo se calcula la probabilidad de la secuencia ACACGACT.

Multinomial (suponiendo que es iid) ---- P(S) = 1/A^s = 1 / 4^8 . // Si no es iid P(S) = P(A)P(C)P(A)P(C)P(G)P(A)P(C)P(T). Markov P(S) = vec.Inicial P(A) * mat.transici P(CIA)P(AIC)P(CIA)P(GIC)P(AIG)P(CIA)P(TIC).

Indicar qué significa, dado un modelo probalístico de las secuencias sobre un alfabeto, que las probabilidades de los símbolos son independientes e idénticamente distribuidas. ¿Qué probabilidad tendría, utilizando un modelo con las características anteriores, la secuencia de aminoácidos ADCGACLTA?

Que sean independientes significa que la aparición de ese elemento en esa posición de la cadena no está condicionado por ningún otro factor. Que sean igualmente distribuidos significa que todos los elementos tienen la misma probabilidad de aparecer. P(S) = P(A)P(D)P(C)P(G)P(A)P(C)P(L)P(T)P(A) /// P(S) = P(A)^9 /// Si supongo que el alfabeto es{ADCGLT} /// P(A) = 1/6 // P(S)= (1/6)^9 = 9.9x10^-8

Para un determinado alfabeto A = {a,b} conocemos que: *La probabilidad de que una secuencia empiece por a es 0.053 y la probabilidad de que empiece por b es 0.022. *La probabilidad de que en una secuencia un símbolo sea distinto del siguiente es 0.06 (con la misma probabilidad para cualquiera de las opciones de cambio). Calcular la probabilidad de la secuencia aaba.

A={a,b}//P(a)=0.053 // P(b) = 0.022 // P(X!= x+1) = 0.06 ////----- P(a)*P(a|a)*P(a|b)*P(b|a) = 0.053*0.4*0.6*0.6=0.07632

En la bacteria Haemophilus influenzae los nucleótidos ocurren con las siguientes frecuencias relativas: A (0.31) C(0.91) G(0.19) T(0.31) ¿Qué modelo probabilístico podríamos asumir? Indicar cómo se calcularía la probabilidad de la secuencia AGTATG según dicho modelo.

Podemos decir que es un modelo multinomial NO igualmente distribuido. // AGTATG=0.31*0.19*0.31*0.31*0.31*0.19=3.33*10^-4

Describir, y mostrar gráficamente, los elementos de una cadena de Markov que modelice la distribución de dímeros en una secuencia de ADN. Indicar cuál sería el correspondiente alfabeto.

A={A T C G} /// T= ([PAA PAC PAG PAT],[PCA PCC PCG PCT], [PGA PGC PGG PGT], [PTA PTC PTG PTT]] /// PIG = PiA PiC PiG PiT. (DIBUJO DE LAZOS : AC GT)

¿Cómo se estudia la variabilidad de la distribución k-meros en una secuencia? Por ejemplo, para localizar las zonas ricas en A o T en una cadena de ADN.

Las zonas ricas en AT son aquellas que necesitan menos energía para separarse (son más inestables). Las secuencias tendrán poca variación en el contenido par CG. Hay que ir comparando los puntos de cambio de una secuencia y otra.

¿Qué dificultad tiene la localización de genes en el genoma de una célula eucariota? ¿Se tiene esa misma dificultad en las células procariotas?

Que en las eucariotas nos encontramos con intrones y secuencias de ADN basura, y por ello la secuencia de ADN con información útil no es continua. (La basura está entre codón parada ORF y codón de inicio del siguiente ORF). En las células procariotas esto no pasa, ya que no tienen intrones y lo que tienen es una secuencia de ADN continua.

¿Qué es un Open Reading Frame (ORF)?

Un ORF es la secuencia de ADN comprendida entre un codón de inicio(ATG/AUG) de la traducción y un codón de terminación, descartando las secuencias que corresponden a intrones en el caso de haberlas. En un marco de lectura abierto entre AUG y terminación, sirve para localizar genes y después codificar aminoácidos.

Describir un procedimiento que permita localizar todos los ORF existentes en una secuencia de ADN.

Dada una secuencia de ADN le hacemos la complementaria y tendremos 2 cadenas a las que le haremos el marco de lectura, y obtendremos 6 posibles marcos de lectura, que será +1,+2,+3,-1,-2,-3. A estos marcos le calculamos los codones y posteriormente iremos comparando los codones de mis marcos de lectura con el inicio y parada para obtener el ORF.

¿Qué utilidad tiene la localización de los ORF existentes en una secuencia de ADN? ¿por qué se descartan los menores que un determinado tamaño y cómo puede determinarse ese umbral?

Es importante localizar los ORF existentes en una secuencia de ADN para conocer las regiones de codificación de los aminoácidos de las proteínas. Los ORF menores que un determinado tamaño (umbral) se descartan ya que se supone que los que sean menores se presentan por azar. Para calcular este umbral a partir del cual los ORF sean suficientemente largos como para presentarse por azar, se hace de la siguiente manera: Hay 4 aminoácidos distintos(A,C,T,G), los cuales se repiten en una secuencia de ADN de manera aleatoria y se agrupan de 3 en 3(codones), por lo que, 4^3 = 64 codones distintos, de los cuales 3 son terminales y 61 no terminales. Sea K el nº de codones no terminales que compone un ORF: P(K)=(61/64)^k ---probabilidad de una secuencia de K codones no terminales sean frecuencias idénticas distribuidas. Vemos que a partir de K=100 codones no terminales, la probabilidad de que ocurra esa secuencia son + de 100 codones no terminales es menor al 1%(por lo que no se produce el azar). (confianza de que no se haya generado al azar mayor al 99%).

Si consideramos que la aparición de los distintos codones en una secuencia es equiprobable, ¿qué tamaño debe tener un ORF para que la confianza en que no se haya generado al azar sea mayor al 99%?

K=100// tamaño secuencia = K*3=300 /// (61/64)^k=0.01 ----- Como se ha comentado anteriormente, el tamaño que debe tener un ORF para que la confianza en que no se haya generado azar sea mayor al 99% es de 100 codones no terminales.

¿Cómo puede estimarse k para confiar en que el C % de los ORF generados al azar tengan k codones o menos, si la generación de los codones se hace a partir de la frecuencia absoluta que tengan los mismos en una determinada secuencia de ADN utilizando la correspondiente distribución multinomial como modelo?

Para atenuar el nº de codones (K) para que un cierto % de los ORF sean generados al azar, consideramos que si un ORF tiene una probabilidad de aparecer <1% significa que no es generado al azar. Para calcular la probabilidad de que se genere un ORF, hay que tener en cuenta solo las probabilidades de los codones no terminales, que es lo mismo que las probabilidades total menos las probabilidades de los codones terminales. (1- sum i=1 P(codones terminales))=(1−P(TAA)−P(TAG)−P(TGA))^k = probabilidad de un codón no terminal P(k no terminal). por lo que la probabilidad de un ORF será: P(orf)=P(k no terminal)^k, donde k será el nº de conodes no terminales. Para saber cuántos codones no terminales (k) hacen falta como máximo para que el ORF sea generado al azar: P(orf)=P(k no terminal)^k>0.01 (1%) //// log p(x) 0.01 >= k

En la bacteria Haemophilus influenzae la probabilidad de que un codón sea de parada es: P(cod = TAA) = 0.003, P(cod = TAG) = 0.001, P(cod = TGA) = 0.002 ¿Cómo se calcularía el tamaño de ORF que debemos considerar para tener una confianza superior al 95% de que no es fruto del azar?

P(k no terminal)=(1-(0.03)-(0.01)-(0.02))^k. /// P(K no terminal)=0.94^k/// (0.94)^k=0.05///log(0.94)K=log 0.05/// K=48.411%

¿Qué significa que dos organismos A y B tiene un gen X homólogo? ¿Cuál es la diferencia entre gen ortólogo y gen parólogo?

Los genes homólogos son aquellos que provienen del mismo gen ancestral, es decir, que A y B tienen el gen X con mismo origen ancestral independientemente de la función que lleven a cabo. Los genes ortólogos son aquellas secuencias homólogas que se han separado por un evento de especiación que es el proceso mediante el cual una población de una determinada especie da lugar a otras especies. Son las secuencias que se encuentran en distintas especies y son altamente similares debido a que se han originado en un ancestro común. Los Genes parálogos son aquellas secuencias homólogas que se hallan separadas por un evento de duplicación.

¿Qué utilidades tiene la alineación de secuencias?

La alineación de secuencias se utiliza sobre todo para medir el grado de similitud de 2 secuencias. *Predicción: Inferir la función de proteínas desconocidas a partir de una proteína similar en algún otro organismo. *Búsqueda en bases de datos: Localizar, dado un gen conocido, una secuencia similar en otros organismos. *Localización de genes: Comparar la secuencia completa de dos organismos puede revelar la existencia de genes desconocidos. *Ensamblado de secuencias. Secuencias similares no tienen porque significar homología.

Si consideramos que la aparición de los distintos codones en una secuencia NO es equiprobable, ¿qué tamaño debe tener un ORF para que la confianza en que no se haya generado al azar sea mayor al 95%?

K=100// tamaño secuencia = K*3=300 /// (61/64)^k=0.01 ----- Como se ha comentado anteriormente, el tamaño que debe tener un ORF para que la confianza en que no se haya generado azar sea mayor al 95% es de 100 codones no terminales.

Si un ORF tiene el doble del tamaño considerado en la pregunta anterior, ¿Está garantizado que codifique un gen?

No, ya que la longitud de un ORF no es suficiente para determinar si codifica un gen. Se deben realizar análisis adicionales para confirmar si un ORF codifica una proteína funcional.

¿Garantiza una alineación global con una alta valoración entre la cadena de amino ácidos que codifica una proteína conocida A y una subcadena de otro organismo B que dicha subcadena produzca la misma proteína?

No, ya que una alta valoración en una alineación global no garantiza que la subcadena produzca la misma proteína. Se deben realizar análisis adicionales para confirmar la funcionalidad de la subcadena.

Aplicar el algoritmo apropiado, detallando cada uno de los pasos, que permita calcular la mejor alineación local entre las siguientes secuencias: casdao y tdota. Utilizar la siguiente función de sustitución: o(x,y)= [-1 si x o y _] [2 si dist(x,y)<3] [-2 si dist(x,y)>=3].

HECHO EN FOLIO

Calcular la valoración de la siguiente alineación utilizando la función de sustitución del ejercicio anterior: t d _ o t a //s d a o _ _

HECHO EN FOLIO

Indicar que suposiciones de independencia se asumen en el modelo probabilístico de Cadenas de Markov para secuencias sobre un determinado alfabeto.

Se asume que los símbolos de la secuencia son independientes entre sí y que la probabilidad de un símbolo depende únicamente del símbolo inmediatamente anterior.

¿Qué describe y cuáles son las componentes de dicho modelo?

El modelo de Cadenas de Markov describe la probabilidad de una secuencia de símbolos sobre un alfabeto. Las componentes de este modelo son los estados, la matriz de transición y el vector inicial.

¿Cómo y por qué se calcula la log-probabilidad de una secuencia dado un modelo multinomial genérico?

Se calcula la log-probabilidad de una secuencia dado un modelo multinomial genérico para evitar que los valores obtenidos sean muy cercanos a 0. La función log no está definida para 0, por lo que las log-probabilidades solo pueden representar las probabilidades de NO 0. Para calcular la log-probabilidad, se utiliza la fórmula logP(s) = -L * log(P(a)), donde L es la longitud de la secuencia y P(a) es la probabilidad de cada símbolo a.

Enumerar las utilidades que tiene la alineación de secuencias.

La alineación de secuencias tiene varias utilidades, entre ellas:

  • Predicción de la función de proteínas desconocidas a partir de proteínas similares en otros organismos.
  • Búsqueda de secuencias similares en bases de datos.
  • Localización de genes desconocidos comparando secuencias completas de dos organismos.
  • Ensamblado de secuencias.

Si consideramos que la aparición de los distintos codones en una secuencia es equiprobable, ¿qué tamaño debe tener un ORF para que la confianza en que no se haya generado al azar sea mayor al 99%?

El tamaño del ORF debe ser de al menos 100 codones no terminales para que la confianza en que no se haya generado al azar sea mayor al 99%.

Si un ORF tiene el doble del tamaño considerado en la pregunta anterior, ¿Está garantizado que codifique un gen?

No, el tamaño del ORF no garantiza que codifique un gen. Se deben realizar análisis adicionales para confirmar la funcionalidad del ORF.

¿Garantiza una alineación global con una alta valoración entre la cadena de amino ácidos que codifica una proteína conocida A y una subcadena de otro organismo B que dicha subcadena produzca la misma proteína?

No, una alta valoración en una alineación global no garantiza que la subcadena produzca la misma proteína. Se deben realizar análisis adicionales para confirmar la funcionalidad de la subcadena.

Fragmento emparejado

Localizar secuencias similares en una base de datos y proporcionar una estimación de la relevancia de los resultados obtenidos. Subsecuencias del mismo tamaño alineadas sin huecos. Localmente óptimo: Su valoración no puede mejorarse modificando el tamaño de las subsecuencias. Máximo: Máximo fragmento emparejado con la mayor valoración entre todos los posibles.

BLAST

Basic Local Alignment Search Tool. Busca emparejamientos de fragmentos (de un determinado tamaño) con una valoración superior a cierto umbral (basado en alguna consideración estadística) e intenta extenderlos para obtener el mayor fragmento posible con una valoración por encima del umbral.

Entradas relacionadas: