Predicciones en texto sencillo

Baje nuestras predicciones en texto sencillo

Todos los archivos están comprimidos con gzip, y se pueden descomprimir en Windows con WinRAR. Ambos formatos están en texto sencillo con nuevas líneas de Unix (las cuales a veces se visualizan incorrectamente en sistemas de Windows o Mac).

	Pfam Normal		Pfam dPUC, E ≤ 1
	Dominios	Ontología Génica	Dominios	Ontología Génica
E. coli	Ec.stdPfam	Ec.stdPfam.GO	Ec.dpucPfam	Ec.dpucPfam.GO
M. tuberculosis	Mt.stdPfam	Mt.stdPfam.GO	Mt.dpucPfam	Mt.dpucPfam.GO
P. falciparum	Pf.stdPfam	Pf.stdPfam.GO	Pf.dpucPfam	Pf.dpucPfam.GO
P. vivax	Pv.stdPfam	Pv.stdPfam.GO	Pv.dpucPfam	Pv.dpucPfam.GO
P. knowlesi	Pk.stdPfam	Pk.stdPfam.GO	Pk.dpucPfam	Pk.dpucPfam.GO
P. chabaudi	Pc.stdPfam	Pc.stdPfam.GO	Pc.dpucPfam	Pc.dpucPfam.GO
P. berghei	Pb.stdPfam	Pb.stdPfam.GO	Pb.dpucPfam	Pb.dpucPfam.GO
P. yoelii	Py.stdPfam	Py.stdPfam.GO	Py.dpucPfam	Py.dpucPfam.GO
S. cerevisiae	Sc.stdPfam	Sc.stdPfam.GO	Sc.dpucPfam	Sc.dpucPfam.GO
C. elegans	Ce.stdPfam	Ce.stdPfam.GO	Ce.dpucPfam	Ce.dpucPfam.GO
D. melanogaster	Dm.stdPfam	Dm.stdPfam.GO	Dm.dpucPfam	Dm.dpucPfam.GO
H. sapiens	Hs.stdPfam	Hs.stdPfam.GO	Hs.dpucPfam	Hs.dpucPfam.GO

Formatos de archivos

Espero que sepan como convertir esta información con Perl, porque estos formatos no son comunes.

Dominios

Estos archivos son casi tablas delimitadas por caracteres de tabulador. La primera linea es la cabecera, indicando en palabras sin espacios lo que contiene cada columna. Los dominios de cada proteína están listados en cada hilera (ordenados por el punto de inicio por conveniencia). Sin embargo, el identificador (ID) de cada proteína es introducido en una linea precedida por el símbolo ">", y la lista de dominios concluye cuando el próximo ID se aparezca o el archivo termine (excluyendo la cabecera en la primera linea, esto es análogo al formato de secuencias FASTA). En el ejemplo abajo, las columnas fueron acomodadas manualmente con espacios para poder visualizarse bien, pero los archivos reales estan separados por caracteres de tabulador, no espacios.

start end  acc     name          GA start2 end2 score E        scoreSeq ESeq    mode
>MAL13P1.1
94    442  PF05424 Duffy_binding 1  0      361  481.6 1.1e-141 675.4    5e-200  ls
608   755  PF03011 PFEMP         1  0      170  117.8 3.5e-32  305.7    9.6e-89 ls
867   1281 PF05424 Duffy_binding 1  0      361  193.8 4.8e-55  675.4    5e-200  ls
1440  1580 PF03011 PFEMP         1  0      170  187.9 2.9e-53  305.7    9.6e-89 ls
>MAL13P1.100
42    151  PF00085 Thioredoxin   1  0      109  -16.2 0.0044   -16.2    0.0044  ls
>MAL13P1.105
156   193  PF02985 HEAT          1  0      36   19.7  0.012    37.3     7.5e-15 ls
347   384  PF02985 HEAT          1  0      36   17.6  0.051    37.3     7.5e-15 ls
>MAL13P1.111
103   180  PF02617 ClpS          1  0      83   104.9 2.8e-28  104.9    2.8e-28 ls
>MAL13P1.115
4     72   PF08927 DUF1909       1  0      74   130.8 3.5e-44  130.8    3.5e-44 fs

Para las predicciones del Pfam Normal, las columnas tienen los siguientes significados.

start, end: el alcance de los dominios predichos en la secuencia de proteína. NOTA: las posiciones están numeradas a partir de cero (base cero), y la posición final marca la primera posición afuera del dominio (fin exclusivo). Esta regla sigue las convenciones de índices de una multitud de lenguajes de programación (incluyendo C y Perl), y de esta manera la longitud del dominio es end-start. Para convertir a coordenadas tradicionales, en que se empiece a contar a partir del 1 y el final es la última posición dentro del dominio, simplemente aumente 1 al inicio ("start"), (el final "end" se queda igual).
start2, end2: el alcance de la predicción en el HMM (modelo oculto de Márkov de perfil) del dominio (este alcance no es trivial porque los dominios pueden estar fragmentados). NOTA: este alcance también está basado en cero y con fin exclusivo (ver arriba).
acc, name: la accesión y nombre de Pfam de cada dominio.
GA: una variable booleana (verdadero=1/falso=0) que indica si este dominio pasó el puntaje límite del Pfam Normal (no es trivial para nuestras predicciones dPUC). GA = "gathering" threshold (límite de puntaje de recolección), es jerga de Pfam.
score, E: el puntaje original del HMM y el valor E de este dominio.
scoreSeq, ESeq: la suma de los puntajes originales del HMM de todos los dominios de la misma familia en esta secuencia, y el valor E de esta suma de puntajes. Seq = puntaje de "secuencia", es jerga de Pfam. La razon de sumar estos puntajes es que Pfam tiene un segundo límite de puntaje para esta suma (el primer límite de puntaje es para cada dominio).
mode: el modo de alineación de este dominio. ls = modo "glocal" (se alinean dominios completos), fs = modo "local" (se alinean fragmentos de dominios), otra vez los dos son jerga de Pfam.

Para las predicciones del Pfam dPUC, todas las columnas tienen el mismo significado excepto las siguientes.

score: este es el puntaje final de este dominio (puntaje original del HMM más los puntajes de contexto). Note que aunque el puntaje final cambia, el valor E reportado de este dominio es igual que sin contexto (nuestro método no reestima los valores E).
scoreHmm: este es puntaje original del HMM del dominio.
scoreContext: esta es la suma de los puntajes de contexto de este dominio.
scoreSeq, scoreHmmSeq, scoreContextSeq: estas son las sumas de los puntajes respectivos sobre todos los dominios de la misma familia en esta secuencia, en analogía con la definición para el Pfam Normal arriba.

Estos archivos pudieron haber estado en el formato YAML, como los de abajo, pero este formato tabular especial es mucho más compacto (e interpretar esta información no es tan complicado).

Términos GO

Estos son archivos YAML muy simples. Cada ID de proteína tiene asignada una lista de términos de la Ontología Génica (GO en inglés). Las proteínas sin términos GO predichos no se muestran. En el ejemplo abajo, la proteína MAL13P1.1 tiene tres términos GO predichos (GO:0004872, GO:0009405, GO:0016021).

---
MAL13P1.1:
 - GO:0004872
 - GO:0009405
 - GO:0016021
MAL13P1.100:
 - GO:0003824
 - GO:0045454
MAL13P1.105:
 - GO:0005488
MAL13P1.111:
 - GO:0030163
MAL13P1.115:
 - GO:0005622
 - GO:0008270

Fuentes de información

Las secuencias de proteína usadas para producir estas predicciones de dominios vinieron de PlasmoDB 6.0 en el caso de las especies de Plasmodium, y de Uniprot de lo contrario.

Las predicciones de dominios del "Pfam Normal" fueron encontradas usando los programas de HMMER 2.3.2 para comparar nuestras secuencias de proteínas contra la colección de dominios de Pfam 23. Las predicciones de "Pfam dPUC" fueron post-procesadas de las predicciones originales de HMMER usando dPUC 1.0.

Las predicciones de términos GO que siguieron a las predicciones de dominios fueron encontradas usando el procedimiento de MultiPfam2GO, el cual se puede bajar aquí (código fuente), y está citado abajo. Para entrenar ese sistema, usamos los dominios de Pfam 23 en Uniprot, y los términos GO asociados con estas secuencias de Uniprot como fueron bajadas en 2009-11-20.

Forslund K & Sonnhammer ELL. Predicting protein function from domain content. Bioinformatics 24, 1681-1687 (2008).