Predicciones en texto sencillo

dPUC: Domain Prediction Using Context

por Alejandro Ochoa García, Manuel Llinás, Mona Singh

¡Extienda sus predicciones de Pfam sin perder precisión usando el contexto de dominios!

VIIIA

es-mx en-us - Inicio dPUC -

Baje nuestras predicciones en texto sencillo

Todos los archivos están comprimidos con gzip, y se pueden descomprimir en Windows con WinRAR. Ambos formatos están en texto sencillo con nuevas líneas de Unix (las cuales a veces se visualizan incorrectamente en sistemas de Windows o Mac).

Pfam Normal Pfam dPUC, E ≤ 1
Dominios Ontología Génica Dominios Ontología Génica
E. coli Ec.stdPfam Ec.stdPfam.GO Ec.dpucPfam Ec.dpucPfam.GO
M. tuberculosis Mt.stdPfam Mt.stdPfam.GO Mt.dpucPfam Mt.dpucPfam.GO
P. falciparum Pf.stdPfam Pf.stdPfam.GO Pf.dpucPfam Pf.dpucPfam.GO
P. vivax Pv.stdPfam Pv.stdPfam.GO Pv.dpucPfam Pv.dpucPfam.GO
P. knowlesi Pk.stdPfam Pk.stdPfam.GO Pk.dpucPfam Pk.dpucPfam.GO
P. chabaudi Pc.stdPfam Pc.stdPfam.GO Pc.dpucPfam Pc.dpucPfam.GO
P. berghei Pb.stdPfam Pb.stdPfam.GO Pb.dpucPfam Pb.dpucPfam.GO
P. yoelii Py.stdPfam Py.stdPfam.GO Py.dpucPfam Py.dpucPfam.GO
S. cerevisiae Sc.stdPfam Sc.stdPfam.GO Sc.dpucPfam Sc.dpucPfam.GO
C. elegans Ce.stdPfam Ce.stdPfam.GO Ce.dpucPfam Ce.dpucPfam.GO
D. melanogaster Dm.stdPfam Dm.stdPfam.GO Dm.dpucPfam Dm.dpucPfam.GO
H. sapiens Hs.stdPfam Hs.stdPfam.GO Hs.dpucPfam Hs.dpucPfam.GO

Formatos de archivos

Espero que sepan como convertir esta información con Perl, porque estos formatos no son comunes.

Dominios

Estos archivos son casi tablas delimitadas por caracteres de tabulador. La primera linea es la cabecera, indicando en palabras sin espacios lo que contiene cada columna. Los dominios de cada proteína están listados en cada hilera (ordenados por el punto de inicio por conveniencia). Sin embargo, el identificador (ID) de cada proteína es introducido en una linea precedida por el símbolo ">", y la lista de dominios concluye cuando el próximo ID se aparezca o el archivo termine (excluyendo la cabecera en la primera linea, esto es análogo al formato de secuencias FASTA). En el ejemplo abajo, las columnas fueron acomodadas manualmente con espacios para poder visualizarse bien, pero los archivos reales estan separados por caracteres de tabulador, no espacios.

start end  acc     name          GA start2 end2 score E        scoreSeq ESeq    mode
>MAL13P1.1
94    442  PF05424 Duffy_binding 1  0      361  481.6 1.1e-141 675.4    5e-200  ls
608   755  PF03011 PFEMP         1  0      170  117.8 3.5e-32  305.7    9.6e-89 ls
867   1281 PF05424 Duffy_binding 1  0      361  193.8 4.8e-55  675.4    5e-200  ls
1440  1580 PF03011 PFEMP         1  0      170  187.9 2.9e-53  305.7    9.6e-89 ls
>MAL13P1.100
42    151  PF00085 Thioredoxin   1  0      109  -16.2 0.0044   -16.2    0.0044  ls
>MAL13P1.105
156   193  PF02985 HEAT          1  0      36   19.7  0.012    37.3     7.5e-15 ls
347   384  PF02985 HEAT          1  0      36   17.6  0.051    37.3     7.5e-15 ls
>MAL13P1.111
103   180  PF02617 ClpS          1  0      83   104.9 2.8e-28  104.9    2.8e-28 ls
>MAL13P1.115
4     72   PF08927 DUF1909       1  0      74   130.8 3.5e-44  130.8    3.5e-44 fs

Para las predicciones del Pfam Normal, las columnas tienen los siguientes significados.

Para las predicciones del Pfam dPUC, todas las columnas tienen el mismo significado excepto las siguientes.

Estos archivos pudieron haber estado en el formato YAML, como los de abajo, pero este formato tabular especial es mucho más compacto (e interpretar esta información no es tan complicado).

Términos GO

Estos son archivos YAML muy simples. Cada ID de proteína tiene asignada una lista de términos de la Ontología Génica (GO en inglés). Las proteínas sin términos GO predichos no se muestran. En el ejemplo abajo, la proteína MAL13P1.1 tiene tres términos GO predichos (GO:0004872, GO:0009405, GO:0016021).

---
MAL13P1.1:
 - GO:0004872
 - GO:0009405
 - GO:0016021
MAL13P1.100:
 - GO:0003824
 - GO:0045454
MAL13P1.105:
 - GO:0005488
MAL13P1.111:
 - GO:0030163
MAL13P1.115:
 - GO:0005622
 - GO:0008270

Fuentes de información

Las secuencias de proteína usadas para producir estas predicciones de dominios vinieron de PlasmoDB 6.0 en el caso de las especies de Plasmodium, y de Uniprot de lo contrario.

Las predicciones de dominios del "Pfam Normal" fueron encontradas usando los programas de HMMER 2.3.2 para comparar nuestras secuencias de proteínas contra la colección de dominios de Pfam 23. Las predicciones de "Pfam dPUC" fueron post-procesadas de las predicciones originales de HMMER usando dPUC 1.0.

Las predicciones de términos GO que siguieron a las predicciones de dominios fueron encontradas usando el procedimiento de MultiPfam2GO, el cual se puede bajar aquí (código fuente), y está citado abajo. Para entrenar ese sistema, usamos los dominios de Pfam 23 en Uniprot, y los términos GO asociados con estas secuencias de Uniprot como fueron bajadas en 2009-11-20.

Forslund K & Sonnhammer ELL. Predicting protein function from domain content. Bioinformatics 24, 1681-1687 (2008).

VIIIA