- Inicio dPUC - ⇑
¡Extienda sus predicciones de Pfam sin perder precisión usando el contexto de dominios!
- Inicio dPUC - ⇑
¡Necesitas Javascript para poder usar este menú adecuadamente!
Todos los archivos están comprimidos con gzip, y se pueden descomprimir en Windows con WinRAR. Ambos formatos están en texto sencillo con nuevas líneas de Unix (las cuales a veces se visualizan incorrectamente en sistemas de Windows o Mac).
Pfam Normal | Pfam dPUC, E ≤ 1 | |||
Dominios | Ontología Génica | Dominios | Ontología Génica | |
E. coli | Ec.stdPfam | Ec.stdPfam.GO | Ec.dpucPfam | Ec.dpucPfam.GO |
M. tuberculosis | Mt.stdPfam | Mt.stdPfam.GO | Mt.dpucPfam | Mt.dpucPfam.GO |
P. falciparum | Pf.stdPfam | Pf.stdPfam.GO | Pf.dpucPfam | Pf.dpucPfam.GO |
P. vivax | Pv.stdPfam | Pv.stdPfam.GO | Pv.dpucPfam | Pv.dpucPfam.GO |
P. knowlesi | Pk.stdPfam | Pk.stdPfam.GO | Pk.dpucPfam | Pk.dpucPfam.GO |
P. chabaudi | Pc.stdPfam | Pc.stdPfam.GO | Pc.dpucPfam | Pc.dpucPfam.GO |
P. berghei | Pb.stdPfam | Pb.stdPfam.GO | Pb.dpucPfam | Pb.dpucPfam.GO |
P. yoelii | Py.stdPfam | Py.stdPfam.GO | Py.dpucPfam | Py.dpucPfam.GO |
S. cerevisiae | Sc.stdPfam | Sc.stdPfam.GO | Sc.dpucPfam | Sc.dpucPfam.GO |
C. elegans | Ce.stdPfam | Ce.stdPfam.GO | Ce.dpucPfam | Ce.dpucPfam.GO |
D. melanogaster | Dm.stdPfam | Dm.stdPfam.GO | Dm.dpucPfam | Dm.dpucPfam.GO |
H. sapiens | Hs.stdPfam | Hs.stdPfam.GO | Hs.dpucPfam | Hs.dpucPfam.GO |
Espero que sepan como convertir esta información con Perl, porque estos formatos no son comunes.
Estos archivos son casi tablas delimitadas por caracteres de tabulador. La primera linea es la cabecera, indicando en palabras sin espacios lo que contiene cada columna. Los dominios de cada proteína están listados en cada hilera (ordenados por el punto de inicio por conveniencia). Sin embargo, el identificador (ID) de cada proteína es introducido en una linea precedida por el símbolo ">", y la lista de dominios concluye cuando el próximo ID se aparezca o el archivo termine (excluyendo la cabecera en la primera linea, esto es análogo al formato de secuencias FASTA). En el ejemplo abajo, las columnas fueron acomodadas manualmente con espacios para poder visualizarse bien, pero los archivos reales estan separados por caracteres de tabulador, no espacios.
start end acc name GA start2 end2 score E scoreSeq ESeq mode
>MAL13P1.1
94 442 PF05424 Duffy_binding 1 0 361 481.6 1.1e-141 675.4 5e-200 ls
608 755 PF03011 PFEMP 1 0 170 117.8 3.5e-32 305.7 9.6e-89 ls
867 1281 PF05424 Duffy_binding 1 0 361 193.8 4.8e-55 675.4 5e-200 ls
1440 1580 PF03011 PFEMP 1 0 170 187.9 2.9e-53 305.7 9.6e-89 ls
>MAL13P1.100
42 151 PF00085 Thioredoxin 1 0 109 -16.2 0.0044 -16.2 0.0044 ls
>MAL13P1.105
156 193 PF02985 HEAT 1 0 36 19.7 0.012 37.3 7.5e-15 ls
347 384 PF02985 HEAT 1 0 36 17.6 0.051 37.3 7.5e-15 ls
>MAL13P1.111
103 180 PF02617 ClpS 1 0 83 104.9 2.8e-28 104.9 2.8e-28 ls
>MAL13P1.115
4 72 PF08927 DUF1909 1 0 74 130.8 3.5e-44 130.8 3.5e-44 fs
Para las predicciones del Pfam Normal, las columnas tienen los siguientes significados.
Para las predicciones del Pfam dPUC, todas las columnas tienen el mismo significado excepto las siguientes.
Estos archivos pudieron haber estado en el formato YAML, como los de abajo, pero este formato tabular especial es mucho más compacto (e interpretar esta información no es tan complicado).
Estos son archivos YAML muy simples. Cada ID de proteína tiene asignada una lista de términos de la Ontología Génica (GO en inglés). Las proteínas sin términos GO predichos no se muestran. En el ejemplo abajo, la proteína MAL13P1.1 tiene tres términos GO predichos (GO:0004872, GO:0009405, GO:0016021).
---
MAL13P1.1:
- GO:0004872
- GO:0009405
- GO:0016021
MAL13P1.100:
- GO:0003824
- GO:0045454
MAL13P1.105:
- GO:0005488
MAL13P1.111:
- GO:0030163
MAL13P1.115:
- GO:0005622
- GO:0008270
Las secuencias de proteína usadas para producir estas predicciones de dominios vinieron de PlasmoDB 6.0 en el caso de las especies de Plasmodium, y de Uniprot de lo contrario.
Las predicciones de dominios del "Pfam Normal" fueron encontradas usando los programas de HMMER 2.3.2 para comparar nuestras secuencias de proteínas contra la colección de dominios de Pfam 23. Las predicciones de "Pfam dPUC" fueron post-procesadas de las predicciones originales de HMMER usando dPUC 1.0.
Las predicciones de términos GO que siguieron a las predicciones de dominios fueron encontradas usando el procedimiento de MultiPfam2GO, el cual se puede bajar aquí (código fuente), y está citado abajo. Para entrenar ese sistema, usamos los dominios de Pfam 23 en Uniprot, y los términos GO asociados con estas secuencias de Uniprot como fueron bajadas en 2009-11-20.