Predicciones de dominios para los Apicomplexa

usando DomStratStats

por Alejandro Ochoa García

Imagen miniatura
VIIIA

es-mx en-us - - Mándame un correo

La meta fue generar predicciones de dominios para Plasmodium falciparum en particular, y generamos predicciones en el resto de los Apicomplexa sólo para mejorar las estadísticas q, las cuales se estimaron a través del conjunto. Esto fue porque un sólo proteoma no tiene suficientes datos para dar buenas estimaciones de valores q para la mayoría de las familias de dominos (las cuales se analizan independientemente). Por esta razon, el proteoma de P. falciparum que usamos es mucho más nuevo que el resto de los proteomas, los cuales son sólo auxiliares. Sin embargo, incluyo todos los datos para que estén completos y con la esperanza que estas predicciones de dominios en los otros organismos sean útiles aunque algunas de sus sequencias sean obsoletas.

Baje nuestros datos de dominios sin procesar

Todos los archivos están comprimidos con gzip, y se pueden descomprimir en Windows con WinRAR. Todos los archivos están en texto sencillo con nuevas líneas de Unix (las cuales a veces se visualizan incorrectamente en sistemas de Windows o Mac).

Secuencias Dominios
Fuente Datos Pfam Normal Estadísticas Estratificadas por Dominio Valores q Estratificados con Gradas
P. falciparum PlasmoDB 9.0 Pf.fa.gz Pf.ga.txt.gz Pf.dss.txt.gz Pf.tsq.txt.gz
P. vivax PlasmoDB 6.4 Pv.fa.gz Pv.ga.txt.gz Pv.dss.txt.gz Pv.tsq.txt.gz
P. knowlesi PlasmoDB 6.4 Pk.fa.gz Pk.ga.txt.gz Pk.dss.txt.gz Pk.tsq.txt.gz
P. yoelii PlasmoDB 6.4 Py.fa.gz Py.ga.txt.gz Py.dss.txt.gz Py.tsq.txt.gz
P. chabaudi GeneDB 2010-07 Pc.fa.gz Pc.ga.txt.gz Pc.dss.txt.gz Pc.tsq.txt.gz
P. berghei GeneDB 2010-07 Pb.fa.gz Pb.ga.txt.gz Pb.dss.txt.gz Pb.tsq.txt.gz
B. bovis UniProt 2010-07-21 Bb.fa.gz Bb.ga.txt.gz Bb.dss.txt.gz Bb.tsq.txt.gz
T. annulata UniProt 2010-07-21 Ta.fa.gz Ta.ga.txt.gz Ta.dss.txt.gz Ta.tsq.txt.gz
T. parva UniProt 2010-07-21 Tp.fa.gz Tp.ga.txt.gz Tp.dss.txt.gz Tp.tsq.txt.gz
T. gondii ToxoDB 7.0 Tg.fa.gz Tg.ga.txt.gz Tg.dss.txt.gz Tg.tsq.txt.gz
N. caninum ToxoDB 7.0 Nc.fa.gz Nc.ga.txt.gz Nc.dss.txt.gz Nc.tsq.txt.gz
E. tenella ToxoDB 7.0 Et.fa.gz Et.ga.txt.gz Et.dss.txt.gz Et.tsq.txt.gz
C. hominis CryptoDB 4.0 Ch.fa.gz Ch.ga.txt.gz Ch.dss.txt.gz Ch.tsq.txt.gz
C. muris CryptoDB 4.0 Cm.fa.gz Cm.ga.txt.gz Cm.dss.txt.gz Cm.tsq.txt.gz
C. parvum CryptoDB 4.0 Cp.fa.gz Cp.ga.txt.gz Cp.dss.txt.gz Cp.tsq.txt.gz

Formatos de archivos

Las secuencias de proteínas estan en el formato FASTA, mientras que todas las predicciones de dominios estan en el formato tabular de dominio de HMMER3 (con columnas adicionales en el caso de las predicciones estratificadas, vease la página de DomStratStats para mayor información).

Métodos

Los pseudogenes fueron removidos de los archivos originales de secuencias de proteinas. Todas las predicciones de dominios fueron encontradas usando los programas de HMMER 3.1b1 para comparar nuestras secuencias de proteínas contra la colección de dominios de Pfam 27. Estadísticas adicionales y filtros de contraste de hipótesis fueron calculados usando DomStratStats 1.01. Usé el siguiente comando, el cual combina las estadísticas a través de los organismos y a la vez mantiene los archivos de salida separados.

# provea las rutas correctas al ejecutable hmmscan y los archivos de Pfam 
# los archivos de entrada ORG.fa o ORG.fa.gz deben de estar en el mismo directorio 
perl -w 4allManyOrgs.pl hmmscan Pfam-A.hmm Pfam-A.hmm.dat \ 
	 Pf Pv Pk Py Pb Pc Bb Ta Tp Tg Nc Et Ch Cp Cm

El "Pfam Normal " usa los contrastes de Pfam "gathering" (que son seleccionados por expertos) y sólo remueve las superposiciones del mismo clan, las predicciones de "Estadísticas Estratificadas por Dominio" no tienen filtros de contraste de hipótesis (excepto el paso obligatorio de remover superposiciones de dominios que precede calcular los valores q y el FDR local), y las predicciones "Valores q Estratificados con Gradas" tienen un contraste de valor q por grada de 1e-4 (otra vez, después de remover superposiciones de dominios).

Citas

2015-11-17. Alejandro Ochoa, John D Storey, Manuel Llinás, and Mona Singh. Beyond the E-value: stratified statistics for protein domain prediction. PLoS Comput Biol. 11 e1004509. Pubmed Artículo arXiv 2014-09-23.

2016-01-27. Simon A Cobbold, Joana M Santos, Alejandro Ochoa, David H Perlman, Manuel Llinás. Proteome-wide analysis reveals widespread lysine acetylation of major protein complexes in the malaria parasite. Sci Rep 2016;6:19722 Pubmed Artículo.

VIIIA

Historial