Predicciones de dominios para los Apicomplexa

La meta fue generar predicciones de dominios para Plasmodium falciparum en particular, y generamos predicciones en el resto de los Apicomplexa sólo para mejorar las estadísticas q, las cuales se estimaron a través del conjunto. Esto fue porque un sólo proteoma no tiene suficientes datos para dar buenas estimaciones de valores q para la mayoría de las familias de dominos (las cuales se analizan independientemente). Por esta razon, el proteoma de P. falciparum que usamos es mucho más nuevo que el resto de los proteomas, los cuales son sólo auxiliares. Sin embargo, incluyo todos los datos para que estén completos y con la esperanza que estas predicciones de dominios en los otros organismos sean útiles aunque algunas de sus sequencias sean obsoletas.

Baje nuestros datos de dominios sin procesar

Todos los archivos están comprimidos con gzip, y se pueden descomprimir en Windows con WinRAR. Todos los archivos están en texto sencillo con nuevas líneas de Unix (las cuales a veces se visualizan incorrectamente en sistemas de Windows o Mac).

	Secuencias		Dominios
	Fuente	Datos	Pfam Normal	Estadísticas Estratificadas por Dominio	Valores q Estratificados con Gradas
P. falciparum	PlasmoDB 9.0	Pf.fa.gz	Pf.ga.txt.gz	Pf.dss.txt.gz	Pf.tsq.txt.gz
P. vivax	PlasmoDB 6.4	Pv.fa.gz	Pv.ga.txt.gz	Pv.dss.txt.gz	Pv.tsq.txt.gz
P. knowlesi	PlasmoDB 6.4	Pk.fa.gz	Pk.ga.txt.gz	Pk.dss.txt.gz	Pk.tsq.txt.gz
P. yoelii	PlasmoDB 6.4	Py.fa.gz	Py.ga.txt.gz	Py.dss.txt.gz	Py.tsq.txt.gz
P. chabaudi	GeneDB 2010-07	Pc.fa.gz	Pc.ga.txt.gz	Pc.dss.txt.gz	Pc.tsq.txt.gz
P. berghei	GeneDB 2010-07	Pb.fa.gz	Pb.ga.txt.gz	Pb.dss.txt.gz	Pb.tsq.txt.gz
B. bovis	UniProt 2010-07-21	Bb.fa.gz	Bb.ga.txt.gz	Bb.dss.txt.gz	Bb.tsq.txt.gz
T. annulata	UniProt 2010-07-21	Ta.fa.gz	Ta.ga.txt.gz	Ta.dss.txt.gz	Ta.tsq.txt.gz
T. parva	UniProt 2010-07-21	Tp.fa.gz	Tp.ga.txt.gz	Tp.dss.txt.gz	Tp.tsq.txt.gz
T. gondii	ToxoDB 7.0	Tg.fa.gz	Tg.ga.txt.gz	Tg.dss.txt.gz	Tg.tsq.txt.gz
N. caninum	ToxoDB 7.0	Nc.fa.gz	Nc.ga.txt.gz	Nc.dss.txt.gz	Nc.tsq.txt.gz
E. tenella	ToxoDB 7.0	Et.fa.gz	Et.ga.txt.gz	Et.dss.txt.gz	Et.tsq.txt.gz
C. hominis	CryptoDB 4.0	Ch.fa.gz	Ch.ga.txt.gz	Ch.dss.txt.gz	Ch.tsq.txt.gz
C. muris	CryptoDB 4.0	Cm.fa.gz	Cm.ga.txt.gz	Cm.dss.txt.gz	Cm.tsq.txt.gz
C. parvum	CryptoDB 4.0	Cp.fa.gz	Cp.ga.txt.gz	Cp.dss.txt.gz	Cp.tsq.txt.gz

Formatos de archivos

Las secuencias de proteínas estan en el formato FASTA, mientras que todas las predicciones de dominios estan en el formato tabular de dominio de HMMER3 (con columnas adicionales en el caso de las predicciones estratificadas, vease la página de DomStratStats para mayor información).

Métodos

Los pseudogenes fueron removidos de los archivos originales de secuencias de proteinas. Todas las predicciones de dominios fueron encontradas usando los programas de HMMER 3.1b1 para comparar nuestras secuencias de proteínas contra la colección de dominios de Pfam 27. Estadísticas adicionales y filtros de contraste de hipótesis fueron calculados usando DomStratStats 1.01. Usé el siguiente comando, el cual combina las estadísticas a través de los organismos y a la vez mantiene los archivos de salida separados.

# provea las rutas correctas al ejecutable hmmscan y los archivos de Pfam 
# los archivos de entrada ORG.fa o ORG.fa.gz deben de estar en el mismo directorio 
perl -w 4allManyOrgs.pl hmmscan Pfam-A.hmm Pfam-A.hmm.dat \ 
	 Pf Pv Pk Py Pb Pc Bb Ta Tp Tg Nc Et Ch Cp Cm

El "Pfam Normal " usa los contrastes de Pfam "gathering" (que son seleccionados por expertos) y sólo remueve las superposiciones del mismo clan, las predicciones de "Estadísticas Estratificadas por Dominio" no tienen filtros de contraste de hipótesis (excepto el paso obligatorio de remover superposiciones de dominios que precede calcular los valores q y el FDR local), y las predicciones "Valores q Estratificados con Gradas" tienen un contraste de valor q por grada de 1e-4 (otra vez, después de remover superposiciones de dominios).

Citas

2015-11-17. Alejandro Ochoa, John D Storey, Manuel Llinás, Mona Singh. Beyond the E-value: stratified statistics for protein domain prediction. PLoS Comput Biol. 11 e1004509. PubMed. PubMed Central. Artículo. arXiv 2014-09-23.
2016-01-27. Simon A Cobbold, Joana M Santos, Alejandro Ochoa, David H Perlman, Manuel Llinás. Proteome-wide analysis reveals widespread lysine acetylation of major protein complexes in the malaria parasite. Sci Rep. 2016;6:19722. PubMed. PubMed Central. Artículo.

Predicciones de dominios para los Apicomplexa

usando DomStratStats

por Alejandro Ochoa García

Baje nuestros datos de dominios sin procesar

Formatos de archivos

Métodos

Citas