- ⇑
¡Necesitas Javascript para poder usar este menú adecuadamente!
La meta fue generar predicciones de dominios para Plasmodium falciparum en particular, y generamos predicciones en el resto de los Apicomplexa sólo para mejorar las estadísticas q, las cuales se estimaron a través del conjunto. Esto fue porque un sólo proteoma no tiene suficientes datos para dar buenas estimaciones de valores q para la mayoría de las familias de dominos (las cuales se analizan independientemente). Por esta razon, el proteoma de P. falciparum que usamos es mucho más nuevo que el resto de los proteomas, los cuales son sólo auxiliares. Sin embargo, incluyo todos los datos para que estén completos y con la esperanza que estas predicciones de dominios en los otros organismos sean útiles aunque algunas de sus sequencias sean obsoletas.
Todos los archivos están comprimidos con gzip, y se pueden descomprimir en Windows con WinRAR. Todos los archivos están en texto sencillo con nuevas líneas de Unix (las cuales a veces se visualizan incorrectamente en sistemas de Windows o Mac).
Las secuencias de proteínas estan en el formato FASTA, mientras que todas las predicciones de dominios estan en el formato tabular de dominio de HMMER3 (con columnas adicionales en el caso de las predicciones estratificadas, vease la página de DomStratStats para mayor información).
Los pseudogenes fueron removidos de los archivos originales de secuencias de proteinas. Todas las predicciones de dominios fueron encontradas usando los programas de HMMER 3.1b1 para comparar nuestras secuencias de proteínas contra la colección de dominios de Pfam 27. Estadísticas adicionales y filtros de contraste de hipótesis fueron calculados usando DomStratStats 1.01. Usé el siguiente comando, el cual combina las estadísticas a través de los organismos y a la vez mantiene los archivos de salida separados.
# provea las rutas correctas al ejecutable hmmscan y los archivos de Pfam
# los archivos de entrada ORG.fa o ORG.fa.gz deben de estar en el mismo directorio
perl -w 4allManyOrgs.pl hmmscan Pfam-A.hmm Pfam-A.hmm.dat \
Pf Pv Pk Py Pb Pc Bb Ta Tp Tg Nc Et Ch Cp Cm
El "Pfam Normal " usa los contrastes de Pfam "gathering" (que son seleccionados por expertos) y sólo remueve las superposiciones del mismo clan, las predicciones de "Estadísticas Estratificadas por Dominio" no tienen filtros de contraste de hipótesis (excepto el paso obligatorio de remover superposiciones de dominios que precede calcular los valores q y el FDR local), y las predicciones "Valores q Estratificados con Gradas" tienen un contraste de valor q por grada de 1e-4 (otra vez, después de remover superposiciones de dominios).