miércoles, 30 de diciembre de 2015

Función ProcPca2tnt: construyendo matrices de caracteres continuos (formato TNT) en R, a partir de PCA de landmarks (2D o 3D)


Nota editorial:
Empezaré primero que todo disculpándome por el abandono al que sometí el blog este año. 
La verdad fue un año muy agitado para mi, aunque muy fructífero, puesto que:


  1. Empece a trabajar en docencia.
  2. Logré terminar mi carrera, (si, ya soy Biólogo de la UIS :D ).
  3. Publiqué mi primer artículo científico (en co-autoría con mi director de pregrado, Daniel R. Miranda-EsquivelTODOS los análisis se hicieron utilizando R :D , y pueden encontrar los scripts y datos en mi cuenta de Github).
  4. Presenté mi primer trabajo en un Meeting de la Willi Hennig Society (en co-autoría con mi director de doctorado, Santiago A. CatalanoALGUNOS de los análisis se hicieron utilizando R :D ). (QUIEN DIO LA PRESENTACIÓN EN NUEVA YORK FUE SANTIAGO).
  5. Sometimos con Santiago el trabajo anterior a Zoologica Scripta, y estamos esperando, y cruzando los dedos, para que sea aceptado.
  6. Y finalmente terminé el año con la muy grata noticia de haberme ganado una beca interna del CONICET para irme a San Miguel de Tucumán, a hacer un doctorado en Ciencias Biológicas bajo la estupenda dirección de Santiago Catalano y Pablo Goloboff. De manera que tal parece, 'R para Chibchombianos' seguirá, pero ya no será actualizado en Chibchombia, sino en Argentina :P .
  7. No está de más recordar que como soy papá desde hace 1 año y casi 5 meses, mi tiempo también se ha visto reducido, aunque mis días se han alegrado mucho con la presencia de la Salo.
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -  - - - - - - - - - - -

AHORA SI, A LO QUE VINIMOS! ProcPca2tnt


Introducción

En 2010, tal como lo dije en el post de CARONTE, Catalano y colaboradores implementaron el uso de landmarks en un contexto filogenético utilizando el principio de parsimonia. La nueva versión de TNT es completamente funcional para tratar landmarks directamente:

"La ventaja principal es que las búsquedas pueden hacerse sin necesidad de utilizar scripts en TNT. Además, la nueva implementación a reducido dramáticamente el tiempo de análisis de datos de landmarks (cerca de 20 veces menos para TBR), siendo posible también analizar landmarks bajo algoritmos de "nuevas tecnologías"  (búsquedas sectoriales, ratchet, etc). Otras funciones ahora disponibles para datos de landmarks (solos o en combinación con caracteres tradicionales) son: remuestreo, soporte de Bremer, busquedas bajo 'constrains', colapso de ramas. 
Otros cambios adiconales en TNT son:
-Posibilidad para exportar gráficos svg de la optimización de landmarks para cada nodo  (interno o externo).
-Nuevo menu para superimponer configuraciones (versión de windows). Ruta: Data/Edit Data/landmark aligment. 
-Posibilidad para calcular de manera mas precisa el 'score' mínimo para cada landmark, muy útil en pesos implicados.
-Posibilidad para calcular la longitud de las ramas como la sumatoria de los cambios en los landmarks sobre cada rama. El árbol con la correspondientes longitudes de ramas puede ser exportado en formato nexus.
-La función "permute" ahora permite la permutación de configuraciones de landmarks entre terminales. Con esta función se facilita el calculo de 'señal filogenética' en sets de datos de landmarks (Klingenberg & Gidaszewsky 2010), en este caso, bajo 'squared change parsimony'. "
Traducido de: Santiago Catalano, Comunicación personal 

Sin embargo, antes de dicha implementación, el uso de caracteres de morfometría geométrica (landmarks) para realizar análisis filogenéticos se hacia de manera indirecta.
Uno de los acercamientos que se han utilizado para ésto, comprende en utilizar los 'scores' producto de un análisis de componentes principales de variación de forma ('PCA of shape variation'), previo alineamiento de las configuraciones de landmarks mediante un Análisis Generalizado de Procrustes (GPA). De manera que cada componente principal es considerado como un caracter continuo diferente, y los 'scores' (valores) para cada especie son considerados como los estados del caracter. (ej. González-José et al. 2008)
En 2006, Pablo Goloboff, Camilo Mattoni y Andrés Quinteros, presentaron y discutieron en un paper publicado en Cladistics, la incorporación de algoritmos en TNT para analizar caracteres continuos en un contexto filogenético bajo el criterio de parsimonia, sin discretizar dichos caracteres. De tal modo que los 'scores' de los PCA de forma pueden ser tomados como caracteres continuos y analizados en TNT.
No obstante, estos datos deben ser primero generados por fuera de TNT para poderlos analizar; ya que se deben digitalizar los landmarks, alinear las configuraciones de landmarks, realizar el análisis de PCA de forma, tomar los 'scores' correspondientes al numero de componentes principales que se deseen utilizar, y escribir el archivo en formato .tnt para poderlo utilizar como archivo de entrada ('imput') en TNT. Todo este proceso puede ser tedioso y puede ser necesario utilizar varios programas (desde la digitalización al PCA) para poder generar el archivo de entrada.



ProcPca2tnt
ProcPca2tnt es una función escrita en lenguaje R por Ambrosio Torres (quien les escribe) y Santiago Catalano, que permite tomar un archivo de landmarks en formato .tps, alinear sus configuraciones, realizar un análisis de componentes principales de forma, tomar los 'scores' del PCA, y escribir un archivo (formato .tnt) de caracteres continuos para ser analizado en TNT. Cabe recordar que los landmarks también pueden ser digitalizados en R, utilizando el paquete 'geomorph', de tal manera que es posible realizar todo el proceso de generación de datos en R, para luego ser analizados en TNT.
La función necesita que esté instalado el paquete de R 'geomorph', escrito por Dean Adams,  Erik Otarola-Castillo y Emma Sherra; además necesita que esté instalada la función 'implode.R', y que la versión de R instalada sea  3.2.0.
ProcPca2tnt fue escrita utilizando R 3.2.0, en una distribución Ubuntu 14.04 de 64 bits (x86_64-pc-linux-gnu), bajo licencia GPL 2.
SE ENCUENTRA DISPONIBLE EN: https://github.com/atorresgalvis/ProcPca2tnt


Uso de la función ProcPca2tnt
Una vez hayas descargado la función del repositorio de github (recuerda que la función se llama 'ProcPca2tnt.R'), solo tienes que cargar el archivo a R o RStudio con el siguiente comando:

>source('~Desktop/my_folder/ProcPca2tnt.R')
>source("ProcPca2tnt.R") 

El cuerpo de la función es el siguiente:
>ProcPca2tnt("data.tps", cummvar = 0.90)

La función toma dos argumentos que el usuario puede manipular libremente, dependiendo de sus necesidades:
  1. "data.tps" es el nombre del archivo .tps que contiene las configuraciones de landmarks. (de manera que si tu tienes un archivo que se llame "Aves.tps", cambias en el comando la parte de "data.tps" por "Aves.tps", así: >ProcPca2tnt("Aves.tps", cummvar = 0.90)
  2. El segundo argumento es llamado 'cummvar' y se utiliza para que el usuario defina el número de componentes principales (EN ESTE CASO EL NÚMERO DE CARACTERES CONTINUOS QUE VA A UTILIZAR), con base en la cantidad de varianza explicada acumulada que desee utilizar. Por defecto, la función utiliza el 90% (0.90) de la varianza explicada acumulada del PCA, pero éste valor puede ser modificado por el usuario, de tal modo que si desea utilizar el 75% de la varianza explicada acumulada, solo tiene que cambiar en el comando el '0.90' por '0.75', así: >ProcPca2tnt("data.tps", cummvar = 0.75)
Si no se va a modificar el parámetro de la varianza explicada acumulada simplemente bastaría ejecutar el comando, indicándole el archivo .tps que debe utilizar:

>ProcPca2tnt("Aves.tps")

Finalmente, la función escribirá en nuestro directorio de trabajo un archivo en formato TNT que contenga nuestra matriz de caracteres continuos, llamado "Aves.tnt", que al abrirlo tendría un aspecto parecido al siguiente:

nstates cont
xread 2 4

Thypld 19.993 43.419
Thyvst 0 65
Ledhal 65 63.127
Graagi 30.925 0
;
proc/ ;

Ejemplos
En el respositorio de github hay dos archivos de ejemplo que pueden ser utilizados para probar la función: el primero que se llama "data.tps" es pequeño (4 especies), el segundo se llama "grande.tps" y contiene 413 especies.  
Adicional se encuentran también los ejemplos de archivos de salida en formato .tnt, de los set de datos anteriormente mencionados: "data.tnt" y "grande.tnt". De tal manera que podrían contrastar los archivos de resultados que obtengan ustedes con los que están en el repositorio.
Por último se encuentra un script con los pasos para utilizar la función ProcPca2tnt que puede resultar muy útil a la hora de realizar un análisis con datos empíricos: "ProcPca2tnt_script.R".

El tiempo de ejecución de la función para el archivo "grande.tps" (413 especies, 15 landmarks) es de aproximadamente 1 segundo (s), lo cual indica que la función trabaja bastante bien para sets de datos grandes en un tiempo relativamente corto. 
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -


Espero que la función les sea de mucha utilidad, que se haya entendido muy bien su funcionalidad y su uso, y que les haya gustado el post. Ojalá pueda escribir muy pronto algunas cosas que quiero compartir y que tengo atrasadas. En épocas de Star Wars: MAY THE CODE BE WITH YOU!
Bye, mano!