Phylogenetic Analysis Flashcards
Was sind “leaves”,”nodes”,”root” und “branches”? In einem Stammbaum
Leave= sind die Zweigenden Nodes= die Abzweigungen Branches= die Äste Root= Vorfahr
Was ist das Newick Format der Stammbäume?
Das klassische Eckige Format
Was ist der Unterschied zwischen true und inferred tree?
True ist der Evolutionär richtige und inferred ist der nach Daten richtige, sie müssen aber nicht immer das gleiche sein
Was sind die 5 Schritte um einen phylogenetischen Stammbaum zu bauen?
- Homologs finden
- Multiple sequence alignment
- Building Tree
- Statistical assessment of a tree
- Viewing a tree and drawing conclusions
Wie findet man die Sequence similarity raus?
1.Schritt
Mit Blast Databases wie NCBI/PFAM durchsuchen
Was ist der Unterschied zwischen einem Gene Tree und einem Species Tree?
Nur weil ein Gen sich ändert heisst das nicht dass sich direkt die ganze Art aufteilt
Wie geht man Schritt 2. Multiple Sequence Alignment an?
- mit Dynammic Programming (No nach S)
- Progressive Alignment
- interative Alignment
- Statistical Modeling
Was ist das Problem des multiple dynamic programming?
Was ist die Lösung dafür?
Die Zeit, 8 Sequenzen mit der länge 100 würden 81 Jahre dauern
Lösung: Progressive Alignments
Wie funktioniert progressive Alignment?
Worauf muss man achten?
Es Alignt die engsten Verwandten Sequenzen und added dann nach und nach die weniger verwandten Sequenzen => Anfangssequenz muss stimmen, sonst Fehler
Wie heisst das schnellste Progressive Alignment Programm?
MAFFT (ClustalW/T-Coffee)
Wie funktioniert das progressive Alignment Programm ClustalW?
Mit einem neighbour Joining tree (distance Matrix)
Das Alignment geschieht Paarweise, also an beide Seiten wird eine neue Sequenze gesetzt.
Was ist der Unterschied ziwschen Chracter-based und distance-based Methods im 3.Schritt, der Tree Erstellung?
Character based nutzen die Sequenz, also jeden einzelnen Character
Distance-based nutzen paarweise die verschiedenen Buchstaben, betrachten also nicht die Sequenz als Ganzes und benutzen die entstehende Matrix
Was ist eine p-distance?
Die durchschnittliche Unterschieldichkeit der betrachteten Sequenzen
(Anzahl Unterschiedliche Nukleotide geteilt durch Gesamtanzahl an betrachteten Nukleotiden)
Was ist das Gute an Clustering algorithms, was das schlechte?
Gut: Geschwindigkeit
Schlecht: Singulary trees die Sternförmig und dadurch schwer vergleichbar sind, außerdem bestimmt der algorithmus die Tree criterions.
Wie funktionieren optimality approaches?
Entweder mit Character oder Distance criterions.
Criterion (zb minimum branch lengths, fewest number of events, etc.)