Phylogenetic Analysis Flashcards
Was sind “leaves”,”nodes”,”root” und “branches”? In einem Stammbaum
Leave= sind die Zweigenden Nodes= die Abzweigungen Branches= die Äste Root= Vorfahr
Was ist das Newick Format der Stammbäume?
Das klassische Eckige Format
Was ist der Unterschied zwischen true und inferred tree?
True ist der Evolutionär richtige und inferred ist der nach Daten richtige, sie müssen aber nicht immer das gleiche sein
Was sind die 5 Schritte um einen phylogenetischen Stammbaum zu bauen?
- Homologs finden
- Multiple sequence alignment
- Building Tree
- Statistical assessment of a tree
- Viewing a tree and drawing conclusions
Wie findet man die Sequence similarity raus?
1.Schritt
Mit Blast Databases wie NCBI/PFAM durchsuchen
Was ist der Unterschied zwischen einem Gene Tree und einem Species Tree?
Nur weil ein Gen sich ändert heisst das nicht dass sich direkt die ganze Art aufteilt
Wie geht man Schritt 2. Multiple Sequence Alignment an?
- mit Dynammic Programming (No nach S)
- Progressive Alignment
- interative Alignment
- Statistical Modeling
Was ist das Problem des multiple dynamic programming?
Was ist die Lösung dafür?
Die Zeit, 8 Sequenzen mit der länge 100 würden 81 Jahre dauern
Lösung: Progressive Alignments
Wie funktioniert progressive Alignment?
Worauf muss man achten?
Es Alignt die engsten Verwandten Sequenzen und added dann nach und nach die weniger verwandten Sequenzen => Anfangssequenz muss stimmen, sonst Fehler
Wie heisst das schnellste Progressive Alignment Programm?
MAFFT (ClustalW/T-Coffee)
Wie funktioniert das progressive Alignment Programm ClustalW?
Mit einem neighbour Joining tree (distance Matrix)
Das Alignment geschieht Paarweise, also an beide Seiten wird eine neue Sequenze gesetzt.
Was ist der Unterschied ziwschen Chracter-based und distance-based Methods im 3.Schritt, der Tree Erstellung?
Character based nutzen die Sequenz, also jeden einzelnen Character
Distance-based nutzen paarweise die verschiedenen Buchstaben, betrachten also nicht die Sequenz als Ganzes und benutzen die entstehende Matrix
Was ist eine p-distance?
Die durchschnittliche Unterschieldichkeit der betrachteten Sequenzen
(Anzahl Unterschiedliche Nukleotide geteilt durch Gesamtanzahl an betrachteten Nukleotiden)
Was ist das Gute an Clustering algorithms, was das schlechte?
Gut: Geschwindigkeit
Schlecht: Singulary trees die Sternförmig und dadurch schwer vergleichbar sind, außerdem bestimmt der algorithmus die Tree criterions.
Wie funktionieren optimality approaches?
Entweder mit Character oder Distance criterions.
Criterion (zb minimum branch lengths, fewest number of events, etc.)
Was ist bei der Distance Method zu beachten?
Man nimmt an das jede Veränderung direkt kam und nur 1 mal
Falls fehlerhaft kann der branch ins negative gehen
Was ist das Kriterium, was die Vor- und Nachteile von Minimum Evolution?
Distances/Optimallity criterion
Der Tree mit der geringsten Gesamtlänge an Ästen wird ausgewählt
Pro:
- objektiv-vergleichbar
- schneller als Character based
Kontra:
- Informationsverlust, weil Nukleotide in Distances umgewandelt werden
- langsamer als Cluster
Was ist das Kriterium, was die Vor- und Nachteile von Clustering Methoden (UPGMA und NJ)?
Distance und Cluster
KEIN Kriterium
Pro
- fastest methods
- therefore good for large datasets
Kontra
-Similarity und relatinship sind nicht zwangweise das gleiche, also kommt nicht zwangsweise ien evolutionary tree heraus
Wovon geht UPGMA aus?
Wie funktioniert es?
Von einer constant molecular clock (rate of evolution)
nimmt die 2 Ähnlichsten, bildet einen Wert der dann mit dem dritten verglichen wird usw..
Wie funktioniert NJ?
Sternförmige Anordnung, startet also nicht mit den 2 Ähnlichsten
Was ist das Kriterium, was die Vor- und Nachteile von Parsimony Methods?
Criterion/Character
Kriterium:
Der tree mit den wenigsten SUbstitutionen etc ist der richtige
Pro:
- simple, intuitive and logical
- can be used on Genes and Phäno
Kontra:
- Kann durch viele Events verfälscht werden, zb 2 Substitutionen ergeben Urzustand
- langsamer
Was ist das Kriterium, was die Vor- und Nachteile von Maximum Likelihood?
Charakter/Creiterion
Modell liegt zu Grunde
Zahlen x Modelprobability
Pro:
-most consistent
Kontra:
- nicht so intuitiv
- Kann verfälscht werden durch homoplasy (soppelsubstitution)
- wenn Modell falsch dann tree falsch
- sehr langsam
Was ist Homoplasy?
Mehrere Nukleotid Events die wieder beim Ausgangszustand enden!
Was ist das Kriterium, was die Vor- und Nachteile von Bayesian Inference?
Basiert auf Bayes’ theorem+
Pro:
- berechnet die phylogenetische unsicherheit
- sehr komplexe Modelle darstellbar
Welches ist der meiste, in Schritt 4., genutzte statistische Test um einen erstellten Tree zu testen?
Wie funktioniert er?
Bootstrap:
Die kleine Zahl an den branches in Prozent, wie oft kam das Ergebnis raus wenn man Statistisch random Schritte wiederholt (ist es realistisch?)
Was sind die größten Probleme der Phylogenetischen Analyse?
Einige Genevents sind schwer einzubeziehen (unequal crossing over, Viren etc.)