Algorithmen fuer short read alignments Flashcards
Welche Algorithmen werden verwendet, um
humane Genom-Sequenzen mit dem humanen
Referenzgenom abzugleichen?
Es wird der Algorithmus bwa-mem für Shortread-Alignments
verwendet, welcher sich auf die Burrows-Wheeler-Transformation
von DNA-Sequenzen stützt. Diese Transformation verkleinert den
Suchraum bei jedem Schritt, wodurch das Alignment effizienter
wird.
Was sind die Stärken und Schwächen dieser
Methoden?
Stärken:
* Effizienz: Die Burrows-Wheeler-Transformation
verkleinert den Suchraum und ermöglicht eine effizientere
Abstimmung.
* GATK Best Practices: Die Verwendung von bwamem ist Teil der Best Practices für die
Grundprozessierung von NGS-Daten, was bedeutet, dass
es eine gut etablierte und weithin akzeptierte Methode ist.
* Schwächen:
* Multi-Reads: Diese Sequenzen, mit 2 oder mehr
Treffern im Genom, erfordern besondere Beachtung. Die
Behandlung von Multi-Reads (Verwerfen, Auswahl des
bestmöglichen Treffers oder Beibehaltung aller Treffer)
hat jeweils eigene Nachteile, wie potenzielle Fehler oder
erhöhten manuellen Aufwand.
* Alignment-Artefakte: Fehler im Alignment können
sich in die Variantendetektion fortsetzen, wie z. B. falsch
positive SNVs und falsch negative Deletionen.
Was muss man beachten, um ein hochqualitatives
Genom-Alignment zu erstellen?
Qualitätsbewertung: Die Qualitätsmerkmale müssen
sorgfältig bewertet werden, einschließlich des prozentualen
Anteils der alignierten Reads an der Gesamtzahl der Reads
und des prozentualen Anteils der korrekten Alignments an der
Gesamtzahl der Alignments.
* Simulation mit realistischen Daten: Eigenschaften von
Daten aus tatsächlichen Messungen sollten realistisch
abgebildet werden.
* Behandlung von Multi-Reads: Entscheidungen im Umgang
mit Multi-Reads sollten sorgfältig getroffen werden, um Fehler
zu minimieren.
* Phred-skalierte Qualitätsmaße: Die Mapping-Qualität muss
sorgfältig berücksichtigt werden.
* Lokales Realignment in Regionen mit Indels: Um Fehler in
Regionen mit Insertionen und Deletionen zu beseitigen, kann
ein erneutes Alignment gegen eine angepasste
Referenzsequenz der unmittelbaren Umgebung durchgeführt
werden.
* Rekalibrierung von Basenqualitäts-Scores (BQSR): Fehler
in den Basenqualitäts-Scores sollten durch Machine Learning
unter Berücksichtigung verschiedener Kovariablen korrigiert
werden.
Durch die Kombination dieser Praktiken und Überlegungen kann
ein hochqualitatives Genom-Alignment erreicht werden.