Algorithmen zur Erkennung von Varianten des Genoms Flashcards

1
Q

Welche Typen von Sequenzvarianten sind im
medizinischen Kontext relevant?

A

Kleine Varianten des humanen Genoms (≤ 50
bp): Diese beinhalten einzelne Basenaustausche (Single
Nucleotide Polymorphisms, SNP) sowie kleine
Insertionen und Deletionen (Indels).
* Medizinische Relevanz: Solche Varianten sind in
der Diagnostik (z.B. genetische Prädisposition oder
erblich bedingte Erkrankungen) und Populationsgenetik
(z.B. genomweite Assoziationsstudien) wichtig.
* Transitionen und Transversionen: Transversionen
verursachen häufiger eine Veränderung der
Aminosäuresequenz als Transitionen und können daher
in bestimmten Kontexten besonders relevant sein.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Welche Algorithmen werden verwendet, um solche
Varianten in alignierten NGS-Daten zu identifizieren?

A

GATK HaplotypeCaller: Dieser Algorithmus führt
eine mehrstufige Analyse möglicher Haplotypen durch,
inklusive Identifikation aktiver Regionen, Assemblierung
plausibler Haplotypen und Bestimmung der Anzahl
unterstützender Reads für jeden möglichen Haplotyp.
* KI-gestützte Variantenanalyse mit DeepVariant:
Ein Verfahren, das mehrschichtige neuronale Netze nutzt,
um Varianten mit hoher Sensitivität und Spezifität zu
identifizieren. Training erfolgt auf annotierten
Eingangsdaten wie den „Genome In A Bottle“-
Referenzdaten.
* Lokales Realignment in Regionen mit
Insertionen oder Deletionen: Dies behebt Fehler, indem
es ein erneutes Alignment gegen eine angepasste
Referenzsequenz der unmittelbaren Umgebung
durchführt.
* Methoden zur Indel-Erkennung: Die Betrachtung
des Alignment-Abstandes der beiden Fragmentenden
kann größere Insertionen und Deletionen sichtbar
machen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was sind die Stärken und Schwächen dieser
Methoden?

A

GATK HaplotypeCaller:
* Stärken: Gut etabliert, weit verbreitet in der
Gemeinschaft.
* Schwächen: Kann bei bestimmten Indels
schwieriger sein, in Vergleich zu einigen KIMethoden.
* DeepVariant:
* Stärken: Bessere oder gleiche Recall- und
Präzisionsrate als GATK, besonders bei Indels.
Unabhängigkeit von technologie-spezifischen
Fehlermodellen.
* Schwächen: Könnte datenintensiver sein und
erfordert spezialisierte Trainingsdaten.
* Allgemeine Anforderungen an Algorithmen:
* Stärken: Kontrolle der Fehlerquellen,
Minimierung der Falschpositiv-Rate (FPR), ohne die
Falschnegativ-Rate (FNR) zu erhöhen.
* Schwächen: Fehlerquellen wie PCR-Artefakte,
Sequenzierfehler, geringe Sequenziertiefe,
Misalignments können die Qualität der Analyse
beeinträchtigen.
Die angegebenen Algorithmen und Methoden nutzen auch
technische Merkmale wie Sequenziertiefe, Variant Allele Frequency,
Genotyp-Qualität, Strang-Ungleichgewicht, Variant Score
Recalibration sowie Phred-skalierte Qualitätsmaße und MappingQualität, um Varianten zu erkennen und deren Qualität zu
bewerten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist deskriptive Statistik und was ist induktive
Statistik?

A

Deskriptive Statistik: Die deskriptive Statistik
beschreibt, ordnet und quantifiziert Daten. Sie fasst die
wichtigsten Eigenschaften eines Datensatzes zusammen,
meistens durch Kennzahlen wie Mittelwert, Median,
Modus, Standardabweichung usw. Sie stellt die Daten in
graphischer oder tabellarischer Form dar, ermöglicht aber
keine allgemeinen Schlussfolgerungen über die
zugrundeliegende Population.
* Induktive Statistik (oder Inferenzstatistik): Im
Gegensatz zur deskriptiven Statistik zieht die induktive
Statistik Schlussfolgerungen über eine Population
basierend auf Stichproben aus dieser Population. Sie
verwendet Wahrscheinlichkeitstheorie, um Unsicherheit in
Schlussfolgerungen zu quantifizieren, und ermöglicht
Hypothesentests, Vertrauensintervalle und Vorhersagen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Welche statistischen Methoden sind für
biomedizinische Fragestellungen geeignet?

A

Deskriptive Statistiken: Für eine erste Analyse von
Daten, wie Durchschnittswerte, Verteilungen und Trends.
* T-Test: Zum Vergleich von Mittelwerten zwischen
zwei Gruppen.
* ANOVA: Zum Vergleich von Mittelwerten über mehr
als zwei Gruppen.
* Regression: Zum Modellieren von
Zusammenhängen zwischen abhängigen und
unabhängigen Variablen.
* Überlebensanalyse: Zur Analyse der Zeit bis zum
Eintreten eines bestimmten Ereignisses.
* Chi-Quadrat-Test: Zum Testen von
Unabhängigkeiten in kategorialen Daten.
* Nichtparametrische Methoden: Wenn die Daten
nicht normalverteilt sind.
* Meta-Analyse: Zur Zusammenfassung der
Ergebnisse aus mehreren unabhängigen Studien.
* Wie kann man diese Methoden praktisch anwenden?
* Daten Sammeln und Vorbereiten: Zu Beginn muss
man die relevanten Daten sammeln, bereinigen und
vorbereiten.
* Fragestellung Definieren: Die spezifische
Hypothese oder Fragestellung muss klar definiert sein.
* Wählen der Passenden Methode: Abhängig von
der Fragestellung und den Daten muss die geeignete
statistische Methode ausgewählt werden.
* Durchführung der Analyse: Die Analyse kann mit
statistischer Software wie R, SPSS, SAS oder Python
durchgeführt werden. Dabei ist es wichtig, alle
erforderlichen Annahmen zu prüfen und zu erfüllen.
* Interpretation der Ergebnisse: Die Resultate
müssen im Kontext der biomedizinischen Fragestellung
interpretiert und, falls erforderlich, mit Fachleuten
diskutiert werden.
* Berichterstattung und Visualisierung: Die
Ergebnisse sollten klar und verständlich berichtet und,
wenn möglich, durch Graphiken visualisiert werden.
In der biomedizinischen Forschung ist es entscheidend, diese
Methoden sorgfältig und ethisch anzuwenden, da die Ergebnisse
weitreichende Folgen für die Gesundheitsfürsorge und -politik haben können. Oftmals wird auch die Zusammenarbeit mit
Statistikern oder Datenanalytikern empfohlen, um sicherzustellen,
dass die Analysemethoden korrekt angewendet werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly