Begriffe Flashcards

1
Q

Wilcox test

A

Vergleich zweier Stichproben unter Annahme der Nullhypothese; equivalent zu t-test aber für nicht normal-verteilte Daten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

t-test

A

Vergleich zweier Stichproben unter Annahme der Nullhypothese; geeignet nur für normal-verteilte Daten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

p-Wert

A

gibt die Wahrscheinlichkeit an, dass die Nullhypothese in einem Stichprobenergebnis oder einem extremeren wahr ist. Mit dem Schwellwert alpha= 0.05 als Signifikanzniveau (= “random”)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Systematischer Fehler

A

Entspricht einer Abweichung des Messwertes in seinem wahren Wert. Fehler dieser Art erzeugen eine Verschiebung zu einer Seite hin. Bedeutung in der Tendenz: stets zu hohe/zu niedrige Messwerte. (Bsp. : Thermometer)

  • -> lässt sich durch Normalisierung auslösen
  • -> im Bezug auf PWM: ???
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

stochastischer Fehler

A

“Zufallfehler” Messwerte trotz gleicher Bedingungen bei wiederholenden Messungen häufig unterschiedlich. Die Abweichungen der Messwerte werden von ihrem Mittelwert bezeichnet.
–> Normalisierung hilft nicht

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quantilnormalisierung

A

Quantilnormalization ist ein Technik, dass macht 2 Verteilungen identisch in ihren statistischen Eigenschaften. Verfahren: Quantilnormalisierung einer Testverteilung zu einer Referenzvereilung gleicher Länge, sortiert man beide Verteilungen. Der höchste Eintrag in der Testverteilung nimmt dann den Wert des höchsten Eintrags in der Referenzverteilung, der nächsthöheren Eintrag in der Referenzverteilung, und so weiter, bis der Test-Verteilung ist eine Störung der Referenzverteilung.
Bsp. :
Arrays 1 to 3, genes A to D

A 5 4 3
B 2 1 4
C 3 4 6
D 4 2 8

Für jede Spalte determiniert man ränge vom geringesten bis höchsten mit den Zahlen i-iv

A iv iii i
B i i ii
C ii iii iii
D iii ii iv

Diese Rangwerte werden erst später benutzt.
In der ersten Dataset, ordnen Sie es so um, dass die Werte jeder Spalte vom niedrigstenzu höchsten Wert gehen (1. Spalte hat 5,2,3,4. –> umgeordnet auf 2,3,4,5. 2. Spalte hat 4,1,4,2 wird zu –> 1,2,4,4, usw:

A 5 4 3 becomes A 2 1 3
B 2 1 4 becomes B 3 2 4
C 3 4 6 becomes C 4 4 6
D 4 2 8 becomes D 5 4 8

Berechnen des Mittelwertes für jede Zeile um den Rang zu wissen:

A (2 1 3)/3 = 2.00 = rank i
B (3 2 4)/3 = 3.00 = rank ii
C (4 4 6)/3 = 4.67 = rank iii
D (5 4 8)/3 = 5.67 = rank iv

Die Neue Dataset entspricht den normalisierten Werten mit der gleichen Verteilung

A 5.67 4.67 2.00
B 2.00 2.00 3.00
C 3.00 4.67 4.67
D 4.67 3.00 5.67

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hierarchisches Clustering

A

Als hierarchische Clusteranalyse (HC) bezeichnet man eine bestimmte Familie von distanzbasierten Verfahren zur Clusteranalyse. Cluster bestehen hierbei aus Objekten, die zueinander eine geringere Distanz (oder umgekehrt: höhere Ähnlichkeit) aufweisen als zu den Objekten anderer Cluster.
2 Typen von HC:
agglomerative- ‘bottom up’
divisive- ‘top down’

Man bekommt am ende ein Dendrogram (Stammbaum) der Cluster.

Je nach Distanzmethode bekommt man eine Distanzmatrix mit unterschiedlichen Werten:
Euklidische Dist. - Berücksichtigt Ähnlichkeit absoluter Werte :√ {Σ(Xi - Yi)^2}
Manhattan Dist. - ähnlich wie Euklidische Distanz, aber robuster gegen Ausreisser Σ|Xi - Yi|
Korrelationsdistanz- Berücksichtigt nicht die Absolutwerte (Ist eqivalent zu euklidischer Distanz nach z- Normalisierung)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Manhattan Distanz

A

Distanzmaße (u.a für Clusteranalyse), in der die Distanz d zwischen zwei Punkten x & y als die Summe der absoluten Differenzen ihrer Einzelkoordinaten definiert wird

Σ|Xi - Yi|

ähnlich wie Euklidische Distanz, aber robuster gegen Ausreißer

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Empirische Standardabweichung

A

die positive Wurzel aus der empirischen Varianz:

s = √{1/n Σ{Xi - Xmw}^2}

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Gene ontology

A

“Kontrolliertes Vokabular” in dem jedes Gen mit genau definierten Vokabeln beschrieben wird.
-> stehen in Bezug zueinander
3 Bereiche:
- Biologische Prozesse (BP)
- Molekulare Funktionen (MF)
- Zelluläre Komponente (CC)
–> GO stellt dann die Vokabeln und Beziehungen zwischen den Vokabeln für diese 3 Bereiche bereit, und hat verschiedene Verbindungen zw. den Begriffen (part of, is a..)
–> GO - Annotation um Aussage über Funktion von Gen zu treffen

–> für statistische Analyse Ch^2, Wilcoxon, Mann-Whitney-U test: Vergleich der GO-terms von Testgruppe (zB alle hochregulieten Gene) mit Referenzgruppe (zB alle exprimierten Gene)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Chi^2 test

A

Eine Gruppe von Hypothesentests mit Chi-Quadrat-verteilter Testprüfgröße.
Man unterscheidet vor allem die folgenden Tests:

  • Verteilungstest (auch Anpassungstest genannt): Hier wird geprüft, ob vorliegende Daten auf eine bestimmte Weise verteilt sind.
  • Unabhängigkeitstest: Hier wird geprüft, ob zwei Merkmale stochastisch unabhängig sind.
  • Homogenitätstest: Hier wird geprüft, ob zwei oder mehr Stichproben derselben Verteilung bzw. einer homogenen Grundgesamtheit entstammen.

Formel:
X^2 = Σ{m, i=1 {(N-n0j)^2/n0j}
mit n0j=p0j * n, und m= n - 1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Median

A

auch Zentralwert genannt – ein Mittelwert und Lageparameter. Der Median der Messwerte einer Urliste ist derjenige Messwert, der genau „in der Mitte“ steht, wenn man die Messwerte der Größe nach sortiert. Beispielsweise ist für die ungeordnete Urliste 4, 1, 37, 2, 1 der Messwert 2 der Median, der zentrale Wert in der geordneten Urliste 1, 1, 2, 4, 37.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Modalwert

A

Der häufigste Wert, der in der Stichprobe vorkommt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Boxplot

A

ein Diagramm, das zur grafischen Darstellung der Verteilung eines mindestens ordinalskalierten Merkmals verwendet wird. Es zeigt in welchem Bereich die Daten liegen und wie sie sich über diesen Bereich verteilen.
Die Werte werden über den Median, die 2 Quartile und die 2 Extremwerte zusammengefasst.
Aufbau: der Boxteil entspricht dem Bereich, in dem die mittleren 50% der Daten liegen (obere und untere Quartile) mit dem Median als strich in der Mitte der box.
Antennen (whisker) entsprechen den Extremwerten und liegen außerhalb dem Box.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Korrelationskoeffizient

A

Maß für den Grad des linearen Zusammenhangs zwischen zwei mindestens intervallskalierten Merkmalen. Werte können zw. +1 und -1 liegen, wobei ein +1 (bzw. -1) einem vollständigen positiven (bzw. negativen) Zusammenhang entspricht. (**Pearson kor..)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Regression

A

Analyseverfahren, die zum Ziel haben, Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen zu modellieren.
- Lineare Regression: Lineares Modell erklärt einen Teil der Varianz; yi = axi + b mit y als abhängige Var, x als unabhängige Var, a als Regressionskoeff. und b als Intercept.
-

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Varianz

A

Sigma^2 = 1/N-1 Σ{y(mw)-yi}^2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Multiples Testen

A

Wenn Sie einen Hypothesentest durchführen, besteht eine geringe Chance (normalerweise etwa 5%), dass Sie ein gefälschtes signifikantes Ergebnis erhalten. Wenn Sie Tausende von Tests durchführen, steigt die Anzahl der Falschpositive dramatisch an. Nehmen wir zum Beispiel an, Sie führen 10.000 separate Hypothesentests durch (was in Bereichen wie der Genomik üblich ist). Wenn Sie den Standard-Alpha-Level von 5% verwenden (was die Wahrscheinlichkeit ist, ein falsches Positiv zu erhalten), werden Sie etwa 500 signifikante Ergebnisse erhalten - die meisten davon sind Falschpositiv. Diese große Anzahl von Falschpositiven, die bei der Durchführung mehrerer Hypothesentests auftreten, wird als Multiple-Testing-Problem bezeichnet. (Oder mehrere Vergleiche Problem).
Korrekturmethoden: Bonferroni, BH, Holm

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Bonferroni

A

Ein Verfahren zur Korrektur des Fehlers beim multiplen Testen.
Sie besagt: Wenn man n unabhängige Hypothesen an einem Datensatz testet, ist die statistische Signifikanz, die für jede Hypothese getrennt benutzt werden soll, das 1/n - fache der Signifikanz, die sich beim Test nur einer Hypothese ergeben würde.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

False discovery rate (FDR)

A

Eine Methode zum Entwerfen die Rate Fehler I. Art beim NHST bei der Beherrschung von multiples Testen.
Grundlage: beim Testen multipler Hypothesen die Wahrscheinlichkeit einer Fehler 1. Art nimmt zu, –> eine Nullhypothese wird bei multiplen Tests trotz ihrer Richtigkeit hin und wieder zurückgewiesen – ein „Falsch-Alarm“ tritt auf. Aus diesem Grund muss bei der Signifikanzprüfung multipler Tests das Signifikanzniveau strenger und somit niedriger sein als bei einem einzelnen Hypothesentest. (–> BH verfahren: (i/m)*Q, mit i= rang des P-Wertes, m)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Zentraler Grenzwertsatz

A

Stichprobenverteilung der Mittelwerte sind asymptotisch normalverteilt, unabhängig von der Form der zugrunde liegenden Verteilung der Daten, vorausgesetzt die Daten sind unabhängig und identisch verteilt

22
Q

Falschpositiv und falschnegative

A

Falschpositiv- Fehler 1. Art, bei dem die H0 verworfen wird obwohl sie Wahr ist, da die Ergebnisse des Tests als signifikant erschienen (Der Patient ist gesund, aber der Test hat ihn fälschlicherweise als krank eingestuft)

Falschnegativ- Fehler 2. Art bei dem die H0 beibehalten wird obwohl sie Falsch ist, da die Ergebnisse als nicht signifikant angenommen werden. (Der Patient ist krank, aber der Test hat ihn fälschlicherweise als gesund eingestuft)

23
Q

Z-Transformation/Normalisierung

A

Methode der Standardisierung um unterschiedliche Variablen vergleichbar zu machen.
Dazu subtrahiert man von jedem Messwert den arithmetischen Mittelwert, teilt die resultierende Differenz durch die Standardabweichung und erhält dadurch die sog. z-Werte (z-scores).
Als Formel (mit x für den jeweiligen Messwert, μ für den arithmetischen Mittelwert und σ für die Standardabweichung): (x-u)/sigma

24
Q

Rangkorrelation

A
  • Die Rangkorrelation misst die Korrelation zw. einer abhängigen und einer unabhängigen Variablen
  • wie bei Pearson-Korrelation aber statt der einzelne Datenpunkten (xi und yi) nimmt man die Ränge der Datenpunkte (Einordnung vom niedrigsten bis zum höchsten)
  • Ränge in Formel zur Korrelationskoeffizient einsetzen
  • bei gleichen Daten wird der Durchschnittliche Rang genommen (z.B. 1,2,2,4 –>Ränge: 1, 2.5, 2.5, 4)
25
Q

Heatmap

A

Graphische Darstellung von zweidimensionalen Daten mit der Repräsentation der einzelnen Werte der Matrix als Farben. In einer großen Datenmenge dient die Heatmap intuitiv um schnell einen Überblick zu geben und besonders markante Werte leicht erkennbar zu machen.

Beispiel:
Geclusterte Gene haben gleiche Eigentschaften ( + Reaktion auf Gift / - Reaktion auf Gift)
-> überträgt man diese Information in Gene Ontology können Aussagen zur Funktion des Gens getroffen werden (welches Protein wird kodiert -> wie reagiert es auf Gift)

26
Q

PCM

A

Position count matrix; Eine matrix, die die Anzahl eines vorkommenden Motifs einer DAN/RNA/AS Sequenz. Die Spalten repräsentieren die Position in der Sequenz und die Zeilen die unterschiedliche Basen. In Zeile i und Spalte j wird die Anzahl der beobachteten Base (A,G,T,C) i und position j.
mit der PCM kann man einschätzen welche Base in einer Position j am wahrscheinlichsten vorkommt (je höher die Zahl desto wahrscheinlicher).
Aus der PCM kann man die Gewichtsmatrix (PWM) berechnen

27
Q

PWM

A

Position weight matrix; abgeleitet aus PCM durch Berechnung des “Gewichts” einer Base i in der Stelle j. Das Gewicht entspricht dann dem “Score der “Likelihood” der Base an der bestimmten Stelle.
Zur Berechnung der PWM nimmt man den log2 der beobachteten Anzahl (aus der PCM) geteilt durch die erwartete Anzahl der Base unter Annahme dass sie unabhängig voneinander sind. (log2(n-observed/n- expected))
wenn in der PCM eine 0 steht, muss man 1 für jede Base zu dem Nenner hinzufügen (+4) und 1 zu dem Zähler hinzufügen–> Pseudocount

28
Q

Sequenzlogo

A
  • Graphische Darstellung einer AS oder DNA/RNA Sequenz (multiple sequence alignment)
  • > jedes Logo besteht aus Stapeln von Symbolen (ein Stapel für jede Stelle)
  • > Höhe des Stapels = Sequenzkonservierung
  • > Höhe der Symbolen innerhalb des Stapels = relative Frequenz jeder Base an der entsprechenden Stelle
29
Q

Gene finding

A
  • Verfahren zur Identifizierung der Regionen genomischer DNA, die für Gene kodieren
  • Teil der “Annotation” ist das A-priori-Auffinden von Genen innerhalb einer Nukleotidsequenz anhand von:
  1. search bei signal:
    typische Muster wie Promotor, Start und Stopsignale, TF Bindestellen
  2. search by content:
    ORFs mit GC–Gehalt und codon usage characteristic codierenden Bereiche etc
  3. search by homology:
    Nutzen einer bekannten Sequenz eines anderen Organismus

Dazu werden im Rahmen der Bioinformatik verschiedene Rechenmethoden und Algorithmen verwendet, u.a statistische Sequenzanalyse, Markow-Ketten, künstliche neuronale Netze zur Mustererkennung.
Man benutzt die Information innerhalb der ORFs um besser zu annontieren.

30
Q

Shannon Entropy

A
  • Informationsgehalt einer Gewichtsmatrix
  • Σ{pi*log2(pi)}
  • wird log2 verwendet, dann lautet die Einheit der Shannon– Entropie “bit”
  • mittlere Zahl von Alternativfragen nach einem Ereignis bei optimaler Fragstellung
31
Q

Autokorrelation

A

beschreibt die Korrelation einer Funktion oder eines Signals mit sich selbst zu einem früheren Zeitpunkt.
Mit der Autokorrelation ist es möglich, Zusammenhänge zwischen den beobachteten Ergebnissen zu verschiedenen Beobachtungszeitpunkten einer Messreihe festzustellen.In der Statistik wird sie für stochastische Prozesse
X_{t} als normierte Form der Autokovarianz berechnet –> im Gegensatz zu Kovarianz, untersucht die Autokovarianz den Zusammenhang zw. Expressionen der gleichen Zufallsvariablen zu unterschiedliche Zeitpunkte, und nicht den Zusammenhang zw. 2 Zufallsvariablen.
Formel: mw{X(t) * X(t + τ)} - mw{X(t)} * mw{X(t + τ)}

32
Q

statistische Unabhängigkeit

A

Pi,j^(k) = Pi * Pj <=>I(K) = 0 ; I(K) ist die “Kullback information”–> I(K) = 2H1 - H2^(K) mit H1 = shannon entropy; K iat der Abstand zw. den Basen i & j

33
Q

Bayes Formel

A

Bedingte Wahrscheinlichkeit; beschreibt die Wahrscheinlichkeit von A mit der Bed. von B –>
P(A|B) = P(A,B)/P(B) –> mit P(A,B) =P(A) * P(B) unter Voraussetzung dass sir unabhängig sind

34
Q

Scatter plot

A

graphische Darstellung von beobachteten Wertepaaren zweier statistischer Merkmale –> Abhängigkeit der Merkmale

35
Q

RPKM, FPKM, TPM

A

Normierte Expressionsunits sind wichtig um “Biases” auszuschließen in sequenzierten Daten

  • > z.B “Depth of sequencing” (= je tiefer desto mehr Leseanzahl für Gene auf der gleichen ebene) und
  • > “Genlänge” (=Unterschiede in Genlänge generiert ungleiche Leseanzahl für Gene, die auf der gleichen Ebene expliziert sind –> je länger das Gen desto mehr Leseanzahl)
  • RPKM (Reads per kilo base per million mapped reads): geeignet für “single-end RNA”, in dem jedes “read” einem einzelnen Fragment entspricht, dass sequenziert wurde.
  • FPKM: (Fractions per Million):
    wie RPKM, außer dass es für “paired-end RNA” geeignet ist. In paired-end RNA können 2 reads einem einzelnen Fragment entsprechen (aber auch nur ein read kann manchmal einem Fragment entsprechen). Mit FPKM werden diese “broken pairs” (also 2 reads entsprechen einem fragment) nur einmal gezählt.
    –> beide RPKM und FPKM beachten die Länge des Sample
  • TPM (Transcript per million):
    sehr ähnlich zu RPKM/FPKM, allerdings wird die Länge des Gens zuerst normalisiert (vor der Normalisierung der “Sequencing depth”) –> einfacher die Proportion der zu einem Gen gemappten reads zw. Samplen zu vergleichen (“Genlänge” bias zu vermeiden). Im Gegensatz dazu kann bei RPKM/FPKM die Summe der norm. reads unterschiedlich sein (da unterschiedliche Länge) –> schwieriger Samplen zu vergleichen.
36
Q

Log-Fold-Change

A

Fold-Change:
Ratio zwischen zwei Größen
- zeigt quantitative Veränderung zwischen ursprünglichem und neuem Wert
- log-ratio zur Analyse des fold-change
- log a/b wird zu log a - b
-> z.B. bei Messungen zu unterschiedlichen Zeiten, da die durch das Verhältnis zwischen den Zeitpunkten beschriebene Änderung leichter zu interpretieren ist als die Differenz

37
Q

Signatur-Gene (gene ontology)

A

Gene, die

  • von einem Pathway reguliert werden
  • bei einer Krankheit reguliert werden
38
Q

Markov Modell

A
  • beschreibt Korrelationen/stochastische Prozesse basierend auf Übergangswahrscheinlichkeiten
  • Wahrscheinlichkeit eines Symbols hängt vom vorausgegangenen Symbol ab
  • Ansammlung definierter Zustände, die jeweils von einem bestimmten Stadium des Systems abhängen
  • Übergänge von einem Zustand in den nächsten = Übergangswahrscheinlichkeit genannt
  • gedächtnislos
39
Q

Hidden Markov Modell (HMM)

A
  • Algorithmus zur Erzeugung einer Sequenz
  • statistischen Übergangswahrscheinlichkeiten von jedem Zustand eines Elements zu jedem Zustand des Folgeelements
  • Unterschied zu Markov-Kette: kein
    Eins–zu–eins–Zusammenhang zwischen den Zuständen und den Symbolen
  • Übergangswahrscheinlichkeiten erhält man durch
    Sequenzvergleiche mit Sequenzen, die eine gewünschte Eigenschaft besitzen
  • Damit lässt sich quantifizieren, wie wahrscheinlich es ist, dass eine neue beobachtete Sequenz durch das Modell erzeugt wurde
  • Ist die Wahrscheinlichkeit hoch, wird impliziert, dass die beobachtete Sequenz ähnliche Eigenschaften besitzt wie die Gruppe der Sequenzen, mit denen man das Modell
    konstruiert hat
40
Q

position asymmetry

A
  • Quantifizierung des Codierungspotenitals
  • misst Abweichung von einer Homogenität
  • Positionen der Nukleotide assymetrisch verteilt
41
Q

Gründe für position asymmetry

nonuniform codon usage

A
  1. AS - Frequenzen unterschiedlich
  2. non uniform codon usage (t-RNA availability)
  3. Wobble-Position
  4. STOP-Codons
42
Q

Unterschied t-Verteilung und Normalverteilung

A

Graph t-Verteilung: etwas tiefer in der Mitte, dafür breiter

43
Q

Principal Component Analysis (PCA)

A

umfangreiche Datensätze strukturieren, vereinfachen und veranschaulichen
-> Vielzahl statistischer Variablen durch eine geringere Zahl möglichst aussagekräftiger Linearkombinationen (die „Hauptkomponenten“) nähern

  • > Hauptachse (PC1, x-Achse) zeigt in welche Richtung Varianz maximal ist
  • > PC2 liefert information über was ist Varianz in Richtung der Achsen
  • > Loading Matrix: (Drehmatrix) die Koeffizienten der PCs werden in dieser Matrix gespeichert. das ist Die Rotation der Daten bis die Varianz max. ist und Kovarianz min. ist.
  • > t-SNE: auch Dimensionsreduktion, eher single-cell-RNA-Seq, veränder Daten
44
Q

Principal Component Analysis (PCA)

A

umfangreiche Datensätze strukturieren, vereinfachen und veranschaulichen
-> Vielzahl statistischer Variablen durch eine geringere Zahl möglichst aussagekräftiger Linearkombinationen (die „Hauptkomponenten“) nähern

45
Q

Average Mutual Information (AMI)

A

= gepaarte Wahrscheinlichkeit in der Distanz k

  • mutual information gibt an, ob Nukleotide im Abstand k statistisch unabhängig sind
  • ist sie gleich 0, sind Paare statistisch unabhängig
46
Q

Phylogenie

A
  • Rekonstruktion der evolutionären Beziehungen
  • Suche nach gemeinsamen oder unterschiedlichen Merkmalen
  • > Selektionsdruck?
  • > Zeitpunkt evolutionärer Ereignisse?
  • > Auswirkungen der Geographie auf die Artenvielfalt?
47
Q

Monophyletische Gruppe (Clade)

A

Gruppe von Taxa, die “neuere” gemeinsame Vorfahren miteinander teilen als mit anderen Taxa.

48
Q

Methoden um “besten” Stammbaum zu finden

A
  • Distanzmatrixverfahren (vorberechnete Abstände)
  • Maximum parsimony (1971)
    Minimiert die Anzahl der Mutationsschritte
  • Maximum likelihood, ML
    Bewertet die statistische Wahrscheinlichkeit alternativer Bäume, basierend auf einem expliziten Modell der Substitution (mit Markov-Modellen, channel-time-reverse-matrix)
  • Bayes’sche Methoden
    Wie ML, kann aber Vorkenntnisse integrieren.
49
Q

CG surpression

A

niedrigere Häufigkeit von CpG-Dinukleotiden

  • > ungeschütztes C wird zu T bei Replikation -> Gegenstrang mit A
  • > häufiger in Säugetieren da dort mehr repeats etc
50
Q

Coding measure

A

Es gibt eine Korrelation zw. den Codierungspotential und die Wahrscheinlichkeit, dass es sich bei einer bestimmten DNA Region um eine Protein-codierende Sequenz handelt. –> Coding measure ist das Basis für viele Genidentifikationsprogramme, um ORFs zu lokalisieren

51
Q

coding measure

A

Maß zur Bestimmung der Wahrscheinlichkeit, dass ORF wirlich eine coding sequence ist