Begriffe Flashcards
Wilcox test
Vergleich zweier Stichproben unter Annahme der Nullhypothese; equivalent zu t-test aber für nicht normal-verteilte Daten.
t-test
Vergleich zweier Stichproben unter Annahme der Nullhypothese; geeignet nur für normal-verteilte Daten.
p-Wert
gibt die Wahrscheinlichkeit an, dass die Nullhypothese in einem Stichprobenergebnis oder einem extremeren wahr ist. Mit dem Schwellwert alpha= 0.05 als Signifikanzniveau (= “random”)
Systematischer Fehler
Entspricht einer Abweichung des Messwertes in seinem wahren Wert. Fehler dieser Art erzeugen eine Verschiebung zu einer Seite hin. Bedeutung in der Tendenz: stets zu hohe/zu niedrige Messwerte. (Bsp. : Thermometer)
- -> lässt sich durch Normalisierung auslösen
- -> im Bezug auf PWM: ???
stochastischer Fehler
“Zufallfehler” Messwerte trotz gleicher Bedingungen bei wiederholenden Messungen häufig unterschiedlich. Die Abweichungen der Messwerte werden von ihrem Mittelwert bezeichnet.
–> Normalisierung hilft nicht
Quantilnormalisierung
Quantilnormalization ist ein Technik, dass macht 2 Verteilungen identisch in ihren statistischen Eigenschaften. Verfahren: Quantilnormalisierung einer Testverteilung zu einer Referenzvereilung gleicher Länge, sortiert man beide Verteilungen. Der höchste Eintrag in der Testverteilung nimmt dann den Wert des höchsten Eintrags in der Referenzverteilung, der nächsthöheren Eintrag in der Referenzverteilung, und so weiter, bis der Test-Verteilung ist eine Störung der Referenzverteilung.
Bsp. :
Arrays 1 to 3, genes A to D
A 5 4 3
B 2 1 4
C 3 4 6
D 4 2 8
Für jede Spalte determiniert man ränge vom geringesten bis höchsten mit den Zahlen i-iv
A iv iii i
B i i ii
C ii iii iii
D iii ii iv
Diese Rangwerte werden erst später benutzt.
In der ersten Dataset, ordnen Sie es so um, dass die Werte jeder Spalte vom niedrigstenzu höchsten Wert gehen (1. Spalte hat 5,2,3,4. –> umgeordnet auf 2,3,4,5. 2. Spalte hat 4,1,4,2 wird zu –> 1,2,4,4, usw:
A 5 4 3 becomes A 2 1 3
B 2 1 4 becomes B 3 2 4
C 3 4 6 becomes C 4 4 6
D 4 2 8 becomes D 5 4 8
Berechnen des Mittelwertes für jede Zeile um den Rang zu wissen:
A (2 1 3)/3 = 2.00 = rank i
B (3 2 4)/3 = 3.00 = rank ii
C (4 4 6)/3 = 4.67 = rank iii
D (5 4 8)/3 = 5.67 = rank iv
Die Neue Dataset entspricht den normalisierten Werten mit der gleichen Verteilung
A 5.67 4.67 2.00
B 2.00 2.00 3.00
C 3.00 4.67 4.67
D 4.67 3.00 5.67
Hierarchisches Clustering
Als hierarchische Clusteranalyse (HC) bezeichnet man eine bestimmte Familie von distanzbasierten Verfahren zur Clusteranalyse. Cluster bestehen hierbei aus Objekten, die zueinander eine geringere Distanz (oder umgekehrt: höhere Ähnlichkeit) aufweisen als zu den Objekten anderer Cluster.
2 Typen von HC:
agglomerative- ‘bottom up’
divisive- ‘top down’
Man bekommt am ende ein Dendrogram (Stammbaum) der Cluster.
Je nach Distanzmethode bekommt man eine Distanzmatrix mit unterschiedlichen Werten:
Euklidische Dist. - Berücksichtigt Ähnlichkeit absoluter Werte :√ {Σ(Xi - Yi)^2}
Manhattan Dist. - ähnlich wie Euklidische Distanz, aber robuster gegen Ausreisser Σ|Xi - Yi|
Korrelationsdistanz- Berücksichtigt nicht die Absolutwerte (Ist eqivalent zu euklidischer Distanz nach z- Normalisierung)
Manhattan Distanz
Distanzmaße (u.a für Clusteranalyse), in der die Distanz d zwischen zwei Punkten x & y als die Summe der absoluten Differenzen ihrer Einzelkoordinaten definiert wird
Σ|Xi - Yi|
ähnlich wie Euklidische Distanz, aber robuster gegen Ausreißer
Empirische Standardabweichung
die positive Wurzel aus der empirischen Varianz:
s = √{1/n Σ{Xi - Xmw}^2}
Gene ontology
“Kontrolliertes Vokabular” in dem jedes Gen mit genau definierten Vokabeln beschrieben wird.
-> stehen in Bezug zueinander
3 Bereiche:
- Biologische Prozesse (BP)
- Molekulare Funktionen (MF)
- Zelluläre Komponente (CC)
–> GO stellt dann die Vokabeln und Beziehungen zwischen den Vokabeln für diese 3 Bereiche bereit, und hat verschiedene Verbindungen zw. den Begriffen (part of, is a..)
–> GO - Annotation um Aussage über Funktion von Gen zu treffen
–> für statistische Analyse Ch^2, Wilcoxon, Mann-Whitney-U test: Vergleich der GO-terms von Testgruppe (zB alle hochregulieten Gene) mit Referenzgruppe (zB alle exprimierten Gene)
Chi^2 test
Eine Gruppe von Hypothesentests mit Chi-Quadrat-verteilter Testprüfgröße.
Man unterscheidet vor allem die folgenden Tests:
- Verteilungstest (auch Anpassungstest genannt): Hier wird geprüft, ob vorliegende Daten auf eine bestimmte Weise verteilt sind.
- Unabhängigkeitstest: Hier wird geprüft, ob zwei Merkmale stochastisch unabhängig sind.
- Homogenitätstest: Hier wird geprüft, ob zwei oder mehr Stichproben derselben Verteilung bzw. einer homogenen Grundgesamtheit entstammen.
Formel:
X^2 = Σ{m, i=1 {(N-n0j)^2/n0j}
mit n0j=p0j * n, und m= n - 1
Median
auch Zentralwert genannt – ein Mittelwert und Lageparameter. Der Median der Messwerte einer Urliste ist derjenige Messwert, der genau „in der Mitte“ steht, wenn man die Messwerte der Größe nach sortiert. Beispielsweise ist für die ungeordnete Urliste 4, 1, 37, 2, 1 der Messwert 2 der Median, der zentrale Wert in der geordneten Urliste 1, 1, 2, 4, 37.
Modalwert
Der häufigste Wert, der in der Stichprobe vorkommt
Boxplot
ein Diagramm, das zur grafischen Darstellung der Verteilung eines mindestens ordinalskalierten Merkmals verwendet wird. Es zeigt in welchem Bereich die Daten liegen und wie sie sich über diesen Bereich verteilen.
Die Werte werden über den Median, die 2 Quartile und die 2 Extremwerte zusammengefasst.
Aufbau: der Boxteil entspricht dem Bereich, in dem die mittleren 50% der Daten liegen (obere und untere Quartile) mit dem Median als strich in der Mitte der box.
Antennen (whisker) entsprechen den Extremwerten und liegen außerhalb dem Box.
Korrelationskoeffizient
Maß für den Grad des linearen Zusammenhangs zwischen zwei mindestens intervallskalierten Merkmalen. Werte können zw. +1 und -1 liegen, wobei ein +1 (bzw. -1) einem vollständigen positiven (bzw. negativen) Zusammenhang entspricht. (**Pearson kor..)
Regression
Analyseverfahren, die zum Ziel haben, Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen zu modellieren.
- Lineare Regression: Lineares Modell erklärt einen Teil der Varianz; yi = axi + b mit y als abhängige Var, x als unabhängige Var, a als Regressionskoeff. und b als Intercept.
-
Varianz
Sigma^2 = 1/N-1 Σ{y(mw)-yi}^2
Multiples Testen
Wenn Sie einen Hypothesentest durchführen, besteht eine geringe Chance (normalerweise etwa 5%), dass Sie ein gefälschtes signifikantes Ergebnis erhalten. Wenn Sie Tausende von Tests durchführen, steigt die Anzahl der Falschpositive dramatisch an. Nehmen wir zum Beispiel an, Sie führen 10.000 separate Hypothesentests durch (was in Bereichen wie der Genomik üblich ist). Wenn Sie den Standard-Alpha-Level von 5% verwenden (was die Wahrscheinlichkeit ist, ein falsches Positiv zu erhalten), werden Sie etwa 500 signifikante Ergebnisse erhalten - die meisten davon sind Falschpositiv. Diese große Anzahl von Falschpositiven, die bei der Durchführung mehrerer Hypothesentests auftreten, wird als Multiple-Testing-Problem bezeichnet. (Oder mehrere Vergleiche Problem).
Korrekturmethoden: Bonferroni, BH, Holm
Bonferroni
Ein Verfahren zur Korrektur des Fehlers beim multiplen Testen.
Sie besagt: Wenn man n unabhängige Hypothesen an einem Datensatz testet, ist die statistische Signifikanz, die für jede Hypothese getrennt benutzt werden soll, das 1/n - fache der Signifikanz, die sich beim Test nur einer Hypothese ergeben würde.
False discovery rate (FDR)
Eine Methode zum Entwerfen die Rate Fehler I. Art beim NHST bei der Beherrschung von multiples Testen.
Grundlage: beim Testen multipler Hypothesen die Wahrscheinlichkeit einer Fehler 1. Art nimmt zu, –> eine Nullhypothese wird bei multiplen Tests trotz ihrer Richtigkeit hin und wieder zurückgewiesen – ein „Falsch-Alarm“ tritt auf. Aus diesem Grund muss bei der Signifikanzprüfung multipler Tests das Signifikanzniveau strenger und somit niedriger sein als bei einem einzelnen Hypothesentest. (–> BH verfahren: (i/m)*Q, mit i= rang des P-Wertes, m)