Beispielaufgaben - Teil 2 Bioinformatik Flashcards
Graphen und Genomassemblierung
Assemble the genome from the following reads:
AAT, ATC, CGC, CGC, CTT, GCT, GCG, GTA, TAA, TCG, TGT, TTG
a) build the de bruijn graph
b ) find a eulerian path (or cycle…?)
(beispielaufgaben WiSe 18/19)
AATCGCGCTTGT
Analyse von Massenspektren / Peptidsequenzierung
Find the linear peptide from the following theoretical spectrum:
0, 71, 97, 97, 101, 156, 168, 198, 227, 253, 324, 324, 354, 421, 425, 522
G A S P V T C I/L N D K/Q E M H F R Y W 57 71 87 97 99 101 103 113 114 114 128 129 131 137 147 156 163 186
(beispielaufgaben WiSe 18/19)
PARPT / TPRAP
Alignment
Compute the local/global alignment
ACGCCCTTT
ACTCATCACATTA
Using match = 2; mismatch = -1; gap = -2
(beispielaufgaben WiSe 18/19)
global:
ACTCATCACATTA
ACGC - -C -C -TTT
or
ACTCATCACATTA
ACGC - -C -CTTT-
local:
CACATT
CCCTTT
**
Maschinelles Learning
Build a classification tree for the following task
Artist type speed language like charts Arcade Fire indie slow English no yes Wanda “schlager” fast German yes no Frank Ocean r&b slow English yes yes Helene Fischer schlager slow German yes yes Kelela r&b fast English no no
Will the following song place on the charts?
Wanda/fast/English
(beispielaufgaben WiSe 18/19)
speed? / \ s f / \ yes no
Wanda/fast/English: no
1. Alignment (12 Punkte)
Gegeben sind die beiden Proteinsequenzen:
ARMER
HASE
a) Füllen Sie die Dynamische-Programmier-Matrix für ein Globales Alignment aus.
b) Schreiben Sie das/ein optimales Alignment auf. Parameter für das Alignment sind: gap: -1; match: 1; mismatch: -1
(Klausur_2018_Test = Klausuraufgaben Vorlesungsteil 2018)
A R M E R 0 -1 -2 -3 -4 -5 H -1 -1 -2 -3 -4 -5 A -2 0 -1 -2 -3 -4 S -3 -1 -1 -2 -3 -4 E -4 -2 -2 -2 -1 -2
Optimal alignments:
- A R M E R
H A S - E - - A R M E R
H A - S E -
2: Analyse von Massenspektren (8 Punkte)
a) Sie analysieren ein lineares Peptids der Länge 5 mit dem Massenspektrometer. Wie viele Massen/Sub-peptide erwarten Sie im theoretischen Spektrum (inklusive der 0-Masse und der Masse des Peptids)? Bitte eine kurze Begründung.
b) Geben Sie 2 mögliche Gründe an, warum das experimentelle Spektrum anders sein kann als das theoretisch erwartete Spektrum.
(Klausur_2018_Test = Klausuraufgaben Vorlesungsteil 2018)
a)
folgende Sub-Peptide
- 1 x 5 AS
- 2 x 4 AS
- 3 x 3 AS
- 4 x 2 AS
- 5 x 1 AS
- 1 x 0 AS
= 16 Massen
b)
**Posttranslationale Modifikationen: **
zB Phosphorylierungen, Glykosylierungen, Acetylierungen –> andere Peptidmasse –> Peaks, die nicht im theoretischen Spektrum erwartet werden.
**Ionization efficiency: **
The ionization process in mass spectrometry may not be 100% efficient for all peptides, leading to variations in signal intensities. Some peptides may ionize less efficiently, resulting in lower intensity peaks or no detection at all in the experimental spectrum.
Fragmentierung:
fehlende Spaltung (missing cleavage site)
b-, y- and their derivative ions from peptides
Isotopic variations:
Isotopes of elements, such as carbon, nitrogen, and hydrogen, can affect the peptide’s mass. While theoretical spectra typically consider average atomic masses, experimental spectra may show slight deviations due to the presence of specific isotopes, especially if the instrument used has high resolution capabilities.
Contaminants or impurities:
The experimental spectrum may contain signals from contaminants or impurities present in the sample. These can arise from various sources, including the sample preparation process or contamination within the mass spectrometer.
Sample degradation or chemical instability:
Peptides can undergo degradation or chemical changes during sample preparation, storage, or ionization in the mass spectrometer. These alterations can lead to the detection of unexpected fragments or modifications in the experimental spectrum.
Instrument limitations:
Mass spectrometers have certain limitations in terms of sensitivity, resolution, and mass accuracy. These limitations can result in imperfect detection and representation of the peptide masses, leading to differences between the experimental and theoretical spectra.
3. Graphen (7 Punkte)
Gegeben ist folgender Graph:
file:///C:/Users/stevi/BXY50%20Bioinformatik/Klausur%20Beispiele/DONE_Klausur_18_Test.pdf
a) Geben sie die Adjazenzmatrix an.
b) Ist der Graph ein Euler’scher Graph? Bitte begründen
(Klausur_2018_Test = Klausuraufgaben Vorlesungsteil 2018)
a)
IN:
1 2 3 4 5 6
1 0 0 1 0 0 0
2 0 0 1 1 0 0
OUT: 3 0 0 0 1 1 0
4 1 0 0 0 1 0
5 0 1 0 0 0 1
6 0 1 0 0 0 0
a) Ja, weil jede Knotenpunkt die gleiche Anzahl von Eingaenge wie Anzahl von Ausgaenge hat
4: deBruijn-Graph(10 Punkte)
Gegeben sind die folgenden lexikographisch geordneten 4-meren:
AGAT, ATTA, CCTA, CTAG, GATT, TAGA, TCCT, TTAA
a) Konstruieren Sie den deBruijn_3-Graph
b) Geben sie den Eulerischen Pfad in dem Graphen an.
(Klausur_2018_Test = Klausuraufgaben Vorlesungsteil 2018)
b) TCCTAGATTAA
1: Motifsuche (15 Punkte)
a) Gegeben sind die folgenden DNA-Sequenzen:
- T G T A A
- T C T A A
- T C T A T
- G C T A C
- T C T A A
- G T T A A
- G C A A A
- G A T A G
- C C A T A
- T C T A T
a) Schreiben Sie die Profilmatrix (7 Punkte) und die Konsensus-Sequenz (2 Punkte) dieser Sequenzen auf!
b) Unter Verwendung dieser Matrix – ist Sequenz 8 oder 10 warscheinlicher? (3 Punkte)
c) Welche Position hat die höhere (Shannon) Entropie, Position 1 oder 4? (Positionen fangen mit der Zahl 1 an.) Wann ist die Entropie am höchsten? (3 Punkte)
Klausur 2019
a)
~~~
1 2 3 4 5
A 0.0 0.1 0.2 0.9 0.6
C 0.1 0.7 0.0 0.0 0.1
G 0.4 0.1 0.0 0.0 0.1
T 0.5 0.1 0.8 0.1 0.2
~~~
(Alternativ: Anzahl oder Prozente) Konsensus: TCTAA
b)
P(s8|matrix) = 0.4 * 0.1 * 0.8 * 09 * 0.1
P(s10|matrix) = 0.5 * 0.7 * 0.8 * 0.9 * 0.2
S10 ist wahrscheinlicher, da alle Nukleotid-Wahrscheinlichkeiten gleich gross oder grosser als die für s8 sind. (1Pkt wenn statt * genommen wird)
c)
Position 1 hat die hoehere Entropie, da die Eintraege naeher an einer Gleichverteilung sind (alternativ: mehrere Eintraege fast gleich wahrscheinlich sind). Die Entropie ist für eine Gleichverteilung am hoechsten.
ra
2: Alignment (15 Punkte)
Gegeben sind die beiden DNA-Sequenzen:
TGTGTA
TTCTA
und die folgenden Parameter:
match: 1
mismatch: 0 für A-T und G-C
-1 für alle anderen Mismatches
gap: -2
a) Schreiben Sie die Dynamische-Programmier-Matrix für ein Globales Alignment auf. (7 Punkte) Erklären Sie zusätzlich schriftlich am Beispiel von zwei Zellen (einer Zelle mit einem Match und einer Zelle mit einem Mismatch), wie Sie vorgehen, um den Wert der Zelle bestimmen! (4 Punkte)
b) Schreiben Sie das/ein optimales Alignment auf. (4 Punkte)
Klausur 2019
a)
~~~
T G T G T A
0 -2 -4 -6 -8 -10 -12
T -2 1 -1 -3 -5 -7 -9
T -4 -1 0 0 -2 -4 -6
C -6 -3 -1 -1 0 -2 -4
T -8 -5 -3 0 -2 1 -1
A -10 -7 -5 -2 -1 -1 2
~~~
TGTGTA
T-TCTA
3: Graphen (3 Punkte)
Beschreibt die folgende Adjazenzmatrix eines gerichteten Graphen einen Euler’schen Graph? Bitte begründen.
Node1 Node2 Node3 Node4 Node1 0 1 1 0 Node2 0 0 1 1 Node3 0 0 0 1 Node4 0 0 0 0
Klausur 2019
Antwort: Nein, da in-degree (#Eingabekanten) != out-degree (#Ausgabekanten) fuer mindestens einen (hier: alle) Knoten
(alternativ: In der Matrix ist die Anzahl 1 nicht dieselbe fuer die Zeilen/Spaltenpaare eines jeden Knoten)
4: Maschinelles Lernen/Künstliche Neuronale Netze (6 Punkte)
Was ist ein Perzeptron? (2 Punkte)
Wie sind Perzeptronen in einem Mehrschicht-Perzeptron miteinander verschaltet? (2 Punkte)
Was wird durch die Verwendung mehrerer Schichten ermöglicht? (2 Punkte)
Klausur 2019
The perceptron
* First machine learning algorithm, built as analog hardware in 1959 (weight updates with motors!)
* Defined as a “neuron”/compute node that takes a linear combination of inputs and passes it through an “activation function”
– Originally: threshold/ step function
– Sigmoid as activation function: perceptron == logistic regression!
– These days: tanh (differentiable) or “rectified linear” reLU
Multi-layer perceptrons (MLP)
- To define non-linear classification functions, one can combine nodes to a network
- most popular classic: the MLP (or, feed forward network)
- consists of 2+ layers of weights, where nodes from the current layer are strictly connected to the next one
this leads to an effective learning algorithm
for 2-class classification, the final layer consists of a single node with the sigmoid/tanh activation function, to scale values to (0,1) or (-1,1)
- tanh(a) = (e^a - e^-a) / (e^a + e^-a)
5: Analyse von Massenspektren (15 Punkte)
Bestimmen Sie die Sequenz des linearen Peptides mit dem folgenden theoretischen Spektrum (geben Sie die Zwischenschritte an):
57 87 97 101 144 184 198 241 285 342
Benutzen Sie dabei die folgenden Aminosäuremassen:
G A S P V T C I/L N D K/Q E M H F R Y W 57 71 87 97 99 101 103 113 114 114 128 129 131 137 147 156 163 186
Klausur 2019
Iteration 1 (3p) Iteration 2 (3p) Iteration 3 (3+3p) Iteration 4 (3p) G, 57 GS, 144 GSP, 241 GSPT, 342 S, 87 SG, 144 SGP, 241X SP, 184 SPG, 241X SPT, 285 SPTG, 342X P, 97 PS, 184 PSG, 241 PSGT, 342X PST, 285X PT, 198 PTS, 285X T, 101 TP, 198 TPS, 285 TPSG, 342
–> GSPT/TPSG
Branching step only shown here for amino acids that are in given spectrum.
X – theoretical spectra of this subpeptide do not match given spectrum. (extra 3 Punkte bei Iteration 3)
1. Alignment (15 Punkte)
Gegeben sind die beiden DNA-Sequenzen:
AGGTGAT
GTAGT
und die folgenden Parameter:
match: +2
mismatch: -2
gap: -1
a) Schreiben Sie die Dynamische-Programmier-Matrix für ein Lokales Alignment auf. (7 Punkte) Erklären Sie zusätzlich schriftlich am Beispiel von zwei beliebig gewählten Zellen, wie Sie vorgehen, um den Wert der Zelle bestimmen!
(4 Punkte)
b) Schreiben Sie alle optimalen Alignments auf. (4 Punkte)
Klausur 20
a)
- A G G T G A T - 0 0 0 0 0 0 0 0 G 0 0 2 2 1 2 1 0 T 0 0 1 1 4 3 2 3 A 0 2 1 0 3 2 5 4 G 0 1 4 3 2 5 4 3 T 0 0 3 2 5 4 3 6
b)
G T - G A T
G T A G - T
G T G A - T
G T - A G T
2. Motifsuche (15 Punkte)
a) Gegeben sind die folgenden DNA-Sequenzen:
1 C G T A T
2 G C T A T
3 C C T A A
4 C C T A C
5 G C T A T
6 G T T A T
7 C C A A T
8 G A T A G
9 T C A T T
10 C C T A A
a) Schreiben Sie die Profilmatrix (7 Punkte) dieser Sequenzen auf!
b) Bestimmen Sie die Konsensus-Sequenz (2 Punkte). Welche der 10 Sequenzen hat die höchste Wahrscheinlichkeit? Warum? (3 Punkte)
c) Wie hoch ist die Wahrscheinlichkeit der Sequenz CCTGT? Welches Problem tritt hier auf, und wie lässt es sich umgehen? (3 Punkte)
Klausur 20
a)
A 0.0 0.1 0.2 0.9 0.2
C 0.5 0.7 0.0 0.0 0.1
G 0.4 0.1 0.0 0.0 0.1
T 0.1 0.1 0.8 0.1 0.6
b)
CCTAT
Seq 2/5 (identisch) – hat ueberall die hoechsten Werte/haeufigsten Nukleotide bis auf Pos 1, bei der der zweithoechste Wert auftritt. Konsensus selbst taucht unter den 10 Sequenzen nicht auf!
c)
0.5 * 0.7 * 0.8 * 0 * 0.6
Obwohl die Wahrscheinlichkeit an den mesiten Stellen hoch ist, wird die gesamt wahrscheinlichkeit 0, weil an Stelle 4 eine Null ist.
Pseudocounts werden hinzugefuegt nach Laplace, um eine Wahrscheinlichkeit von Null zu vermeiden
3. Graphen und Genomassemblierung (15 Punkte)
a) Geben Sie zu folgender Adjazenz-Tabelle den Graphen an. (4pt)
N1 N2 N3 N4 Node 1: 0 1 1 0 Node 2: 1 0 1 0 Node 3: 0 0 0 1 Node 4: 0 0 0 1
b) Schreiben Sie die Adjazenzmatrix zum entsprechenden ungerichteten Graphen auf! (2pt)
c) Gegeben sind die folgenden lexikographisch geordneten 3-mere:
AAT, AGT, ATG, CAG, GCA, GGC, GTC, TGG
I) Konstruieren Sie den deBruijn3-Graph (6pt)
II) Geben sie den Eulerischen Pfad in dem Graphen und die daraus resultierende Sequenz an. (3pt)
Klausur 20
a)
b)
~~~
N1 N2 N3 N4
Node 1: 0 1 1 0
Node 2: 1 0 1 0
Node 3: 1 1 0 1
Node 4: 0 0 1 1
~~~
c)
I)
AA -> AT -> TG -> GG -> GC -> CA -> AG -> GT -> TC
II)
AATGGCAGTC
4. Maschinelles Lernen (6 Punkte)
Was versteht man unter überwachtem und unüberwachtem Lernen? (2 Punkte)
Nennen Sie zwei Methoden des überwachten Lernens und beschreiben Sie diese kurz (je 1-2 Sätze) (4 Punkte)
Klausur 20
Unterschied: Klassenidentität bekannt
- Supervised: Class labels are known (observed):
We have objects from several classes and want todistinguish between them.
- Unsupervised/clustering: Class unknown(hidden)
Determine meaningful groupings of the samples
zB: Neuronale Netze, Clustering
5. Clustering (15 Punkte)
a) Was sind die zwei Schritte des iterativen Loyd Algorithmus zum k-means Clustering? Warum sollte man mehrere Initialisierungen wählen? (3 Punkte)
b) Gegeben ist folgende Distanzmatrix:
A B C D E A - 5 7 8 4 B 5 - 2 6 3 C 7 2 - 4 5 D 8 6 4 - 6 E 4 3 5 6 -
Führen Sie ein Hierarchisches Clustering durch. Verwenden Sie dabei die Abstandfunktion, die als der kleinste paarweise Abstand aller Elemente aus dem ersten zu allen Elementen aus dem zweiten Cluster definiert ist. Welche Elemente werden bei 2 bzw 3 Clustern zusammen gruppiert? (12 Punkte)
(2 Pkt Abzug beim Fehlen der 2/3 Cluster; 3 Pkt Abzug, wenn falscher Abstand benutzt)
Klausur 20
a)
(1) Abstand von Zentroiden/Mittelpunkte zu Datenpunkten & Zuordnung zum náchsten Zentroid
(2) Berechnung neuer Zentroide
Mehrere Startpunkte benoetigt, da die initialiesierung randomisiert ist, und das Algorithm in ein lokales Optimum stecken kann//
Since it relies on a random initialization and Lloyd’s algorithm can get stuck in local optima of the k-means objective function
b)
A BC D E
A - 5 8 4
BC 5 - 4 3
D 8 4 - 6
E 4 3 6 -
A BCE D A - 4 8 BCE 4 - 4 (gleich weit: 2 gleich gute Loesungen) D 8 4 -
| 4 | 4 |
| ————- |
| | | 3 |
| ———- | |
| | | 2 | |
a b c e d
2 Cluster: BCED / A oder BCEA / D
3 Cluster: A / D / BCE
1. Motifsuche (14 Punkte)
a) Gegeben sind die folgenden DNA-Sequenzen:
1 A G T C A 2 A C T C A 3 A C T C T 4 C C T C C 5 A C T C A 6 C T T C A 7 C C A C A 8 C A T C G 9 G C A T A 10 A C T C A
a) Schreiben Sie die Profilmatrix (7 Punkte) mit Wahrscheinlichkeiten als Einträge sowie die Konsensus-Sequenz (2 Punkte) dieser Sequenzen auf!
b) Unter Verwendung dieser Matrix – ist Sequenz 9 oder 10 wahrscheinlicher? (3 Punkte)
c) Welches Phänomen tritt bei der Analyse der neuen Sequenz GCCTT auf?
Wie kann man dieses Problem umgehen? (2 Punkte)
Klausur 21-1
a)
~~~
1 2 3 4 5
A 0.5 0.1 0.2 0.0 0.7
C 0.4 0.7 0.0 0.9 0.1
G 0.1 0.1 0.0 0.0 0.1
T 0.0 0.1 0.8 0.1 0.1
~~~
Consensus: ACTCA
b)
P(Profile, (S9)) = 0.1 x 0.7 x 0.2 x 0.1 x 0.7
P(Profile, (S10)) = 0.5 x 0.7 x 0.8 x 0.9 x 0.7
–> Wahrscheinlichkeit von Sequenz 10 ist hoeher, da es fuer jede Position die gleiche oder hoehere Wahrscheinlichkeit hat
c)
P(Profile, GCCTT) = 0.1 x 0.7 x 0.0 x 0.1 x 0.1 x 0.1 = 0
Wahrscheinlichkeit ist Null, da am dritten Stelle eine Null steht.
Loesung: Pseudocounts werden an jeder Stelle nach Laplace hinzugefuegt
2. Alignment (15 Punkte)
Gegeben sind die beiden DNA-Sequenzen:
ACTGTA
ATCTA
und die folgenden Parameter:
match: 2
mismatch: -1
gap: -2
a) Schreiben Sie die Dynamische-Programmier-Matrix für ein Lokales Alignment auf. (7 Punkte) Erklären Sie zusätzlich schriftlich am Beispiel von einer Zelle, wie Sie vorgehen, um den Wert der Zelle bestimmen! (4 Punkte)
b) Schreiben Sie das/ein optimales Alignment auf. (2 Punkte) Von welcher Zelle starten Sie und warum? (2 Punkte)
Klausur 21-1
a)
Vorgehensweise Knotenwert:
- Alle Vorgaengerknoten berechnen
- Alle moeglicher Knotenwerte berechnen:
- Vorgaengerknotenwert + Kantenwert = Knotenwert
- Hoechster Knotenwert auswaehlen wenn dieser groesse 0 ist
- Bsp Zeile 3 spalte 3
Von oben: 0-2 = -2
Von diagonal: 2 - 1 = 1
Von links: 0 - 2 = -2
1 > 0 > -2
→ 1 wird in Knoten eingetragen, backtracking Pfad hinzufuegem
b)
TGTA
TCTA
Man nimmt als Endknoten fuer das lokale Alignment den Knoten mit dem groessten Wert (in Bsp 5), von denen geht man rueckwaerts (backtracking) bis der Knotenwert erstmals 0 wird → Endknoten Zeile 6, Spalte 7
Grund: nach diesen Knoten wird score nur wieder kleiner. Wir wollen bester score, also hoeren wir dort wo Maximum ist auf
(be)
3. Graphen (9 Punkte)
Gegeben sind die folgenden lexikographisch geordneten 3-mere:
AAT, AGT, ATC, CAG, CGC, GCA, GTA, TCG
a) Konstruieren Sie den deBruijn3-Graph (7 Punkte)
b) Geben sie den Eulerischen Pfad in dem Graphen und die daraus resultierende Sequenz an. (2 Punkte)
Klausur 21-1
b)
AATCGCAGTA
4. Analyse von Massenspektren (15 Punkte)
Bestimmen Sie die Sequenz des linearen Peptides mit dem folgenden theoretischen Spektrum (geben Sie die Zwischenschritte an):
71 71 99 101 142 170 200 241 271 342
Benutzen Sie dabei die folgenden Aminosäuremassen:
~~~
G A S P V T C I/L N D K/Q E M H F R Y W
57 71 87 97 99 101 103 113 114 114 128 129 131 137 147 156 163 186
~~~
Klausur 21-1
AAVT / TVAA
1. Motifsuche (12 Punkte)
Gegeben sind die folgenden DNA-Sequenzen:
~~~
1 G G T G A
2 A C T T A
3 A C T G T
4 C C T G C
5 C C T G A
6 C T T G T
7 C C G G T
8 C A T G T
9 A C A T A
10 A C T T A
~~~
a) Schreiben Sie die Profilmatrix (7 Punkte) mit Wahrscheinlichkeiten als
Einträge auf. Geben Sie an, welche Wahrscheinlichkeit die neue Sequenz
GCGGT hat! (2 Punkte)
b) Geben Sie die Sequenz an, die anhand der Matrix die höchste
Wahrscheinlichkeit hat! Wie nennt man sie ? (3 Punkte)
Klausur 21-2
a)
~~~
1 2 3 4 5
A 0.4 0.1 0.1 0.0 0.5
C 0.5 0.7 0.0 0.0 0.1
G 0.1 0.1 0.1 0.7 0.0
T 0.0 0.1 0.8 0.3 0.4
~~~
b)
Consensus = CCTGA
2. Alignment (15 Punkte)
Gegeben sind die beiden DNA-Sequenzen:
CTACCT
CTTAGGCT
und die folgenden Parameter:
match: 1
mismatch: -1
gap: -2
a) Schreiben Sie die Dynamische-Programmier-Matrix für ein Globales
Alignment auf. (8 Punkte) Erklären Sie zusätzlich schriftlich am Beispiel von
einer Zelle, wie Sie vorgehen, um den Wert der Zelle bestimmen! (3 Punkte)
b) Zeichnen Sie die optimalen Alignments in der DP Matrix ein. Wie viele gibt es? (2 Punkte) Schreiben Sie das/ein optimales Alignment auf. (2 Punkte)
Klausur 21-2
a)
~~~
- C T T A G G C T
- 0 -2 -4 -6 -8 -10 -12 -14 -16
C -2 -1 -1 -2 -5 -7 -9 -11 -13
T -4 -1 2 0 -2 -4 -6 -8 -9
A -6 -3 0 1 1 -1 -3 -5 -7
C -8 -5 -2 -1 0 0 -2 -2 -4
C -10 -7 -4 -3 -2 -2 -1 -1 -1
T -12 -9 -6 -3 -4 -4 -3 -1 0
~~~
b)
CTTAGGCT
C -TA -CCT
CTTAGGCT
C -TAC -CT
CTTAGGCT
CT -A -CCT
CTTAGGCT
CT -AC -CT
3. Graphen (11 Punkte)
Gegeben sind die folgenden lexikographisch geordneten 4-mere:
ATAT, ATCC, CATA, CCAT, CCGC, CCGC, CGCC, CGCC, GCCA, GCCG, TATC, TCCG,
TCCG
a) Konstruieren Sie den deBruijn4-Graph (7 Punkte)
b) Was zeichnet einen Eulerschen Pfad aus? Geben sie den Eulerischen Pfad
in dem Graphen und die daraus resultierende Sequenz an. (4 Punkte)
Klausur 21-2
TCCGCCGCCATATCCG
(asked Ohler if it’s correct?)
4. Analyse von Massenspektren (15 Punkte)
Bestimmen Sie die Sequenz des linearen Peptides mit dem folgenden theoretischen Spektrum (geben Sie die Zwischenschritte an):
0 71 71 99 142 156 170 227 241 298 397
Benutzen Sie dabei die folgenden Aminosäuremassen:
~~~
G A S P V T C I/L N D K/Q E M H F R Y W
57 71 87 97 99 101 103 113 114 114 128 129 131 137 147 156 163 186
~~~
Klausur 21-2
RAAT / TAAR
Maschinelles Lernen / Classification tree
a) Build a tree for the following:
Movie Type (T) Length (Le) Director (D) Famous actors (F) Liked (Li) m1 Comedy Short Adamson no yes m2 Animated Short Lasseter no no m3 Drama Medium Adamson no yes m4 Animated Long Lasseter yes no m5 Comedy Long Lasseter yes no m6 Drama Medium Singer yes yes m7 Animated Short Singer no yes m8 Comedy Long Adamson yes yes m9 Drama Medium Lasseter no yes
b)
The value for ‘Liked’ for (T=Comedy, Le=Medium, D=Lasseter, F=no) is ???
P(Li = Yes) = 6/9 = 2/3
H(Li) = - Sum from 1 to n of [ p(x_i)log_2(p(x_i)) ]
= - [ (2/3 * log_2(2/3)) + (1/3 * log_2(1/3)) ]
= .918
H(Li|T) = H(Y|X = x_i) = - Sum from 1 to m of [ p(y_j|x_i) * log_2(p(y_j|x_i) ]
= (1/3 * 0.92) + (1/3 * 0.92) + (1/3 * 0)
= 0.61
H(Li|Le) = 0.61
H(Li|D) = 0.36
H(Li|F) = 0.85
IG(Li | T) = .91-.61 = 0.3
IG(Li | Le) = .91-.61 = 0.3
IG(Li | D) = .91-.36 = 0.55
IG(Li | F) = .91-.85 = 0.06
–>
Director
/ | \
A L S
/ | \
yes ? yes
P(Li=yes) = 1/4
H(Li) = .81
H(Li | T) = 0
H(Li | Le) = 0
H(Li | F) = 0.5
Director?
/ | \
A L S
/ | \
yes | yes
Type?
/ | \
A C D
/|\
no no yes
b)
No