Beispielaufgaben - Teil 2 Bioinformatik Flashcards

1
Q

Graphen und Genomassemblierung

Assemble the genome from the following reads:
AAT, ATC, CGC, CGC, CTT, GCT, GCG, GTA, TAA, TCG, TGT, TTG

a) build the de bruijn graph
b ) find a eulerian path (or cycle…?)

(beispielaufgaben WiSe 18/19)

A

AATCGCGCTTGT

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Analyse von Massenspektren / Peptidsequenzierung

Find the linear peptide from the following theoretical spectrum:

0, 71, 97, 97, 101, 156, 168, 198, 227, 253, 324, 324, 354, 421, 425, 522

G  A  S  P  V   T   C  I/L  N   D  K/Q  E   M   H   F   R   Y   W
57 71 87 97 99 101 103 113 114 114 128 129 131 137 147 156 163 186

(beispielaufgaben WiSe 18/19)

A

PARPT / TPRAP

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Alignment

Compute the local/global alignment

ACGCCCTTT
ACTCATCACATTA

Using match = 2; mismatch = -1; gap = -2

(beispielaufgaben WiSe 18/19)

A

global:
ACTCATCACATTA
ACGC - -C -C -TTT
or
ACTCATCACATTA
ACGC - -C -CTTT-

local:
CACATT
CCCTTT

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

**

Maschinelles Learning

Build a classification tree for the following task

Artist            type           speed   language   like   charts
Arcade Fire       indie          slow     English   no     yes
Wanda             “schlager”     fast     German    yes    no
Frank Ocean       r&b            slow     English   yes    yes
Helene Fischer    schlager       slow     German    yes    yes
Kelela            r&b            fast     English   no     no

Will the following song place on the charts?
Wanda/fast/English

(beispielaufgaben WiSe 18/19)

A
speed?
/    \
s      f
/        \
yes        no

Wanda/fast/English: no

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

1. Alignment (12 Punkte)

Gegeben sind die beiden Proteinsequenzen:
ARMER
HASE

a) Füllen Sie die Dynamische-Programmier-Matrix für ein Globales Alignment aus.

b) Schreiben Sie das/ein optimales Alignment auf. Parameter für das Alignment sind: gap: -1; match: 1; mismatch: -1

(Klausur_2018_Test = Klausuraufgaben Vorlesungsteil 2018)

A
       A  R  M  E  R
      0 -1 -2 -3 -4 -5
H    -1 -1 -2 -3 -4 -5
A    -2 0 -1 -2 -3 -4
S    -3 -1 -1 -2 -3 -4
E    -4 -2 -2 -2 -1 -2

Optimal alignments:

  • A R M E R
    H A S - E -
  • A R M E R
    H A - S E -
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

2: Analyse von Massenspektren (8 Punkte)

a) Sie analysieren ein lineares Peptids der Länge 5 mit dem Massenspektrometer. Wie viele Massen/Sub-peptide erwarten Sie im theoretischen Spektrum (inklusive der 0-Masse und der Masse des Peptids)? Bitte eine kurze Begründung.

b) Geben Sie 2 mögliche Gründe an, warum das experimentelle Spektrum anders sein kann als das theoretisch erwartete Spektrum.

(Klausur_2018_Test = Klausuraufgaben Vorlesungsteil 2018)

A

a)
folgende Sub-Peptide
- 1 x 5 AS
- 2 x 4 AS
- 3 x 3 AS
- 4 x 2 AS
- 5 x 1 AS
- 1 x 0 AS
= 16 Massen

b)
**Posttranslationale Modifikationen: **
zB Phosphorylierungen, Glykosylierungen, Acetylierungen –> andere Peptidmasse –> Peaks, die nicht im theoretischen Spektrum erwartet werden.

**Ionization efficiency: **
The ionization process in mass spectrometry may not be 100% efficient for all peptides, leading to variations in signal intensities. Some peptides may ionize less efficiently, resulting in lower intensity peaks or no detection at all in the experimental spectrum.

Fragmentierung:
fehlende Spaltung (missing cleavage site)

b-, y- and their derivative ions from peptides

Isotopic variations:
Isotopes of elements, such as carbon, nitrogen, and hydrogen, can affect the peptide’s mass. While theoretical spectra typically consider average atomic masses, experimental spectra may show slight deviations due to the presence of specific isotopes, especially if the instrument used has high resolution capabilities.

Contaminants or impurities:
The experimental spectrum may contain signals from contaminants or impurities present in the sample. These can arise from various sources, including the sample preparation process or contamination within the mass spectrometer.

Sample degradation or chemical instability:
Peptides can undergo degradation or chemical changes during sample preparation, storage, or ionization in the mass spectrometer. These alterations can lead to the detection of unexpected fragments or modifications in the experimental spectrum.

Instrument limitations:
Mass spectrometers have certain limitations in terms of sensitivity, resolution, and mass accuracy. These limitations can result in imperfect detection and representation of the peptide masses, leading to differences between the experimental and theoretical spectra.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

3. Graphen (7 Punkte)

Gegeben ist folgender Graph:

file:///C:/Users/stevi/BXY50%20Bioinformatik/Klausur%20Beispiele/DONE_Klausur_18_Test.pdf

a) Geben sie die Adjazenzmatrix an.
b) Ist der Graph ein Euler’scher Graph? Bitte begründen

(Klausur_2018_Test = Klausuraufgaben Vorlesungsteil 2018)

A

a)
IN:
1 2 3 4 5 6
1 0 0 1 0 0 0
2 0 0 1 1 0 0
OUT: 3 0 0 0 1 1 0
4 1 0 0 0 1 0
5 0 1 0 0 0 1
6 0 1 0 0 0 0

a) Ja, weil jede Knotenpunkt die gleiche Anzahl von Eingaenge wie Anzahl von Ausgaenge hat

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

4: deBruijn-Graph(10 Punkte)

Gegeben sind die folgenden lexikographisch geordneten 4-meren:

AGAT, ATTA, CCTA, CTAG, GATT, TAGA, TCCT, TTAA

a) Konstruieren Sie den deBruijn_3-Graph
b) Geben sie den Eulerischen Pfad in dem Graphen an.

(Klausur_2018_Test = Klausuraufgaben Vorlesungsteil 2018)

A

b) TCCTAGATTAA

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

1: Motifsuche (15 Punkte)

a) Gegeben sind die folgenden DNA-Sequenzen:

  1. T G T A A
  2. T C T A A
  3. T C T A T
  4. G C T A C
  5. T C T A A
  6. G T T A A
  7. G C A A A
  8. G A T A G
  9. C C A T A
  10. T C T A T

a) Schreiben Sie die Profilmatrix (7 Punkte) und die Konsensus-Sequenz (2 Punkte) dieser Sequenzen auf!

b) Unter Verwendung dieser Matrix – ist Sequenz 8 oder 10 warscheinlicher? (3 Punkte)

c) Welche Position hat die höhere (Shannon) Entropie, Position 1 oder 4? (Positionen fangen mit der Zahl 1 an.) Wann ist die Entropie am höchsten? (3 Punkte)

Klausur 2019

A

a)
~~~
1 2 3 4 5
A 0.0 0.1 0.2 0.9 0.6
C 0.1 0.7 0.0 0.0 0.1
G 0.4 0.1 0.0 0.0 0.1
T 0.5 0.1 0.8 0.1 0.2
~~~
(Alternativ: Anzahl oder Prozente) Konsensus: TCTAA

b)
P(s8|matrix) = 0.4 * 0.1 * 0.8 * 09 * 0.1
P(s10|matrix) = 0.5 * 0.7 * 0.8 * 0.9 * 0.2

S10 ist wahrscheinlicher, da alle Nukleotid-Wahrscheinlichkeiten gleich gross oder grosser als die für s8 sind. (1Pkt wenn statt * genommen wird)

c)
Position 1 hat die hoehere Entropie, da die Eintraege naeher an einer Gleichverteilung sind (alternativ: mehrere Eintraege fast gleich wahrscheinlich sind). Die Entropie ist für eine Gleichverteilung am hoechsten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

ra

2: Alignment (15 Punkte)

Gegeben sind die beiden DNA-Sequenzen:

TGTGTA
TTCTA

und die folgenden Parameter:

match: 1
mismatch: 0 für A-T und G-C
-1 für alle anderen Mismatches
gap: -2

a) Schreiben Sie die Dynamische-Programmier-Matrix für ein Globales Alignment auf. (7 Punkte) Erklären Sie zusätzlich schriftlich am Beispiel von zwei Zellen (einer Zelle mit einem Match und einer Zelle mit einem Mismatch), wie Sie vorgehen, um den Wert der Zelle bestimmen! (4 Punkte)

b) Schreiben Sie das/ein optimales Alignment auf. (4 Punkte)

Klausur 2019

A

a)
~~~
T G T G T A
0 -2 -4 -6 -8 -10 -12
T -2 1 -1 -3 -5 -7 -9
T -4 -1 0 0 -2 -4 -6
C -6 -3 -1 -1 0 -2 -4
T -8 -5 -3 0 -2 1 -1
A -10 -7 -5 -2 -1 -1 2
~~~

TGTGTA
T-TCTA

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

3: Graphen (3 Punkte)
Beschreibt die folgende Adjazenzmatrix eines gerichteten Graphen einen Euler’schen Graph? Bitte begründen.

        Node1  Node2  Node3  Node4
Node1     0      1      1      0
Node2     0      0      1      1
Node3     0      0      0      1
Node4     0      0      0      0

Klausur 2019

A

Antwort: Nein, da in-degree (#Eingabekanten) != out-degree (#Ausgabekanten) fuer mindestens einen (hier: alle) Knoten
(alternativ: In der Matrix ist die Anzahl 1 nicht dieselbe fuer die Zeilen/Spaltenpaare eines jeden Knoten)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

4: Maschinelles Lernen/Künstliche Neuronale Netze (6 Punkte)

Was ist ein Perzeptron? (2 Punkte)

Wie sind Perzeptronen in einem Mehrschicht-Perzeptron miteinander verschaltet? (2 Punkte)

Was wird durch die Verwendung mehrerer Schichten ermöglicht? (2 Punkte)

Klausur 2019

A

The perceptron
* First machine learning algorithm, built as analog hardware in 1959 (weight updates with motors!)
* Defined as a “neuron”/compute node that takes a linear combination of inputs and passes it through an “activation function”
– Originally: threshold/ step function
– Sigmoid as activation function: perceptron == logistic regression!
– These days: tanh (differentiable) or “rectified linear” reLU

Multi-layer perceptrons (MLP)
- To define non-linear classification functions, one can combine nodes to a network
- most popular classic: the MLP (or, feed forward network)
- consists of 2+ layers of weights, where nodes from the current layer are strictly connected to the next one
this leads to an effective learning algorithm
for 2-class classification, the final layer consists of a single node with the sigmoid/tanh activation function, to scale values to (0,1) or (-1,1)
- tanh(a) = (e^a - e^-a) / (e^a + e^-a)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

5: Analyse von Massenspektren (15 Punkte)

Bestimmen Sie die Sequenz des linearen Peptides mit dem folgenden theoretischen Spektrum (geben Sie die Zwischenschritte an):

57 87 97 101 144 184 198 241 285 342

Benutzen Sie dabei die folgenden Aminosäuremassen:

G  A  S  P  V   T   C  I/L  N   D  K/Q  E   M   H   F   R   Y   W
57 71 87 97 99 101 103 113 114 114 128 129 131 137 147 156 163 186

Klausur 2019

A
Iteration 1 (3p)	Iteration 2 (3p)	Iteration 3 (3+3p)	Iteration 4 (3p)
G, 57	           GS, 144	           GSP, 241	           GSPT, 342
S, 87	           SG, 144	           SGP, 241X
	                SP, 184	            SPG, 241X	
	     	        	                SPT, 285	        SPTG, 342X
P, 97               PS, 184	         PSG, 241	         PSGT, 342X
		     	           	          	PST, 285X
		            PT, 198	            PTS, 285X
T, 101	          TP, 198	          TPS, 285	          TPSG, 342

–> GSPT/TPSG

Branching step only shown here for amino acids that are in given spectrum.
X – theoretical spectra of this subpeptide do not match given spectrum. (extra 3 Punkte bei Iteration 3)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

1. Alignment (15 Punkte)

Gegeben sind die beiden DNA-Sequenzen:

AGGTGAT
GTAGT

und die folgenden Parameter:

match: +2
mismatch: -2
gap: -1

a) Schreiben Sie die Dynamische-Programmier-Matrix für ein Lokales Alignment auf. (7 Punkte) Erklären Sie zusätzlich schriftlich am Beispiel von zwei beliebig gewählten Zellen, wie Sie vorgehen, um den Wert der Zelle bestimmen!
(4 Punkte)

b) Schreiben Sie alle optimalen Alignments auf. (4 Punkte)

Klausur 20

A

a)

     -  A	G	G	T	G	A	T
-	0	0	0	0	0	0	0	0
G	0	0	2	2	1	2	1	0
T	0	0	1	1	4	3	2	3
A	0	2	1	0	3	2	5	4
G	0	1	4	3	2	5	4	3
T	0	0	3	2	5	4	3	6

b)
G T - G A T
G T A G - T

G T G A - T
G T - A G T

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

2. Motifsuche (15 Punkte)

a) Gegeben sind die folgenden DNA-Sequenzen:

1 C G T A T
2 G C T A T
3 C C T A A
4 C C T A C
5 G C T A T
6 G T T A T
7 C C A A T
8 G A T A G
9 T C A T T
10 C C T A A

a) Schreiben Sie die Profilmatrix (7 Punkte) dieser Sequenzen auf!

b) Bestimmen Sie die Konsensus-Sequenz (2 Punkte). Welche der 10 Sequenzen hat die höchste Wahrscheinlichkeit? Warum? (3 Punkte)

c) Wie hoch ist die Wahrscheinlichkeit der Sequenz CCTGT? Welches Problem tritt hier auf, und wie lässt es sich umgehen? (3 Punkte)

Klausur 20

A

a)
A 0.0 0.1 0.2 0.9 0.2

C 0.5 0.7 0.0 0.0 0.1

G 0.4 0.1 0.0 0.0 0.1

T 0.1 0.1 0.8 0.1 0.6

b)
CCTAT
Seq 2/5 (identisch) – hat ueberall die hoechsten Werte/haeufigsten Nukleotide bis auf Pos 1, bei der der zweithoechste Wert auftritt. Konsensus selbst taucht unter den 10 Sequenzen nicht auf!

c)

0.5 * 0.7 * 0.8 * 0 * 0.6
Obwohl die Wahrscheinlichkeit an den mesiten Stellen hoch ist, wird die gesamt wahrscheinlichkeit 0, weil an Stelle 4 eine Null ist.
Pseudocounts werden hinzugefuegt nach Laplace, um eine Wahrscheinlichkeit von Null zu vermeiden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

3. Graphen und Genomassemblierung (15 Punkte)

a) Geben Sie zu folgender Adjazenz-Tabelle den Graphen an. (4pt)

          N1  N2  N3  N4
Node 1:	0	1	1	0
Node 2:	1	0	1	0
Node 3:	0	0	0	1
Node 4:	0	0	0	1

b) Schreiben Sie die Adjazenzmatrix zum entsprechenden ungerichteten Graphen auf! (2pt)

c) Gegeben sind die folgenden lexikographisch geordneten 3-mere:

AAT, AGT, ATG, CAG, GCA, GGC, GTC, TGG

I) Konstruieren Sie den deBruijn3-Graph (6pt)

II) Geben sie den Eulerischen Pfad in dem Graphen und die daraus resultierende Sequenz an. (3pt)

Klausur 20

A

a)

b)
~~~
N1 N2 N3 N4
Node 1: 0 1 1 0
Node 2: 1 0 1 0
Node 3: 1 1 0 1
Node 4: 0 0 1 1
~~~

c)
I)
AA -> AT -> TG -> GG -> GC -> CA -> AG -> GT -> TC
II)
AATGGCAGTC

17
Q

4. Maschinelles Lernen (6 Punkte)

Was versteht man unter überwachtem und unüberwachtem Lernen? (2 Punkte)

Nennen Sie zwei Methoden des überwachten Lernens und beschreiben Sie diese kurz (je 1-2 Sätze) (4 Punkte)

Klausur 20

A

Unterschied: Klassenidentität bekannt
- Supervised: Class labels are known (observed):
We have objects from several classes and want todistinguish between them.

  • Unsupervised/clustering: Class unknown(hidden)
    Determine meaningful groupings of the samples
    zB: Neuronale Netze, Clustering
18
Q

5. Clustering (15 Punkte)

a) Was sind die zwei Schritte des iterativen Loyd Algorithmus zum k-means Clustering? Warum sollte man mehrere Initialisierungen wählen? (3 Punkte)

b) Gegeben ist folgende Distanzmatrix:

    A	B	C	D	E
A	-	5	7	8	4
B	5	-	2	6	3
C	7	2	-	4	5
D	8	6	4	-	6
E	4	3	5	6	-

Führen Sie ein Hierarchisches Clustering durch. Verwenden Sie dabei die Abstandfunktion, die als der kleinste paarweise Abstand aller Elemente aus dem ersten zu allen Elementen aus dem zweiten Cluster definiert ist. Welche Elemente werden bei 2 bzw 3 Clustern zusammen gruppiert? (12 Punkte)

(2 Pkt Abzug beim Fehlen der 2/3 Cluster; 3 Pkt Abzug, wenn falscher Abstand benutzt)

Klausur 20

A

a)
(1) Abstand von Zentroiden/Mittelpunkte zu Datenpunkten & Zuordnung zum náchsten Zentroid
(2) Berechnung neuer Zentroide

Mehrere Startpunkte benoetigt, da die initialiesierung randomisiert ist, und das Algorithm in ein lokales Optimum stecken kann//
Since it relies on a random initialization and Lloyd’s algorithm can get stuck in local optima of the k-means objective function

b)
A BC D E
A - 5 8 4
BC 5 - 4 3
D 8 4 - 6
E 4 3 6 -

A	BCE	D A	-	4	8 BCE	4	-	4	(gleich weit: 2 gleich gute Loesungen) D	8	4	-

| 4 | 4 |
| ————- |
| | | 3 |
| ———- | |
| | | 2 | |
a b c e d

2 Cluster: BCED / A oder BCEA / D
3 Cluster: A / D / BCE

19
Q

1. Motifsuche (14 Punkte)

a) Gegeben sind die folgenden DNA-Sequenzen:

1  A G T C A
2  A C T C A
3  A C T C T
4  C C T C C
5  A C T C A
6  C T T C A
7  C C A C A
8  C A T C G
9  G C A T A
10 A C T C A

a) Schreiben Sie die Profilmatrix (7 Punkte) mit Wahrscheinlichkeiten als Einträge sowie die Konsensus-Sequenz (2 Punkte) dieser Sequenzen auf!

b) Unter Verwendung dieser Matrix – ist Sequenz 9 oder 10 wahrscheinlicher? (3 Punkte)

c) Welches Phänomen tritt bei der Analyse der neuen Sequenz GCCTT auf?
Wie kann man dieses Problem umgehen? (2 Punkte)

Klausur 21-1

A

a)
~~~
1 2 3 4 5
A 0.5 0.1 0.2 0.0 0.7
C 0.4 0.7 0.0 0.9 0.1
G 0.1 0.1 0.0 0.0 0.1
T 0.0 0.1 0.8 0.1 0.1
~~~
Consensus: ACTCA

b)
P(Profile, (S9)) = 0.1 x 0.7 x 0.2 x 0.1 x 0.7
P(Profile, (S10)) = 0.5 x 0.7 x 0.8 x 0.9 x 0.7

–> Wahrscheinlichkeit von Sequenz 10 ist hoeher, da es fuer jede Position die gleiche oder hoehere Wahrscheinlichkeit hat

c)
P(Profile, GCCTT) = 0.1 x 0.7 x 0.0 x 0.1 x 0.1 x 0.1 = 0
Wahrscheinlichkeit ist Null, da am dritten Stelle eine Null steht.
Loesung: Pseudocounts werden an jeder Stelle nach Laplace hinzugefuegt

20
Q

2. Alignment (15 Punkte)

Gegeben sind die beiden DNA-Sequenzen:

ACTGTA
ATCTA

und die folgenden Parameter:

match: 2
mismatch: -1
gap: -2

a) Schreiben Sie die Dynamische-Programmier-Matrix für ein Lokales Alignment auf. (7 Punkte) Erklären Sie zusätzlich schriftlich am Beispiel von einer Zelle, wie Sie vorgehen, um den Wert der Zelle bestimmen! (4 Punkte)

b) Schreiben Sie das/ein optimales Alignment auf. (2 Punkte) Von welcher Zelle starten Sie und warum? (2 Punkte)

Klausur 21-1

A

a)

Vorgehensweise Knotenwert:
- Alle Vorgaengerknoten berechnen
- Alle moeglicher Knotenwerte berechnen:
- Vorgaengerknotenwert + Kantenwert = Knotenwert
- Hoechster Knotenwert auswaehlen wenn dieser groesse 0 ist
- Bsp Zeile 3 spalte 3
Von oben: 0-2 = -2
Von diagonal: 2 - 1 = 1
Von links: 0 - 2 = -2
1 > 0 > -2
→ 1 wird in Knoten eingetragen, backtracking Pfad hinzufuegem

b)
TGTA
TCTA

Man nimmt als Endknoten fuer das lokale Alignment den Knoten mit dem groessten Wert (in Bsp 5), von denen geht man rueckwaerts (backtracking) bis der Knotenwert erstmals 0 wird → Endknoten Zeile 6, Spalte 7
Grund: nach diesen Knoten wird score nur wieder kleiner. Wir wollen bester score, also hoeren wir dort wo Maximum ist auf

(be)

21
Q

3. Graphen (9 Punkte)

Gegeben sind die folgenden lexikographisch geordneten 3-mere:
AAT, AGT, ATC, CAG, CGC, GCA, GTA, TCG

a) Konstruieren Sie den deBruijn3-Graph (7 Punkte)

b) Geben sie den Eulerischen Pfad in dem Graphen und die daraus resultierende Sequenz an. (2 Punkte)

Klausur 21-1

A

b)
AATCGCAGTA

22
Q

4. Analyse von Massenspektren (15 Punkte)

Bestimmen Sie die Sequenz des linearen Peptides mit dem folgenden theoretischen Spektrum (geben Sie die Zwischenschritte an):

71 71 99 101 142 170 200 241 271 342

Benutzen Sie dabei die folgenden Aminosäuremassen:
~~~
G A S P V T C I/L N D K/Q E M H F R Y W
57 71 87 97 99 101 103 113 114 114 128 129 131 137 147 156 163 186
~~~

Klausur 21-1

A

AAVT / TVAA

23
Q

1. Motifsuche (12 Punkte)

Gegeben sind die folgenden DNA-Sequenzen:
~~~
1 G G T G A
2 A C T T A
3 A C T G T
4 C C T G C
5 C C T G A
6 C T T G T
7 C C G G T
8 C A T G T
9 A C A T A
10 A C T T A
~~~

a) Schreiben Sie die Profilmatrix (7 Punkte) mit Wahrscheinlichkeiten als
Einträge auf. Geben Sie an, welche Wahrscheinlichkeit die neue Sequenz
GCGGT hat! (2 Punkte)

b) Geben Sie die Sequenz an, die anhand der Matrix die höchste
Wahrscheinlichkeit hat! Wie nennt man sie ? (3 Punkte)

Klausur 21-2

A

a)
~~~
1 2 3 4 5
A 0.4 0.1 0.1 0.0 0.5
C 0.5 0.7 0.0 0.0 0.1
G 0.1 0.1 0.1 0.7 0.0
T 0.0 0.1 0.8 0.3 0.4
~~~

b)
Consensus = CCTGA

24
Q

2. Alignment (15 Punkte)

Gegeben sind die beiden DNA-Sequenzen:

CTACCT
CTTAGGCT

und die folgenden Parameter:
match: 1
mismatch: -1
gap: -2

a) Schreiben Sie die Dynamische-Programmier-Matrix für ein Globales
Alignment auf. (8 Punkte) Erklären Sie zusätzlich schriftlich am Beispiel von
einer Zelle, wie Sie vorgehen, um den Wert der Zelle bestimmen! (3 Punkte)

b) Zeichnen Sie die optimalen Alignments in der DP Matrix ein. Wie viele gibt es? (2 Punkte) Schreiben Sie das/ein optimales Alignment auf. (2 Punkte)

Klausur 21-2

A

a)
~~~
- C T T A G G C T
- 0 -2 -4 -6 -8 -10 -12 -14 -16
C -2 -1 -1 -2 -5 -7 -9 -11 -13
T -4 -1 2 0 -2 -4 -6 -8 -9
A -6 -3 0 1 1 -1 -3 -5 -7
C -8 -5 -2 -1 0 0 -2 -2 -4
C -10 -7 -4 -3 -2 -2 -1 -1 -1
T -12 -9 -6 -3 -4 -4 -3 -1 0
~~~

b)
CTTAGGCT
C -TA -CCT

CTTAGGCT
C -TAC -CT

CTTAGGCT
CT -A -CCT

CTTAGGCT
CT -AC -CT

25
Q

3. Graphen (11 Punkte)

Gegeben sind die folgenden lexikographisch geordneten 4-mere:
ATAT, ATCC, CATA, CCAT, CCGC, CCGC, CGCC, CGCC, GCCA, GCCG, TATC, TCCG,
TCCG

a) Konstruieren Sie den deBruijn4-Graph (7 Punkte)

b) Was zeichnet einen Eulerschen Pfad aus? Geben sie den Eulerischen Pfad
in dem Graphen und die daraus resultierende Sequenz an. (4 Punkte)

Klausur 21-2

A

TCCGCCGCCATATCCG
(asked Ohler if it’s correct?)

26
Q

4. Analyse von Massenspektren (15 Punkte)

Bestimmen Sie die Sequenz des linearen Peptides mit dem folgenden theoretischen Spektrum (geben Sie die Zwischenschritte an):
0 71 71 99 142 156 170 227 241 298 397

Benutzen Sie dabei die folgenden Aminosäuremassen:
~~~
G A S P V T C I/L N D K/Q E M H F R Y W
57 71 87 97 99 101 103 113 114 114 128 129 131 137 147 156 163 186
~~~

Klausur 21-2

A

RAAT / TAAR

27
Q

Maschinelles Lernen / Classification tree

a) Build a tree for the following:

Movie Type (T)     Length (Le)  Director (D)  Famous actors (F)  Liked (Li)
m1     Comedy      Short        Adamson       no                 yes
m2     Animated    Short        Lasseter      no                 no
m3     Drama       Medium       Adamson       no                 yes
m4     Animated    Long         Lasseter      yes                no
m5     Comedy      Long         Lasseter      yes                no
m6     Drama       Medium       Singer        yes                yes
m7     Animated    Short        Singer        no                 yes
m8     Comedy      Long         Adamson       yes                yes
m9     Drama       Medium       Lasseter      no                 yes

b)
The value for ‘Liked’ for (T=Comedy, Le=Medium, D=Lasseter, F=no) is ???

A

P(Li = Yes) = 6/9 = 2/3

H(Li) = - Sum from 1 to n of [ p(x_i)log_2(p(x_i)) ]
= - [ (2/3 * log_2(2/3)) + (1/3 * log_2(1/3)) ]
= .918

H(Li|T) = H(Y|X = x_i) = - Sum from 1 to m of [ p(y_j|x_i) * log_2(p(y_j|x_i) ]
= (1/3 * 0.92) + (1/3 * 0.92) + (1/3 * 0)
= 0.61

H(Li|Le) = 0.61

H(Li|D) = 0.36

H(Li|F) = 0.85

IG(Li | T) = .91-.61 = 0.3
IG(Li | Le) = .91-.61 = 0.3
IG(Li | D) = .91-.36 = 0.55
IG(Li | F) = .91-.85 = 0.06

–>

Director
/ | \
A L S
/ | \
yes ? yes

P(Li=yes) = 1/4
H(Li) = .81
H(Li | T) = 0
H(Li | Le) = 0
H(Li | F) = 0.5

Director?
/ | \
A L S
/ | \
yes | yes
Type?
/ | \
A C D
/|\
no no yes

b)
No

28
Q
A