Beispielaufgaben - Teil 2 Bioinformatik Flashcards
Graphen und Genomassemblierung
Assemble the genome from the following reads:
AAT, ATC, CGC, CGC, CTT, GCT, GCG, GTA, TAA, TCG, TGT, TTG
a) build the de bruijn graph
b ) find a eulerian path (or cycle…?)
(beispielaufgaben WiSe 18/19)
AATCGCGCTTGT
Analyse von Massenspektren / Peptidsequenzierung
Find the linear peptide from the following theoretical spectrum:
0, 71, 97, 97, 101, 156, 168, 198, 227, 253, 324, 324, 354, 421, 425, 522
G A S P V T C I/L N D K/Q E M H F R Y W 57 71 87 97 99 101 103 113 114 114 128 129 131 137 147 156 163 186
(beispielaufgaben WiSe 18/19)
PARPT / TPRAP
Alignment
Compute the local/global alignment
ACGCCCTTT
ACTCATCACATTA
Using match = 2; mismatch = -1; gap = -2
(beispielaufgaben WiSe 18/19)
global:
ACTCATCACATTA
ACGC - -C -C -TTT
or
ACTCATCACATTA
ACGC - -C -CTTT-
local:
CACATT
CCCTTT
**
Maschinelles Learning
Build a classification tree for the following task
Artist type speed language like charts Arcade Fire indie slow English no yes Wanda “schlager” fast German yes no Frank Ocean r&b slow English yes yes Helene Fischer schlager slow German yes yes Kelela r&b fast English no no
Will the following song place on the charts?
Wanda/fast/English
(beispielaufgaben WiSe 18/19)
speed? / \ s f / \ yes no
Wanda/fast/English: no
1. Alignment (12 Punkte)
Gegeben sind die beiden Proteinsequenzen:
ARMER
HASE
a) Füllen Sie die Dynamische-Programmier-Matrix für ein Globales Alignment aus.
b) Schreiben Sie das/ein optimales Alignment auf. Parameter für das Alignment sind: gap: -1; match: 1; mismatch: -1
(Klausur_2018_Test = Klausuraufgaben Vorlesungsteil 2018)
A R M E R 0 -1 -2 -3 -4 -5 H -1 -1 -2 -3 -4 -5 A -2 0 -1 -2 -3 -4 S -3 -1 -1 -2 -3 -4 E -4 -2 -2 -2 -1 -2
Optimal alignments:
- A R M E R
H A S - E - - A R M E R
H A - S E -
2: Analyse von Massenspektren (8 Punkte)
a) Sie analysieren ein lineares Peptids der Länge 5 mit dem Massenspektrometer. Wie viele Massen/Sub-peptide erwarten Sie im theoretischen Spektrum (inklusive der 0-Masse und der Masse des Peptids)? Bitte eine kurze Begründung.
b) Geben Sie 2 mögliche Gründe an, warum das experimentelle Spektrum anders sein kann als das theoretisch erwartete Spektrum.
(Klausur_2018_Test = Klausuraufgaben Vorlesungsteil 2018)
a)
folgende Sub-Peptide
- 1 x 5 AS
- 2 x 4 AS
- 3 x 3 AS
- 4 x 2 AS
- 5 x 1 AS
- 1 x 0 AS
= 16 Massen
b)
**Posttranslationale Modifikationen: **
zB Phosphorylierungen, Glykosylierungen, Acetylierungen –> andere Peptidmasse –> Peaks, die nicht im theoretischen Spektrum erwartet werden.
**Ionization efficiency: **
The ionization process in mass spectrometry may not be 100% efficient for all peptides, leading to variations in signal intensities. Some peptides may ionize less efficiently, resulting in lower intensity peaks or no detection at all in the experimental spectrum.
Fragmentierung:
fehlende Spaltung (missing cleavage site)
b-, y- and their derivative ions from peptides
Isotopic variations:
Isotopes of elements, such as carbon, nitrogen, and hydrogen, can affect the peptide’s mass. While theoretical spectra typically consider average atomic masses, experimental spectra may show slight deviations due to the presence of specific isotopes, especially if the instrument used has high resolution capabilities.
Contaminants or impurities:
The experimental spectrum may contain signals from contaminants or impurities present in the sample. These can arise from various sources, including the sample preparation process or contamination within the mass spectrometer.
Sample degradation or chemical instability:
Peptides can undergo degradation or chemical changes during sample preparation, storage, or ionization in the mass spectrometer. These alterations can lead to the detection of unexpected fragments or modifications in the experimental spectrum.
Instrument limitations:
Mass spectrometers have certain limitations in terms of sensitivity, resolution, and mass accuracy. These limitations can result in imperfect detection and representation of the peptide masses, leading to differences between the experimental and theoretical spectra.
3. Graphen (7 Punkte)
Gegeben ist folgender Graph:
file:///C:/Users/stevi/BXY50%20Bioinformatik/Klausur%20Beispiele/DONE_Klausur_18_Test.pdf
a) Geben sie die Adjazenzmatrix an.
b) Ist der Graph ein Euler’scher Graph? Bitte begründen
(Klausur_2018_Test = Klausuraufgaben Vorlesungsteil 2018)
a)
IN:
1 2 3 4 5 6
1 0 0 1 0 0 0
2 0 0 1 1 0 0
OUT: 3 0 0 0 1 1 0
4 1 0 0 0 1 0
5 0 1 0 0 0 1
6 0 1 0 0 0 0
a) Ja, weil jede Knotenpunkt die gleiche Anzahl von Eingaenge wie Anzahl von Ausgaenge hat
4: deBruijn-Graph(10 Punkte)
Gegeben sind die folgenden lexikographisch geordneten 4-meren:
AGAT, ATTA, CCTA, CTAG, GATT, TAGA, TCCT, TTAA
a) Konstruieren Sie den deBruijn_3-Graph
b) Geben sie den Eulerischen Pfad in dem Graphen an.
(Klausur_2018_Test = Klausuraufgaben Vorlesungsteil 2018)
b) TCCTAGATTAA
1: Motifsuche (15 Punkte)
a) Gegeben sind die folgenden DNA-Sequenzen:
- T G T A A
- T C T A A
- T C T A T
- G C T A C
- T C T A A
- G T T A A
- G C A A A
- G A T A G
- C C A T A
- T C T A T
a) Schreiben Sie die Profilmatrix (7 Punkte) und die Konsensus-Sequenz (2 Punkte) dieser Sequenzen auf!
b) Unter Verwendung dieser Matrix – ist Sequenz 8 oder 10 warscheinlicher? (3 Punkte)
c) Welche Position hat die höhere (Shannon) Entropie, Position 1 oder 4? (Positionen fangen mit der Zahl 1 an.) Wann ist die Entropie am höchsten? (3 Punkte)
Klausur 2019
a)
~~~
1 2 3 4 5
A 0.0 0.1 0.2 0.9 0.6
C 0.1 0.7 0.0 0.0 0.1
G 0.4 0.1 0.0 0.0 0.1
T 0.5 0.1 0.8 0.1 0.2
~~~
(Alternativ: Anzahl oder Prozente) Konsensus: TCTAA
b)
P(s8|matrix) = 0.4 * 0.1 * 0.8 * 09 * 0.1
P(s10|matrix) = 0.5 * 0.7 * 0.8 * 0.9 * 0.2
S10 ist wahrscheinlicher, da alle Nukleotid-Wahrscheinlichkeiten gleich gross oder grosser als die für s8 sind. (1Pkt wenn statt * genommen wird)
c)
Position 1 hat die hoehere Entropie, da die Eintraege naeher an einer Gleichverteilung sind (alternativ: mehrere Eintraege fast gleich wahrscheinlich sind). Die Entropie ist für eine Gleichverteilung am hoechsten.
ra
2: Alignment (15 Punkte)
Gegeben sind die beiden DNA-Sequenzen:
TGTGTA
TTCTA
und die folgenden Parameter:
match: 1
mismatch: 0 für A-T und G-C
-1 für alle anderen Mismatches
gap: -2
a) Schreiben Sie die Dynamische-Programmier-Matrix für ein Globales Alignment auf. (7 Punkte) Erklären Sie zusätzlich schriftlich am Beispiel von zwei Zellen (einer Zelle mit einem Match und einer Zelle mit einem Mismatch), wie Sie vorgehen, um den Wert der Zelle bestimmen! (4 Punkte)
b) Schreiben Sie das/ein optimales Alignment auf. (4 Punkte)
Klausur 2019
a)
~~~
T G T G T A
0 -2 -4 -6 -8 -10 -12
T -2 1 -1 -3 -5 -7 -9
T -4 -1 0 0 -2 -4 -6
C -6 -3 -1 -1 0 -2 -4
T -8 -5 -3 0 -2 1 -1
A -10 -7 -5 -2 -1 -1 2
~~~
TGTGTA
T-TCTA
3: Graphen (3 Punkte)
Beschreibt die folgende Adjazenzmatrix eines gerichteten Graphen einen Euler’schen Graph? Bitte begründen.
Node1 Node2 Node3 Node4 Node1 0 1 1 0 Node2 0 0 1 1 Node3 0 0 0 1 Node4 0 0 0 0
Klausur 2019
Antwort: Nein, da in-degree (#Eingabekanten) != out-degree (#Ausgabekanten) fuer mindestens einen (hier: alle) Knoten
(alternativ: In der Matrix ist die Anzahl 1 nicht dieselbe fuer die Zeilen/Spaltenpaare eines jeden Knoten)
4: Maschinelles Lernen/Künstliche Neuronale Netze (6 Punkte)
Was ist ein Perzeptron? (2 Punkte)
Wie sind Perzeptronen in einem Mehrschicht-Perzeptron miteinander verschaltet? (2 Punkte)
Was wird durch die Verwendung mehrerer Schichten ermöglicht? (2 Punkte)
Klausur 2019
The perceptron
* First machine learning algorithm, built as analog hardware in 1959 (weight updates with motors!)
* Defined as a “neuron”/compute node that takes a linear combination of inputs and passes it through an “activation function”
– Originally: threshold/ step function
– Sigmoid as activation function: perceptron == logistic regression!
– These days: tanh (differentiable) or “rectified linear” reLU
Multi-layer perceptrons (MLP)
- To define non-linear classification functions, one can combine nodes to a network
- most popular classic: the MLP (or, feed forward network)
- consists of 2+ layers of weights, where nodes from the current layer are strictly connected to the next one
this leads to an effective learning algorithm
for 2-class classification, the final layer consists of a single node with the sigmoid/tanh activation function, to scale values to (0,1) or (-1,1)
- tanh(a) = (e^a - e^-a) / (e^a + e^-a)
5: Analyse von Massenspektren (15 Punkte)
Bestimmen Sie die Sequenz des linearen Peptides mit dem folgenden theoretischen Spektrum (geben Sie die Zwischenschritte an):
57 87 97 101 144 184 198 241 285 342
Benutzen Sie dabei die folgenden Aminosäuremassen:
G A S P V T C I/L N D K/Q E M H F R Y W 57 71 87 97 99 101 103 113 114 114 128 129 131 137 147 156 163 186
Klausur 2019
Iteration 1 (3p) Iteration 2 (3p) Iteration 3 (3+3p) Iteration 4 (3p) G, 57 GS, 144 GSP, 241 GSPT, 342 S, 87 SG, 144 SGP, 241X SP, 184 SPG, 241X SPT, 285 SPTG, 342X P, 97 PS, 184 PSG, 241 PSGT, 342X PST, 285X PT, 198 PTS, 285X T, 101 TP, 198 TPS, 285 TPSG, 342
–> GSPT/TPSG
Branching step only shown here for amino acids that are in given spectrum.
X – theoretical spectra of this subpeptide do not match given spectrum. (extra 3 Punkte bei Iteration 3)
1. Alignment (15 Punkte)
Gegeben sind die beiden DNA-Sequenzen:
AGGTGAT
GTAGT
und die folgenden Parameter:
match: +2
mismatch: -2
gap: -1
a) Schreiben Sie die Dynamische-Programmier-Matrix für ein Lokales Alignment auf. (7 Punkte) Erklären Sie zusätzlich schriftlich am Beispiel von zwei beliebig gewählten Zellen, wie Sie vorgehen, um den Wert der Zelle bestimmen!
(4 Punkte)
b) Schreiben Sie alle optimalen Alignments auf. (4 Punkte)
Klausur 20
a)
- A G G T G A T - 0 0 0 0 0 0 0 0 G 0 0 2 2 1 2 1 0 T 0 0 1 1 4 3 2 3 A 0 2 1 0 3 2 5 4 G 0 1 4 3 2 5 4 3 T 0 0 3 2 5 4 3 6
b)
G T - G A T
G T A G - T
G T G A - T
G T - A G T
2. Motifsuche (15 Punkte)
a) Gegeben sind die folgenden DNA-Sequenzen:
1 C G T A T
2 G C T A T
3 C C T A A
4 C C T A C
5 G C T A T
6 G T T A T
7 C C A A T
8 G A T A G
9 T C A T T
10 C C T A A
a) Schreiben Sie die Profilmatrix (7 Punkte) dieser Sequenzen auf!
b) Bestimmen Sie die Konsensus-Sequenz (2 Punkte). Welche der 10 Sequenzen hat die höchste Wahrscheinlichkeit? Warum? (3 Punkte)
c) Wie hoch ist die Wahrscheinlichkeit der Sequenz CCTGT? Welches Problem tritt hier auf, und wie lässt es sich umgehen? (3 Punkte)
Klausur 20
a)
A 0.0 0.1 0.2 0.9 0.2
C 0.5 0.7 0.0 0.0 0.1
G 0.4 0.1 0.0 0.0 0.1
T 0.1 0.1 0.8 0.1 0.6
b)
CCTAT
Seq 2/5 (identisch) – hat ueberall die hoechsten Werte/haeufigsten Nukleotide bis auf Pos 1, bei der der zweithoechste Wert auftritt. Konsensus selbst taucht unter den 10 Sequenzen nicht auf!
c)
0.5 * 0.7 * 0.8 * 0 * 0.6
Obwohl die Wahrscheinlichkeit an den mesiten Stellen hoch ist, wird die gesamt wahrscheinlichkeit 0, weil an Stelle 4 eine Null ist.
Pseudocounts werden hinzugefuegt nach Laplace, um eine Wahrscheinlichkeit von Null zu vermeiden