Übungen (Fragen) Flashcards

Question

Greedy-Algorithmus vs. optimaler Pfad

Answer 1

Greedy-Algorithmus liefert nicht immer das optimale Ergebnis. Superstring-Problematik: Größere Werte von l führen zu längeren Approximationen.

Answer 2

Hierholzer-Algorithmus findet Eulerpfade in O(E) durch DFS + Rückverbindung.

Answer 3

4. Distanzmatrix D ist additiv Kombination von 4 Punkten erfüllt (iv) eindeutiger binärer ungewurzelter Baum ---> dxy +duv <= dxu + dyv = dxv + dyu eindeutiger binärer gewurzelter Baum, in dem alle Blätter die gleiche Distanz zur Wurzel haben ---> dxy <= dxz = dyz

Answer 4

Berechnet phylogenetische Bäume durch iterative Fusion von Clustern. Laufzeit: O(n³).

Answer 5

P = Entscheidungsprobleme, die in polynomieller Zeit gelöst werden können * NP = Entscheidungsprobleme, die in polynomieller Zeit verifiziert werden können NP-vollständig: schwerste Probleme in NP

Answer 6

Sequenzalignment ist eine Methode, die biologische Sequenzen (DNA, RNA, Proteine) so anzuordnen, dass die Unterschiede und Ähnlichkeiten verglichen werden können.

Answer 7

Man zerlegt das Problem in kleinere Teilprobleme und speichert deren Lösungen, um doppelte Berechnungen zu vermeiden. Dadurch wird das Problem effizient gelöst

Answer 8

Man reduziert den Speicherbedarf von O(nm) auf O(n), indem man nur zwei Zeilen speichert (die aktuelle und die vorherige)

Answer 9

Globales Alignment (Needleman-Wunsch) vergleicht die gesamte Länge der beiden Sequenzen. Lokales Alignment (Smith-Waterman) sucht nur den besten übereinstimmenden Teilbereich innerhalb der Sequenzen.

Answer 10

Smith-Waterman setzt negative Werte auf 0, damit nur positive Übereinstimmungen weiterverfolgt werden. Dadurch stoppt das Alignment automatisch, wenn es nicht mehr sinnvoll ist, und es bleibt auf den besten Teilbereich begrenzt.

Answer 11

Ein Problem wird rekursiv in kleinere Teilprobleme unterteilt, die unabhängig voneinander gelöst werden. Die Teillösungen werden anschließend kombiniert, um die Gesamtlösung zu erhalten.

Answer 12

Der Hirschberg-Algorithmus berechnet die Edit-Distanz zwischen zwei Sequenzen effizient, indem er Speicher spart. Er nutzt Divide & Conquer und speichert nicht die gesamte Edit-Matrix, sondern nur zwei Zeilen. Zuerst wird die Mitte der optimalen Ausrichtung berechnet, indem nur die letzten zwei Zeilen der dynamischen Programmierung gespeichert werden. Danach wird das Problem rekursiv für die zwei Hälften der Sequenzen gelöst.

Answer 13

Der Hirschberg-Algorithmus hat eine Laufzeit von O(nm), aber benötigt nur O(min(n, m)) Speicherplatz. (Anmerkung: Die Zeitkomplexität ist korrekt, aber die Speicherkomplexität ist das wichtigste Merkmal des Algorithmus!)

Answer 14

Ähnlichkeiten, die in einem paarweisen Alignment verdeckt sind, durch das Multiple Sequence Alignment (MSA) sichtbar werden.Mehrdeutigkeiten durch zusätzliche Sequenzen aufgelöst werden und evolutionäre Beziehungen besser sichtbar werden.

Answer 15

Sum-of-Pairs (SP)-Score: Summiert die paarweisen Alignmentscores über alle möglichen Paare. Baum-basierte Scores: Nutzen ein phylogenetisches Baum-Modell, um evolutionäre Beziehungen zu gewichten.

Answer 16

Зaarweise Vergleiche mit Einheitkosten durchgeführt werden und die Sequenz mit den minimalen Kosten als „Center“ gewählt wird. Alle anderen Sequenzen werden einzeln gegen die Center-Sequenz ausgerichtet.

Answer 17

1. Erstellen des Suffixbaum: Konstruiere den Suffixbaum von T (man kann z.B mit dem Ukkonen-Algorithmus oder einem ähnlichen Verfahren). 2. Berechnung der Häufigkeit jedes Teilwortes: Die Häufigkeit jedes Teilwortes wird berechnet, indem für jeden Knoten im Suffixbaum die Anzahl der Blätter in seinem Teilbaum gezählt wird. Diese Anzahl entspricht der Häufigkeit des Teilwortes, das der Knoten repräsentiert. Die Werte werden für jeden Knoten gespeichert, um später das längste häufigste Teilwort zu bestimmen. 3. Suche nach dem längsten häufigsten Teilwort: Für jeden Knoten wird die Länge des repräsentierten Teilwortes berechnet, basierend auf der Summe der Längen der Kanten von der Wurzel zu diesem Knoten. Die Häufigkeit des Teilwortes wird mit dem bisherigen Maximum verglichen, und das längste Teilwort mit der höchsten Häufigkeit wird festgehalten. Bei gleicher Häufigkeit wird das längere Teilwort bevorzugt. 4. Ergebnisses: Gib das Teilwort zurück Laufzeit: 1. Erstellen des Suffixbaums: O(n), weil der Ukkonen-Algorithmus oder ähnliche Verfahren den kompakten Suffixbaum in linearer Zeit konstruieren können. 2. Berechnung der Häufigkeiten: O(n), da die Anzahl der Blätter in einem Teilbaum durch eine Tiefensuche (DFS) in linearer Zeit bestimmt werden kann. 3. Finden des längsten häufigsten Teilwortes: O(n) Gesamtlaufzeit: O(n)+O(n)+O(n)=O(n)

Answer 18

Um das längste palindromische Teilwort zu finden, suchen wir nach dem längsten gemeinsamen Präfix (LCP) zwischen den Suffixen von T und TR. Dies entspricht den Teilwörtern von T, die auch in TR vorkommen und somit palindromisch sind. Die Suche nach dem LCP erfolgt durch: Identifikation der Knoten im Suffixbaum, die sowohl Suffixe von T (links vom Trennzeichen) als auch Suffixe von TR (rechts vom Trennzeichen) enthalten. Berechnung der Länge der gemeinsamen Präfixe für diese Knoten. Bestimmung des längsten Präfixes unter diesen. Palindromische Teilwörter sind solche, die in T und TR identisch sind, da TR die umgekehrte Darstellung von T ist. Durch den Suffixbaum und die Suche nach dem LCP zwischen T und TR identifizieren wir die längsten Abschnitte, die sowohl in T als auch in TR vorkommen. Beispiel: Für T=BANANAS: TR=SANANAB T$TR$=BANANAS$SANANAB$ Im Suffixbaum des kombinierten Strings identifizieren wir die Knoten, die Suffixe von T und TR enthalten. Das längste gemeinsame Präfix dieser Suffixe ist ANANA.

Answer 19

-ein zu kleines l führt zu einem hohen Rechnenaufwand und ineffizienten Superstrings, da mehr mögliche Überlappungen berücksichtigen werden müssen -ein zu großes l könnte zu mehrere Teilgraphen führen und das wir nicht assemblieren können

Answer 20

-starte an einem Knoten mit ungeradem Grad (falls nicht existiert, beliebiger) -folge den Kanten des Graphen, wobei jede Kante nur einmal verwendet wird -falls ein Teilzyklus entdeckt wird, speichere ihn und setze den Weg an einem noch nicht vollständig besuchten Knoten fort -verknüpfe die Teilzyklen zu einem vollständigen Eulerpfad Laufzeit -> O(E) oder O(V+E)

Answer 21

Ein Element M(i,j) in der Edit-Matrix gibt den optimalen Edit-Score oder die Edit-Distanz für das Alignment der ersten i Zeichen der Sequenz S und der ersten j Zeichen der Sequenz T an.

Answer 22

Der Hirschberg-Algorithmus nutzt die Forwärts-Rückwärts-Technik, um den optimalen Schnittpunkt für das Alignment effizient zu bestimmen. Divide (Teilen): Anstatt die gesamte Edit-Matrix zu speichern, berechnet der Algorithmus nur die Kosten der ersten Hälfte des Alignments (Vorwärtsrichtung) und danach die zweite Hälfte (Rückwärtsrichtung). Durch diesen Ansatz wird ein optimaler Schnittpunkt in der Mitte der Sequenzen bestimmt. Conquer (Erobern): Nach der Bestimmung des Schnittpunkts wird das Problem rekursiv in kleinere Teilprobleme zerlegt. Das finale Alignment ergibt sich als Konkatenation der einzelnen optimalen Teil-Alignments. 📌 Vorteil: Der Algorithmus reduziert den Speicherverbrauch von O(mn) auf O(n) und eignet sich besonders für lange Sequenzen, wo eine vollständige Edit-Matrix zu groß wäre.

Answer 23

def max_prefix(x, y): z = [] # Liste für das gemeinsame Präfix for i in range(min(len(x), len(y))): # Nur bis zur Länge der kürzeren Sequenz if x[i] == y[i]: z.append(x[i]) # Übereinstimmende Zeichen zum Präfix hinzufügen else: break # Falls eine Differenz gefunden wird, abbrechen return z # Gemeinsames Präfix zurückgeben

Answer 24

Funktion build_BWT(S): 1. Rufe generate_rotations(S) auf, um alle zyklischen Rotationen zu erhalten. 2. Sortiere die Liste der Rotationen lexikografisch. 3. Extrahiere die letzte Spalte der sortierten Matrix: - Erstelle eine leere Zeichenkette BWT. - Für jede Zeile rot in der sortierten Liste: - Hänge das letzte Zeichen von rot an BWT an. 4. Gib die BWT-Sequenz zurück.

Answer 25

Funktion generate_rotations(S): n = Länge von S Erstelle eine leere Liste rotations Für i von 0 bis n-1: - Füge die Rotation S[i:] + S[:i] zur Liste rotations hinzu Gib die Liste rotations zurück.

Answer 26

function inverseBWT (string s) create empty table repeat length(s) times // first insert creates first column insert s as a column of table before first column of the table sort rows of the table alphabetically return (row that ends with the 'EOF' character)