Genomika Flashcards

1
Q

genomika (definicja)

A

to nauka interdyscyplinarna łącząca w sobie biologię molekularną, robotykę i nauki obliczeniowe [informatykę].
Zajmuje się globalną wielkoskalową analizą wszystkich genów, transkryptów i białek w organizmie stosując automatyczne technologie biologii molekularnej o dużej przepustowości [high-throughput]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

bioinformatyka (definicja)

A

to nauka interdyscyplinarna wykorzystująca narzędzia matematyczne i informatyczne do rozwiązywania problemów z dziedziny nauk biologicznych - biologii molekularnej.

  • biologia molekularna dostarcza danych biologicznych takich jak dane dotyczące kwasów nukleinowych, białek, lipidów, węglowodanów i innych makrocząsteczek
  • informatyka dostarcza narzędzi, metod i obliczeń komputerowych [nauki i techniki komputerowe, teoria informacji, matematyka stosowana, statystyka, teoria prawdopodobieństwa]
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

cele bioinformatyki (2)

A
  1. organizowanie i zarządzanie informacjami o makrocząsteczkach i innych danych biologicznych w formie cyfrowych zapisów - baz danych
  2. analiza tych danych przy pomocy różnych programów i narzędzi oraz metod i algorytmów
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

genomika, bioinformatyka - poziomy analiz (6)

A
  1. genom
  2. transkryptom
  3. proteom
  4. lokalizom
  5. interaktom
  6. metabolom
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

genom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)

A
  1. przedmiot badań - wszystkie sekwencje DNA lub RNA zawarte w organizmie, geny, sekwencje regulatorowe
  2. dziedzina badań - genomika
  3. temat badań - poszukiwanie sekwencji kodujących, regulatorowych i powtórzonych, rozpoznawanie eksonów i intronów, ogólna organizacja genomów (skład, rozmieszczenie genów), porównanie sekwencji
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

transkryptom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)

A
  1. przedmiot badań - wszystkie transkrybowane sekwencje RNA w organizmie
  2. dziedzina badań - transkryptomika, RNomika
  3. temat badań - analiza ekspresji genów w różnych tkankach i warunkach przy pomocy mikromacierzy oligonukleotydowych i cDNA
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

proteom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)

A
  1. przedmiot badań - wszystkie białka zawarte w organizmie
  2. dziedzina badań - proteomika
  3. temat badań - porównanie sekwencji, identyfikacja konserwowanych regionów (motywów i domen), przewidywanie struktury drugorzędowej i trzeciorzędowych, interakcje, obróbka, identyfikacja białek w komórce i tkankach
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

lokalizom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)

A
  1. przedmiot badań - subkomórkowe położenie białek w komórce
  2. dziedzina badań - lokalizomika
  3. temat badań - poszukiwanie specyficznych motywów w sekwencjach aminokwasowych oraz peptydów sygnałowych i tranzytowych kierujących sekwencje do odpowiednich przedziałów komórki
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

interaktom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)

A
  1. przedmiot badań - zależności i interakcje między białkami i innymi cząsteczkami w komórce
  2. dziedzina badań - interaktomika i biologia systemów
  3. temat badań - interakcje między białkami, które przedstawiane są za pomocą sieci zależności
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

metabolom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)

A
  1. przedmiot badań - wszystkie procesy, szlaki, substraty i produkty metaboliczne zachodzące w organizmie
  2. dziedzina badań - metabolomika i biologia systemów
  3. temat badań - określanie sieci i szlaków metabolomicznych, symulacje komputerowe
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

G

komputerowy zapis sekwencji nukleotydowej

A

G - guanina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

A

komputerowy zapis sekwencji nukleotydowej

A

A - adenina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

T

komputerowy zapis sekwencji nukleotydowej

A

T - tymina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

C

komputerowy zapis sekwencji nukleotydowej

A

C - cytozyna

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

R

komputerowy zapis sekwencji nukleotydowej

A

puryna, czyli A - adenina lub G-guanina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Y

komputerowy zapis sekwencji nukleotydowej

A

pirymidyna, czyli C - cytozyna lub T - tymina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

M

komputerowy zapis sekwencji nukleotydowej

A

A - adenina lub C - cytozyna

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

K

komputerowy zapis sekwencji nukleotydowej

A

G - guanina lub T - tymina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

S

komputerowy zapis sekwencji nukleotydowej

A

silna interakcja - potrójne wiązanie, czyli C - cytozyna lub G - guanina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

W

komputerowy zapis sekwencji nukleotydowej

A

słaba interakcja - podwójne wiązanie, czyli A - adenina lub T - tymina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

H

komputerowy zapis sekwencji nukleotydowej

A

A - adenina, C - cytozyna lub T - tymina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

B

komputerowy zapis sekwencji nukleotydowej

A

C - cytozyna, G - guanina lub T - tymina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

V

komputerowy zapis sekwencji nukleotydowej

A

A - adenina, C - cytozyna lub G - guanina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

D

komputerowy zapis sekwencji nukleotydowej

A

A - adenina, G - guanina lub T - tymina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

N

komputerowy zapis sekwencji nukleotydowej

A

dowolna zasada

A - adenina, C - cytozyna, G - guanina lub T - tymina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

format Staden / SEQ / “Normal” / “Sequence Only”

A

dozwolone małe, duże litery i spacje

tylko sama sekwencja

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

format FASTA / Pearson

A

linia definicji: “ >nazwa sekwencji | komentarz “

sekwencja: z małych liter, 60-80 znaków w linijce, gubienie sporej informacji o danej sekwencji

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

format GCG

A

linia opisu: identyfikator sekwencji, długość sekwencji, data wprowadzenia, suma kontrolna “..” - początek sekwencji
sekwencja: na początku każdej linijki numer początkowy nukleotydu w sekwencji, co 10ty nukleotyd spacja, maksymalnie 50 nukleotydów w linijce, duże litery

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

format NEWAT

A

linia opisu: “ TORIC nazwa sekwencji”
sekwencja: “PORIC numer pierwszego nukleotydu w linijce sekwencja”, co linijkę taki sam wzór, spacja co nukleotyd, maksymalnie 30 nukleotydów w linijce, z dużych liter
“ * “ po ostatnim nukleotydzie oznacza koniec sekwencji

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

format NBRF

A

linia opisu:
“ >identyfikator
nazwa sekwencji”
sekwencja: z dużych liter, “ * “ po ostatnim nukleotydzie oznacza koniec sekwencji

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

format FASTQ

A

zapis sekwencji po sekwencjonowaniu

@identyfikator sekwencji
nieprzetworzone litery sekwencji
+
wartości jakości sekwencji (tyle samo znaków co liter sekwencji, “!” oznacza najniższą jakość odczytu, “~” oznacza najwyższą jakość odczytu)

32
Q

Operatory boolowskie (3)

A

AND - wynik ma zawierać oba terminy
OR - wynik ma zawierać co najmniej jeden termin
NOT - dany termin nie może się znaleźć w wyniku

33
Q

ORF

A

Open Reading Frame - otwarta ramka odczytu
Start: AUG
Stop: UAG, UAA, AGA
kierunek 5’ -> 3’

34
Q

Poszukiwanie genów u Prokaryota (5)

A
  1. ciągłe ORFy, nieposiadające intronów, łatwiejsze w identyfikacji, stosowana dyskryminacja na podstawie długości >300 pz
  2. geny gęsto upakowane, mało przestrzeni międzygenowych
  3. prostsze i bardziej stałe regiony regulatorowe
  4. sekwencje lepiej poznane
  5. błędy w rozpoznaniu 10%
35
Q

Poszukiwanie genów - problemy (4)

A
  1. problem w analizie krótkich ORF, krótkich eksonów i pseudogenów
  2. problem w określaniu startu ORF i pierwszego eksonu
  3. problem z zachodzeniem sekwencji kodujących na siebie
  4. odchylenia od standardowego kodu genetycznego
36
Q

Poszukiwanie genów u Eukaryota

A
  1. geny podzielone na eksony i introny o różnej liczbie i wielkości, duże rozproszenie eksonów, obecność eksonów niekodujących w regionie 5’UTR
  2. geny rozproszone, niska gęstość kodowania
  3. większe zróżnicowanie i niestałość miejsc regulatorowych oraz granic ekson/intron
  4. sekwencje gorzej poznane
  5. błędy w rozpoznaniu 30%
  6. liczne sekwencje powtórzone
  7. alternatywny splicing, transsplicing, redagowanie RNA, alternatywna transkrypcja i translacja
37
Q

kodon miejsca inicjacji translacji

A

ATG

38
Q

miejsca łączenia eksonów

A

AG lub GT

39
Q

konsensus

A

zawiera najczęściej pojawiające się nukleotydy w danej pozycji

40
Q

wyrażenie regularne

A

reprezentują logiczne kombinacje znaków

41
Q

przyrównanie (definicja)

A

procedura porównania, przyrównania (ang. alignment) sekwencji nukleotydowych lub aminokwasowych
Polega na poszukiwaniu ciągów znaków (zasad nukleotydowych lub reszt aminokwasowych), które posiadają te samo ułożenie w porównywanych sekwencjach:
- dwie sekwencje - pair-wise alignment
- wiele sekwencji - multiple sequence alignment
gap, indel - przerwa
match - przyrównanie
mismatch - brak przyrównania

42
Q

podobieństwo porównywanych sekwencji (similarity) może świadczyć o… (3)

A
  1. podobnej funkcji sekwencji
  2. podobnej strukturze białek
  3. wspólnej i raczej niedawnej, historii ewolucyjnej sekwencji
43
Q

podobieństwo porównywanych sekwencji (similarity) może wynikać z … (2)

A
  1. homologii - pochodzeniu sekwencji od wspólnego przodka

2. homoplazji (konwergencji) - podobnych zmianach, które pojawiły się w obu sekwencjach niezależnie

44
Q

stwierdzone różnice między sekwencjami świadczą o…

A

mutacjach, które zaszły po rozdzieleniu się sekwencji od wspólnego przodka
np. delecja, insercja, substutucje (G->A, C->T)

45
Q

metoda macierzy kropkowanej to …

A

graficzny sposób przyrównania dwóch sekwencji w dwuwymiarowej macierzy

46
Q

metoda macierzy kropkowanej - problem

A

występowanie szumu przy zbyt długich sekwencjach

47
Q

metoda macierzy kropkowanej umożliwia [4]

A
  1. przyrównanie jednej sekwencji - samej ze sobą, w celu znalezienia powtarzających się fragmentów
  2. bezpośrednie określenie podobieństw
  3. ułatwia znalezienie najbardziej podobnych fragmentów
  4. uwidocznienie wszystkich możliwych skojarzeń
48
Q

macierz BLOSUM to…

A

macierze dla różnych odległości ewolucyjnych, które zostały wyliczone z porównania sekwencji odpowiednio odległych - redukuje to wpływ blisko spokrewnionych sekwencji

BLOSUM30 - bloki sekwencji o identyczności co najmniej 30% połączone w jedną sekwencję
BLOSUM62 - bloki sekwencji o identyczności co najmniej 62% połączone w jedną sekwencję
BLOSUM80 - bloki sekwencji o identyczności co najmniej 80% połączone w jedną sekwencję

wyliczane częstości substytucji zależą w większym stopniu od sekwencji bardziej od siebie odległych niż przyjęta wartość graniczna

49
Q

system score-ów dla przerw - affine gap penalty

A

gap penalty = gap opening + [gap extension * gap lenght]

gap extension - mniejsze lub równe 5% wartości gap opening

na końcach przyrównania gap penalties są często uwzględniane

dla sekwencji odległych - high gap-opening penalty, very low gap-extension penalty

dla sekwencji bliskich - high gap-opening penalty, high gap-extenstion penalty

50
Q

delecja i insercja to zjawiska pojawiające się bardzo …

A

rzadko, ale jak już powstaną to dotyczą długiego odcinka

51
Q

score przyrównania to

A

suma score’ów matches i mismatches + suma score’ów gap penalty

52
Q

e-value - the expectation value to

A

liczba fałszywych homologów [sekwencji niespokrewnionych] obecnych w bazie danych, które posiadają przypadkowe przyrównania z większym score, lepsze niż score przyrównania między sekwencją wysłaną a znalezioną

E = 10, czyli w bazie danych możemy znaleźć 10 sekwencji o większym score
E = 0,01, czyli w bazie danych możemy znaleźć 1 przypadek o większym score na 100 przeszukiwań
53
Q

e-value - istotność podobieństwa

A

E ≤ 0,02 lub 0,05 - podobieństwo najprawdopodobniej istotne statystycznie
0,02-1 - nie można wykluczyć homologii
E > 1 - podobieństwo nieistotne statystycznie

54
Q

homologia [homology] to …

A

pochodzenie [sekwencji] od wspólnego przodka; sekwencje homologiczne = pochodzące od wspólnego przodka

55
Q

identyczność [identity] to …

A

stopień, poziom niezmienności sekwencji; mierzony procentem takich samych zasad nukleotydowych lub reszt aminokwasowych wspólnych dla porównywanych sekwencji

56
Q

podobieństwo [similarity] to …

A

stopień, poziom niezmienności sekwencji uwzględniający właściwości fizykochemiczne reszt, mierzony procentem identycznych i podobnych zasad nukleotydowych lub reszt aminokwasowych wspólnych dla porównywanych sekwencji

57
Q

progresywne przyrównanie globalne - przebieg

A
  1. wykonanie przyrównań dla wszystkich par sekwencji (każda z każdą) i obliczenie dla nich procentu różnic (lub score-ów). Stworzenie macierzy odległości
  2. stworzenie w oparciu o macierz odległości przewodniego (pomocniczego) drzewa - guide tree, dendogramu (metodą NJ)
  3. sekwencje przyrównywane są kolejno ze względu na podobieństwo opisane na drzewie. Przyrównane zostają najpierw sekwencje najbardziej podobne do siebie
  4. następnie przyrównywane są kolejne, najbardziej podobne sekwencje wg przewodniego drzewa filogenetycznego. Sekwencje już przyrównane są traktowane jako całość w kolejnym przyrównaniu
58
Q

algorytm programowania dynamicznego wykorzystywany jest do poszukiwania sekwencji…

A

odległych, o <20% identyczności

59
Q

metody heurystyczne - poszukiwania sekwencji i tworzenia przyrównań, analizują..

A

tylko niektóre z możliwych przyrównań, nie gwarantują znalezienia optymalnego przyrównania, są zoptymalizowane by być szybkie, nie do dokładności przyrównania

60
Q

wykorzystanie PSSM i profili do przeszukiwania baz

A
  • wykonuje wielokrotne przeszukiwania bazy danych
  • sekwencje znalezione w danym przeszukiwaniu są wykorzystywane do tworzenia macierzy score’ów (PSSM, profile) stosowanej w następnym etapie poszukiwań
  • odpowiedni dla poszukiwania odległych homologów

sekwencja pojedyncza -> bazy danych zawierająca sekwencje aminokwasowe -> macierz score’ów PSSM profile -> bazy danych zawierająca sekwencje aminokwasowe

61
Q

etapy analiz filogenetycznych

A
  1. przyrównanie sekwencji - uzyskanie zbioru danych
  2. określenie modelu substytucji - podstawień
  3. skonstruowanie drzewa filogenetycznego - określenie odległości między sekwencjami
  4. analiza i ocena drzewa filogenetycznego
62
Q

homologi to…

A

sekwencje, które posiadają arbitralny, przyjęty poziom podobieństwa określony na podstawie przyrównania pasujących zasad lub aminokwasów

63
Q

ortologi to…

A

homologi powstałe w wyniku specjacji. Reprezentują one geny z różnych organizmów odziedziczone po wspólnym przodku. Mają tendencję do posiadania podobnej funkcji

64
Q

paralogi to…

A

homologi powstałe w wyniku duplikacji. Reprezentują geny z jednego organizmu pochodzące od wspólnego genu - przodka, który został zduplikowany w danym organizmie, a następnie uległ dywergnecji. Mają one tendencję do posiadania różnych funkcji

65
Q

ksenologi to…

A

homologi nabyte w wyniku poziomego przenoszenia informacji genetycznej między organizmami transferu horyzontalnego, bocznego - HGT. Mają zwykle podobne funkcje

66
Q

skutki mutacji

A
  • zmiana synonimiczna - brak zmiany aminokwasu

najczęściej szkodliwe, nieakceptowane:

  • zmiana niesynonimiczna - missense -> zmiana aminokwasu
  • zmiana nonsensowna - nonsense -> kodon stop
  • pominięcie stopu
67
Q

tranzycje są generalnie częstsze niż transwersje ze względu na.. [2]

A
  1. większą częstość mutacji zasad podobnych do siebie
  2. tranzycje rzadziej zmieniają kodowane aminokwasy lub ich właściwości

tranzycje CT, AG
transwersje CA, CG, TG, TA

68
Q

rodzaje konwergencji - homoplazja

brak różnić między organizmami

A

takie same substytucje w obu sekwencjach
np. 1) A->C i 2) A->C

zbieżne substytucje
np. 1) A->T i 2) A->C->T

rewersje
np. 1) nic i 2) A->C->A

69
Q

w sekwencjach mogą istnieć regiony, które mogą się swobodnie zmieniać i takie, które..

A

w ogóle są niezmienne, np. ze względu na pełnioną funkcję

70
Q

różne regiony w sekwencjach ewoluują…

A

w różnym tempie (mają różne prawdopodobieństwa zmian) ze względu na działającą na nie różną presję selekcyjną i mutacyjną

71
Q

w sekwencjach kodujących białko największą zmienność wykazują …

A

trzecie pozycje kodonów, dlatego w wielu analizach filogenetycznych genów wyklucza się trzecie pozycje

72
Q

metoda maksymalnej parsymonii [MP, największej oszczędności]

A
  • metoda konstruowania drzewa filogenetycznego
  • wybranie drzewa o najmniejszej liczbie zmian ewolucyjnych lub najkrótszej łącznej długości gałęzi
  • drzewo z najmniejszą liczbą substytucji najlepiej tłumaczy różnice między taksonami

etapy:

  1. wyszukanie wszystkich możliwych topologii drzew
  2. odtworzania sekwencji przodków z jak najmniejszą liczbą zmian w sekwencji
  3. zliczanie sumy zmian dla drzew - drzewo o jak najmniejszej liczbie zmian uznawane za najlepsze
73
Q

hipoteza zegara molekularnego

A
  • metoda tworzenia drzewa filogenetycznego
  • sekwencje molekularne ewoulują w stałym tempie, a zatem liczba zgromadzonych mutacji jest proporcjonalna do czasu ewolucji. Zgodnie z tą hipotezą można oszacować czas dywergencji. Założenie o stałości tempa ewolucji rzadko znajduje odzwierciedlenie w rzeczywistości
74
Q

metody tworzące drzewa wykorzystujące algorytm klastrujący (sposób konstrukcji drzewa) i dane odległości to.. [2]

A

UPGMA

NJ - przyłączania sąsiada

75
Q

metody tworzące drzewa wykorzystujące algorytm optymalności (sposób konstrukcji drzewa) i dane odległości to.. [2]

A

LS/FM

ME - metoda minimalnych odległości

76
Q

metody tworzące drzewa wykorzystujące algorytm optymalności (sposób konstrukcji drzewa) i dane o miejscach w sekwencjach to.. [3]

A

MP - parsymonii
ML - największej wiarygodności
metody Bayesowskie

77
Q

mikromacierze i chipy DNA służą do [4]

A
  1. znajdowania genów reagujących zmianą ekspresji na zmiany środowiskowe lub genotypowe
  2. znajdowanie genów, których ekspresja różni się między tkankami, podczas rozwoju, w tkance chorej i zdrowej, między gatunkami
  3. wykrywanie predyspozycji lub diagnostyka chorób
  4. określenie wpływu leków