Genomika Flashcards
genomika (definicja)
to nauka interdyscyplinarna łącząca w sobie biologię molekularną, robotykę i nauki obliczeniowe [informatykę].
Zajmuje się globalną wielkoskalową analizą wszystkich genów, transkryptów i białek w organizmie stosując automatyczne technologie biologii molekularnej o dużej przepustowości [high-throughput]
bioinformatyka (definicja)
to nauka interdyscyplinarna wykorzystująca narzędzia matematyczne i informatyczne do rozwiązywania problemów z dziedziny nauk biologicznych - biologii molekularnej.
- biologia molekularna dostarcza danych biologicznych takich jak dane dotyczące kwasów nukleinowych, białek, lipidów, węglowodanów i innych makrocząsteczek
- informatyka dostarcza narzędzi, metod i obliczeń komputerowych [nauki i techniki komputerowe, teoria informacji, matematyka stosowana, statystyka, teoria prawdopodobieństwa]
cele bioinformatyki (2)
- organizowanie i zarządzanie informacjami o makrocząsteczkach i innych danych biologicznych w formie cyfrowych zapisów - baz danych
- analiza tych danych przy pomocy różnych programów i narzędzi oraz metod i algorytmów
genomika, bioinformatyka - poziomy analiz (6)
- genom
- transkryptom
- proteom
- lokalizom
- interaktom
- metabolom
genom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)
- przedmiot badań - wszystkie sekwencje DNA lub RNA zawarte w organizmie, geny, sekwencje regulatorowe
- dziedzina badań - genomika
- temat badań - poszukiwanie sekwencji kodujących, regulatorowych i powtórzonych, rozpoznawanie eksonów i intronów, ogólna organizacja genomów (skład, rozmieszczenie genów), porównanie sekwencji
transkryptom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)
- przedmiot badań - wszystkie transkrybowane sekwencje RNA w organizmie
- dziedzina badań - transkryptomika, RNomika
- temat badań - analiza ekspresji genów w różnych tkankach i warunkach przy pomocy mikromacierzy oligonukleotydowych i cDNA
proteom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)
- przedmiot badań - wszystkie białka zawarte w organizmie
- dziedzina badań - proteomika
- temat badań - porównanie sekwencji, identyfikacja konserwowanych regionów (motywów i domen), przewidywanie struktury drugorzędowej i trzeciorzędowych, interakcje, obróbka, identyfikacja białek w komórce i tkankach
lokalizom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)
- przedmiot badań - subkomórkowe położenie białek w komórce
- dziedzina badań - lokalizomika
- temat badań - poszukiwanie specyficznych motywów w sekwencjach aminokwasowych oraz peptydów sygnałowych i tranzytowych kierujących sekwencje do odpowiednich przedziałów komórki
interaktom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)
- przedmiot badań - zależności i interakcje między białkami i innymi cząsteczkami w komórce
- dziedzina badań - interaktomika i biologia systemów
- temat badań - interakcje między białkami, które przedstawiane są za pomocą sieci zależności
metabolom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)
- przedmiot badań - wszystkie procesy, szlaki, substraty i produkty metaboliczne zachodzące w organizmie
- dziedzina badań - metabolomika i biologia systemów
- temat badań - określanie sieci i szlaków metabolomicznych, symulacje komputerowe
G
komputerowy zapis sekwencji nukleotydowej
G - guanina
A
komputerowy zapis sekwencji nukleotydowej
A - adenina
T
komputerowy zapis sekwencji nukleotydowej
T - tymina
C
komputerowy zapis sekwencji nukleotydowej
C - cytozyna
R
komputerowy zapis sekwencji nukleotydowej
puryna, czyli A - adenina lub G-guanina
Y
komputerowy zapis sekwencji nukleotydowej
pirymidyna, czyli C - cytozyna lub T - tymina
M
komputerowy zapis sekwencji nukleotydowej
A - adenina lub C - cytozyna
K
komputerowy zapis sekwencji nukleotydowej
G - guanina lub T - tymina
S
komputerowy zapis sekwencji nukleotydowej
silna interakcja - potrójne wiązanie, czyli C - cytozyna lub G - guanina
W
komputerowy zapis sekwencji nukleotydowej
słaba interakcja - podwójne wiązanie, czyli A - adenina lub T - tymina
H
komputerowy zapis sekwencji nukleotydowej
A - adenina, C - cytozyna lub T - tymina
B
komputerowy zapis sekwencji nukleotydowej
C - cytozyna, G - guanina lub T - tymina
V
komputerowy zapis sekwencji nukleotydowej
A - adenina, C - cytozyna lub G - guanina
D
komputerowy zapis sekwencji nukleotydowej
A - adenina, G - guanina lub T - tymina
N
komputerowy zapis sekwencji nukleotydowej
dowolna zasada
A - adenina, C - cytozyna, G - guanina lub T - tymina
format Staden / SEQ / “Normal” / “Sequence Only”
dozwolone małe, duże litery i spacje
tylko sama sekwencja
format FASTA / Pearson
linia definicji: “ >nazwa sekwencji | komentarz “
sekwencja: z małych liter, 60-80 znaków w linijce, gubienie sporej informacji o danej sekwencji
format GCG
linia opisu: identyfikator sekwencji, długość sekwencji, data wprowadzenia, suma kontrolna “..” - początek sekwencji
sekwencja: na początku każdej linijki numer początkowy nukleotydu w sekwencji, co 10ty nukleotyd spacja, maksymalnie 50 nukleotydów w linijce, duże litery
format NEWAT
linia opisu: “ TORIC nazwa sekwencji”
sekwencja: “PORIC numer pierwszego nukleotydu w linijce sekwencja”, co linijkę taki sam wzór, spacja co nukleotyd, maksymalnie 30 nukleotydów w linijce, z dużych liter
“ * “ po ostatnim nukleotydzie oznacza koniec sekwencji
format NBRF
linia opisu:
“ >identyfikator
nazwa sekwencji”
sekwencja: z dużych liter, “ * “ po ostatnim nukleotydzie oznacza koniec sekwencji
format FASTQ
zapis sekwencji po sekwencjonowaniu
@identyfikator sekwencji
nieprzetworzone litery sekwencji
+
wartości jakości sekwencji (tyle samo znaków co liter sekwencji, “!” oznacza najniższą jakość odczytu, “~” oznacza najwyższą jakość odczytu)
Operatory boolowskie (3)
AND - wynik ma zawierać oba terminy
OR - wynik ma zawierać co najmniej jeden termin
NOT - dany termin nie może się znaleźć w wyniku
ORF
Open Reading Frame - otwarta ramka odczytu
Start: AUG
Stop: UAG, UAA, AGA
kierunek 5’ -> 3’
Poszukiwanie genów u Prokaryota (5)
- ciągłe ORFy, nieposiadające intronów, łatwiejsze w identyfikacji, stosowana dyskryminacja na podstawie długości >300 pz
- geny gęsto upakowane, mało przestrzeni międzygenowych
- prostsze i bardziej stałe regiony regulatorowe
- sekwencje lepiej poznane
- błędy w rozpoznaniu 10%
Poszukiwanie genów - problemy (4)
- problem w analizie krótkich ORF, krótkich eksonów i pseudogenów
- problem w określaniu startu ORF i pierwszego eksonu
- problem z zachodzeniem sekwencji kodujących na siebie
- odchylenia od standardowego kodu genetycznego
Poszukiwanie genów u Eukaryota
- geny podzielone na eksony i introny o różnej liczbie i wielkości, duże rozproszenie eksonów, obecność eksonów niekodujących w regionie 5’UTR
- geny rozproszone, niska gęstość kodowania
- większe zróżnicowanie i niestałość miejsc regulatorowych oraz granic ekson/intron
- sekwencje gorzej poznane
- błędy w rozpoznaniu 30%
- liczne sekwencje powtórzone
- alternatywny splicing, transsplicing, redagowanie RNA, alternatywna transkrypcja i translacja
kodon miejsca inicjacji translacji
ATG
miejsca łączenia eksonów
AG lub GT
konsensus
zawiera najczęściej pojawiające się nukleotydy w danej pozycji
wyrażenie regularne
reprezentują logiczne kombinacje znaków
przyrównanie (definicja)
procedura porównania, przyrównania (ang. alignment) sekwencji nukleotydowych lub aminokwasowych
Polega na poszukiwaniu ciągów znaków (zasad nukleotydowych lub reszt aminokwasowych), które posiadają te samo ułożenie w porównywanych sekwencjach:
- dwie sekwencje - pair-wise alignment
- wiele sekwencji - multiple sequence alignment
gap, indel - przerwa
match - przyrównanie
mismatch - brak przyrównania
podobieństwo porównywanych sekwencji (similarity) może świadczyć o… (3)
- podobnej funkcji sekwencji
- podobnej strukturze białek
- wspólnej i raczej niedawnej, historii ewolucyjnej sekwencji
podobieństwo porównywanych sekwencji (similarity) może wynikać z … (2)
- homologii - pochodzeniu sekwencji od wspólnego przodka
2. homoplazji (konwergencji) - podobnych zmianach, które pojawiły się w obu sekwencjach niezależnie
stwierdzone różnice między sekwencjami świadczą o…
mutacjach, które zaszły po rozdzieleniu się sekwencji od wspólnego przodka
np. delecja, insercja, substutucje (G->A, C->T)
metoda macierzy kropkowanej to …
graficzny sposób przyrównania dwóch sekwencji w dwuwymiarowej macierzy
metoda macierzy kropkowanej - problem
występowanie szumu przy zbyt długich sekwencjach
metoda macierzy kropkowanej umożliwia [4]
- przyrównanie jednej sekwencji - samej ze sobą, w celu znalezienia powtarzających się fragmentów
- bezpośrednie określenie podobieństw
- ułatwia znalezienie najbardziej podobnych fragmentów
- uwidocznienie wszystkich możliwych skojarzeń
macierz BLOSUM to…
macierze dla różnych odległości ewolucyjnych, które zostały wyliczone z porównania sekwencji odpowiednio odległych - redukuje to wpływ blisko spokrewnionych sekwencji
BLOSUM30 - bloki sekwencji o identyczności co najmniej 30% połączone w jedną sekwencję
BLOSUM62 - bloki sekwencji o identyczności co najmniej 62% połączone w jedną sekwencję
BLOSUM80 - bloki sekwencji o identyczności co najmniej 80% połączone w jedną sekwencję
wyliczane częstości substytucji zależą w większym stopniu od sekwencji bardziej od siebie odległych niż przyjęta wartość graniczna
system score-ów dla przerw - affine gap penalty
gap penalty = gap opening + [gap extension * gap lenght]
gap extension - mniejsze lub równe 5% wartości gap opening
na końcach przyrównania gap penalties są często uwzględniane
dla sekwencji odległych - high gap-opening penalty, very low gap-extension penalty
dla sekwencji bliskich - high gap-opening penalty, high gap-extenstion penalty
delecja i insercja to zjawiska pojawiające się bardzo …
rzadko, ale jak już powstaną to dotyczą długiego odcinka
score przyrównania to
suma score’ów matches i mismatches + suma score’ów gap penalty
e-value - the expectation value to
liczba fałszywych homologów [sekwencji niespokrewnionych] obecnych w bazie danych, które posiadają przypadkowe przyrównania z większym score, lepsze niż score przyrównania między sekwencją wysłaną a znalezioną
E = 10, czyli w bazie danych możemy znaleźć 10 sekwencji o większym score E = 0,01, czyli w bazie danych możemy znaleźć 1 przypadek o większym score na 100 przeszukiwań
e-value - istotność podobieństwa
E ≤ 0,02 lub 0,05 - podobieństwo najprawdopodobniej istotne statystycznie
0,02-1 - nie można wykluczyć homologii
E > 1 - podobieństwo nieistotne statystycznie
homologia [homology] to …
pochodzenie [sekwencji] od wspólnego przodka; sekwencje homologiczne = pochodzące od wspólnego przodka
identyczność [identity] to …
stopień, poziom niezmienności sekwencji; mierzony procentem takich samych zasad nukleotydowych lub reszt aminokwasowych wspólnych dla porównywanych sekwencji
podobieństwo [similarity] to …
stopień, poziom niezmienności sekwencji uwzględniający właściwości fizykochemiczne reszt, mierzony procentem identycznych i podobnych zasad nukleotydowych lub reszt aminokwasowych wspólnych dla porównywanych sekwencji
progresywne przyrównanie globalne - przebieg
- wykonanie przyrównań dla wszystkich par sekwencji (każda z każdą) i obliczenie dla nich procentu różnic (lub score-ów). Stworzenie macierzy odległości
- stworzenie w oparciu o macierz odległości przewodniego (pomocniczego) drzewa - guide tree, dendogramu (metodą NJ)
- sekwencje przyrównywane są kolejno ze względu na podobieństwo opisane na drzewie. Przyrównane zostają najpierw sekwencje najbardziej podobne do siebie
- następnie przyrównywane są kolejne, najbardziej podobne sekwencje wg przewodniego drzewa filogenetycznego. Sekwencje już przyrównane są traktowane jako całość w kolejnym przyrównaniu
algorytm programowania dynamicznego wykorzystywany jest do poszukiwania sekwencji…
odległych, o <20% identyczności
metody heurystyczne - poszukiwania sekwencji i tworzenia przyrównań, analizują..
tylko niektóre z możliwych przyrównań, nie gwarantują znalezienia optymalnego przyrównania, są zoptymalizowane by być szybkie, nie do dokładności przyrównania
wykorzystanie PSSM i profili do przeszukiwania baz
- wykonuje wielokrotne przeszukiwania bazy danych
- sekwencje znalezione w danym przeszukiwaniu są wykorzystywane do tworzenia macierzy score’ów (PSSM, profile) stosowanej w następnym etapie poszukiwań
- odpowiedni dla poszukiwania odległych homologów
sekwencja pojedyncza -> bazy danych zawierająca sekwencje aminokwasowe -> macierz score’ów PSSM profile -> bazy danych zawierająca sekwencje aminokwasowe
etapy analiz filogenetycznych
- przyrównanie sekwencji - uzyskanie zbioru danych
- określenie modelu substytucji - podstawień
- skonstruowanie drzewa filogenetycznego - określenie odległości między sekwencjami
- analiza i ocena drzewa filogenetycznego
homologi to…
sekwencje, które posiadają arbitralny, przyjęty poziom podobieństwa określony na podstawie przyrównania pasujących zasad lub aminokwasów
ortologi to…
homologi powstałe w wyniku specjacji. Reprezentują one geny z różnych organizmów odziedziczone po wspólnym przodku. Mają tendencję do posiadania podobnej funkcji
paralogi to…
homologi powstałe w wyniku duplikacji. Reprezentują geny z jednego organizmu pochodzące od wspólnego genu - przodka, który został zduplikowany w danym organizmie, a następnie uległ dywergnecji. Mają one tendencję do posiadania różnych funkcji
ksenologi to…
homologi nabyte w wyniku poziomego przenoszenia informacji genetycznej między organizmami transferu horyzontalnego, bocznego - HGT. Mają zwykle podobne funkcje
skutki mutacji
- zmiana synonimiczna - brak zmiany aminokwasu
najczęściej szkodliwe, nieakceptowane:
- zmiana niesynonimiczna - missense -> zmiana aminokwasu
- zmiana nonsensowna - nonsense -> kodon stop
- pominięcie stopu
tranzycje są generalnie częstsze niż transwersje ze względu na.. [2]
- większą częstość mutacji zasad podobnych do siebie
- tranzycje rzadziej zmieniają kodowane aminokwasy lub ich właściwości
tranzycje CT, AG
transwersje CA, CG, TG, TA
rodzaje konwergencji - homoplazja
brak różnić między organizmami
takie same substytucje w obu sekwencjach
np. 1) A->C i 2) A->C
zbieżne substytucje
np. 1) A->T i 2) A->C->T
rewersje
np. 1) nic i 2) A->C->A
w sekwencjach mogą istnieć regiony, które mogą się swobodnie zmieniać i takie, które..
w ogóle są niezmienne, np. ze względu na pełnioną funkcję
różne regiony w sekwencjach ewoluują…
w różnym tempie (mają różne prawdopodobieństwa zmian) ze względu na działającą na nie różną presję selekcyjną i mutacyjną
w sekwencjach kodujących białko największą zmienność wykazują …
trzecie pozycje kodonów, dlatego w wielu analizach filogenetycznych genów wyklucza się trzecie pozycje
metoda maksymalnej parsymonii [MP, największej oszczędności]
- metoda konstruowania drzewa filogenetycznego
- wybranie drzewa o najmniejszej liczbie zmian ewolucyjnych lub najkrótszej łącznej długości gałęzi
- drzewo z najmniejszą liczbą substytucji najlepiej tłumaczy różnice między taksonami
etapy:
- wyszukanie wszystkich możliwych topologii drzew
- odtworzania sekwencji przodków z jak najmniejszą liczbą zmian w sekwencji
- zliczanie sumy zmian dla drzew - drzewo o jak najmniejszej liczbie zmian uznawane za najlepsze
hipoteza zegara molekularnego
- metoda tworzenia drzewa filogenetycznego
- sekwencje molekularne ewoulują w stałym tempie, a zatem liczba zgromadzonych mutacji jest proporcjonalna do czasu ewolucji. Zgodnie z tą hipotezą można oszacować czas dywergencji. Założenie o stałości tempa ewolucji rzadko znajduje odzwierciedlenie w rzeczywistości
metody tworzące drzewa wykorzystujące algorytm klastrujący (sposób konstrukcji drzewa) i dane odległości to.. [2]
UPGMA
NJ - przyłączania sąsiada
metody tworzące drzewa wykorzystujące algorytm optymalności (sposób konstrukcji drzewa) i dane odległości to.. [2]
LS/FM
ME - metoda minimalnych odległości
metody tworzące drzewa wykorzystujące algorytm optymalności (sposób konstrukcji drzewa) i dane o miejscach w sekwencjach to.. [3]
MP - parsymonii
ML - największej wiarygodności
metody Bayesowskie
mikromacierze i chipy DNA służą do [4]
- znajdowania genów reagujących zmianą ekspresji na zmiany środowiskowe lub genotypowe
- znajdowanie genów, których ekspresja różni się między tkankami, podczas rozwoju, w tkance chorej i zdrowej, między gatunkami
- wykrywanie predyspozycji lub diagnostyka chorób
- określenie wpływu leków