Genomika Flashcards

Question 1

Q

genomika (definicja)

Answer

A

to nauka interdyscyplinarna łącząca w sobie biologię molekularną, robotykę i nauki obliczeniowe [informatykę].
Zajmuje się globalną wielkoskalową analizą wszystkich genów, transkryptów i białek w organizmie stosując automatyczne technologie biologii molekularnej o dużej przepustowości [high-throughput]

Question 2

Q

bioinformatyka (definicja)

Answer

A

to nauka interdyscyplinarna wykorzystująca narzędzia matematyczne i informatyczne do rozwiązywania problemów z dziedziny nauk biologicznych - biologii molekularnej.

biologia molekularna dostarcza danych biologicznych takich jak dane dotyczące kwasów nukleinowych, białek, lipidów, węglowodanów i innych makrocząsteczek
informatyka dostarcza narzędzi, metod i obliczeń komputerowych [nauki i techniki komputerowe, teoria informacji, matematyka stosowana, statystyka, teoria prawdopodobieństwa]

Question 3

Q

cele bioinformatyki (2)

Answer

A

organizowanie i zarządzanie informacjami o makrocząsteczkach i innych danych biologicznych w formie cyfrowych zapisów - baz danych
analiza tych danych przy pomocy różnych programów i narzędzi oraz metod i algorytmów

Question 4

Q

genomika, bioinformatyka - poziomy analiz (6)

Answer

A

genom
transkryptom
proteom
lokalizom
interaktom
metabolom

Question 5

Q

genom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)

Answer

A

przedmiot badań - wszystkie sekwencje DNA lub RNA zawarte w organizmie, geny, sekwencje regulatorowe
dziedzina badań - genomika
temat badań - poszukiwanie sekwencji kodujących, regulatorowych i powtórzonych, rozpoznawanie eksonów i intronów, ogólna organizacja genomów (skład, rozmieszczenie genów), porównanie sekwencji

Question 6

Q

transkryptom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)

Answer

A

przedmiot badań - wszystkie transkrybowane sekwencje RNA w organizmie
dziedzina badań - transkryptomika, RNomika
temat badań - analiza ekspresji genów w różnych tkankach i warunkach przy pomocy mikromacierzy oligonukleotydowych i cDNA

Question 7

Q

proteom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)

Answer

A

przedmiot badań - wszystkie białka zawarte w organizmie
dziedzina badań - proteomika
temat badań - porównanie sekwencji, identyfikacja konserwowanych regionów (motywów i domen), przewidywanie struktury drugorzędowej i trzeciorzędowych, interakcje, obróbka, identyfikacja białek w komórce i tkankach

Question 8

Q

lokalizom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)

Answer

A

przedmiot badań - subkomórkowe położenie białek w komórce
dziedzina badań - lokalizomika
temat badań - poszukiwanie specyficznych motywów w sekwencjach aminokwasowych oraz peptydów sygnałowych i tranzytowych kierujących sekwencje do odpowiednich przedziałów komórki

Question 9

Q

interaktom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)

Answer

A

przedmiot badań - zależności i interakcje między białkami i innymi cząsteczkami w komórce
dziedzina badań - interaktomika i biologia systemów
temat badań - interakcje między białkami, które przedstawiane są za pomocą sieci zależności

Question 10

Q

metabolom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)

Answer

A

przedmiot badań - wszystkie procesy, szlaki, substraty i produkty metaboliczne zachodzące w organizmie
dziedzina badań - metabolomika i biologia systemów
temat badań - określanie sieci i szlaków metabolomicznych, symulacje komputerowe

Question 11

Q

G

komputerowy zapis sekwencji nukleotydowej

Answer

A

G - guanina

Question 12

Q

A

komputerowy zapis sekwencji nukleotydowej

Answer

A

A - adenina

Question 13

Q

T

komputerowy zapis sekwencji nukleotydowej

Answer

A

T - tymina

Question 14

Q

C

komputerowy zapis sekwencji nukleotydowej

Answer

A

C - cytozyna

Question 15

Q

R

komputerowy zapis sekwencji nukleotydowej

Answer

A

puryna, czyli A - adenina lub G-guanina

Question 16

Q

Y

komputerowy zapis sekwencji nukleotydowej

Answer

A

pirymidyna, czyli C - cytozyna lub T - tymina

Question 17

Q

M

komputerowy zapis sekwencji nukleotydowej

Answer

A

A - adenina lub C - cytozyna

Question 18

Q

K

komputerowy zapis sekwencji nukleotydowej

Answer

A

G - guanina lub T - tymina

Question 19

Q

S

komputerowy zapis sekwencji nukleotydowej

Answer

A

silna interakcja - potrójne wiązanie, czyli C - cytozyna lub G - guanina

Question 20

Q

W

komputerowy zapis sekwencji nukleotydowej

Answer

A

słaba interakcja - podwójne wiązanie, czyli A - adenina lub T - tymina

Question 21

Q

H

komputerowy zapis sekwencji nukleotydowej

Answer

A

A - adenina, C - cytozyna lub T - tymina

Question 22

Q

B

komputerowy zapis sekwencji nukleotydowej

Answer

A

C - cytozyna, G - guanina lub T - tymina

Question 23

Q

V

komputerowy zapis sekwencji nukleotydowej

Answer

A

A - adenina, C - cytozyna lub G - guanina

Question 24

Q

D

komputerowy zapis sekwencji nukleotydowej

Answer

A

A - adenina, G - guanina lub T - tymina

Question 25

Q

N

komputerowy zapis sekwencji nukleotydowej

Answer

A

dowolna zasada

A - adenina, C - cytozyna, G - guanina lub T - tymina

Question 26

Q

format Staden / SEQ / “Normal” / “Sequence Only”

Answer

A

dozwolone małe, duże litery i spacje

tylko sama sekwencja

Question 27

Q

format FASTA / Pearson

Answer

A

linia definicji: “ >nazwa sekwencji | komentarz “

sekwencja: z małych liter, 60-80 znaków w linijce, gubienie sporej informacji o danej sekwencji

Question 28

Q

format GCG

Answer

A

linia opisu: identyfikator sekwencji, długość sekwencji, data wprowadzenia, suma kontrolna “..” - początek sekwencji
sekwencja: na początku każdej linijki numer początkowy nukleotydu w sekwencji, co 10ty nukleotyd spacja, maksymalnie 50 nukleotydów w linijce, duże litery

Question 29

Q

format NEWAT

Answer

A

linia opisu: “ TORIC nazwa sekwencji”
sekwencja: “PORIC numer pierwszego nukleotydu w linijce sekwencja”, co linijkę taki sam wzór, spacja co nukleotyd, maksymalnie 30 nukleotydów w linijce, z dużych liter
“ * “ po ostatnim nukleotydzie oznacza koniec sekwencji

Question 30

Q

format NBRF

Answer

A

linia opisu:
“ >identyfikator
nazwa sekwencji”
sekwencja: z dużych liter, “ * “ po ostatnim nukleotydzie oznacza koniec sekwencji

Question 31

Q

format FASTQ

Answer

A

zapis sekwencji po sekwencjonowaniu

@identyfikator sekwencji
nieprzetworzone litery sekwencji
+
wartości jakości sekwencji (tyle samo znaków co liter sekwencji, “!” oznacza najniższą jakość odczytu, “~” oznacza najwyższą jakość odczytu)

Question 32

Q

Operatory boolowskie (3)

Answer

A

AND - wynik ma zawierać oba terminy
OR - wynik ma zawierać co najmniej jeden termin
NOT - dany termin nie może się znaleźć w wyniku

Question 33

Q

ORF

Answer

A

Open Reading Frame - otwarta ramka odczytu
Start: AUG
Stop: UAG, UAA, AGA
kierunek 5’ -> 3’

Question 34

Q

Poszukiwanie genów u Prokaryota (5)

Answer

A

ciągłe ORFy, nieposiadające intronów, łatwiejsze w identyfikacji, stosowana dyskryminacja na podstawie długości >300 pz
geny gęsto upakowane, mało przestrzeni międzygenowych
prostsze i bardziej stałe regiony regulatorowe
sekwencje lepiej poznane
błędy w rozpoznaniu 10%

Question 35

Q

Poszukiwanie genów - problemy (4)

Answer

A

problem w analizie krótkich ORF, krótkich eksonów i pseudogenów
problem w określaniu startu ORF i pierwszego eksonu
problem z zachodzeniem sekwencji kodujących na siebie
odchylenia od standardowego kodu genetycznego

Question 36

Q

Poszukiwanie genów u Eukaryota

Answer

A

geny podzielone na eksony i introny o różnej liczbie i wielkości, duże rozproszenie eksonów, obecność eksonów niekodujących w regionie 5’UTR
geny rozproszone, niska gęstość kodowania
większe zróżnicowanie i niestałość miejsc regulatorowych oraz granic ekson/intron
sekwencje gorzej poznane
błędy w rozpoznaniu 30%
liczne sekwencje powtórzone
alternatywny splicing, transsplicing, redagowanie RNA, alternatywna transkrypcja i translacja

Question 37

Q

kodon miejsca inicjacji translacji

Question 38

Q

miejsca łączenia eksonów

Answer

A

AG lub GT

Question 39

Q

konsensus

Answer

A

zawiera najczęściej pojawiające się nukleotydy w danej pozycji

Question 40

Q

wyrażenie regularne

Answer

A

reprezentują logiczne kombinacje znaków

Question 41

Q

przyrównanie (definicja)

Answer

A

procedura porównania, przyrównania (ang. alignment) sekwencji nukleotydowych lub aminokwasowych
Polega na poszukiwaniu ciągów znaków (zasad nukleotydowych lub reszt aminokwasowych), które posiadają te samo ułożenie w porównywanych sekwencjach:
- dwie sekwencje - pair-wise alignment
- wiele sekwencji - multiple sequence alignment
gap, indel - przerwa
match - przyrównanie
mismatch - brak przyrównania

Question 42

Q

podobieństwo porównywanych sekwencji (similarity) może świadczyć o… (3)

Answer

A

podobnej funkcji sekwencji
podobnej strukturze białek
wspólnej i raczej niedawnej, historii ewolucyjnej sekwencji

Question 43

Q

podobieństwo porównywanych sekwencji (similarity) może wynikać z … (2)

Answer

A

homologii - pochodzeniu sekwencji od wspólnego przodka

2. homoplazji (konwergencji) - podobnych zmianach, które pojawiły się w obu sekwencjach niezależnie

Question 44

Q

stwierdzone różnice między sekwencjami świadczą o…

Answer

A

mutacjach, które zaszły po rozdzieleniu się sekwencji od wspólnego przodka
np. delecja, insercja, substutucje (G->A, C->T)

Question 45

Q

metoda macierzy kropkowanej to …

Answer

A

graficzny sposób przyrównania dwóch sekwencji w dwuwymiarowej macierzy

Question 46

Q

metoda macierzy kropkowanej - problem

Answer

A

występowanie szumu przy zbyt długich sekwencjach

Question 47

Q

metoda macierzy kropkowanej umożliwia [4]

Answer

A

przyrównanie jednej sekwencji - samej ze sobą, w celu znalezienia powtarzających się fragmentów
bezpośrednie określenie podobieństw
ułatwia znalezienie najbardziej podobnych fragmentów
uwidocznienie wszystkich możliwych skojarzeń

Question 48

Q

macierz BLOSUM to…

Answer

A

macierze dla różnych odległości ewolucyjnych, które zostały wyliczone z porównania sekwencji odpowiednio odległych - redukuje to wpływ blisko spokrewnionych sekwencji

BLOSUM30 - bloki sekwencji o identyczności co najmniej 30% połączone w jedną sekwencję
BLOSUM62 - bloki sekwencji o identyczności co najmniej 62% połączone w jedną sekwencję
BLOSUM80 - bloki sekwencji o identyczności co najmniej 80% połączone w jedną sekwencję

wyliczane częstości substytucji zależą w większym stopniu od sekwencji bardziej od siebie odległych niż przyjęta wartość graniczna

Question 49

Q

system score-ów dla przerw - affine gap penalty

Answer

A

gap penalty = gap opening + [gap extension * gap lenght]

gap extension - mniejsze lub równe 5% wartości gap opening

na końcach przyrównania gap penalties są często uwzględniane

dla sekwencji odległych - high gap-opening penalty, very low gap-extension penalty

dla sekwencji bliskich - high gap-opening penalty, high gap-extenstion penalty

Question 50

Q

delecja i insercja to zjawiska pojawiające się bardzo …

Answer

A

rzadko, ale jak już powstaną to dotyczą długiego odcinka

Question 51

Q

score przyrównania to

Answer

A

suma score’ów matches i mismatches + suma score’ów gap penalty

Question 52

Q

e-value - the expectation value to

Answer

A

liczba fałszywych homologów [sekwencji niespokrewnionych] obecnych w bazie danych, które posiadają przypadkowe przyrównania z większym score, lepsze niż score przyrównania między sekwencją wysłaną a znalezioną

E = 10, czyli w bazie danych możemy znaleźć 10 sekwencji o większym score
E = 0,01, czyli w bazie danych możemy znaleźć 1 przypadek o większym score na 100 przeszukiwań

Question 53

Q

e-value - istotność podobieństwa

Answer

A

E ≤ 0,02 lub 0,05 - podobieństwo najprawdopodobniej istotne statystycznie
0,02-1 - nie można wykluczyć homologii
E > 1 - podobieństwo nieistotne statystycznie

Question 54

Q

homologia [homology] to …

Answer

A

pochodzenie [sekwencji] od wspólnego przodka; sekwencje homologiczne = pochodzące od wspólnego przodka

Question 55

Q

identyczność [identity] to …

Answer

A

stopień, poziom niezmienności sekwencji; mierzony procentem takich samych zasad nukleotydowych lub reszt aminokwasowych wspólnych dla porównywanych sekwencji

Question 56

Q

podobieństwo [similarity] to …

Answer

A

stopień, poziom niezmienności sekwencji uwzględniający właściwości fizykochemiczne reszt, mierzony procentem identycznych i podobnych zasad nukleotydowych lub reszt aminokwasowych wspólnych dla porównywanych sekwencji

Question 57

Q

progresywne przyrównanie globalne - przebieg

Answer

A

wykonanie przyrównań dla wszystkich par sekwencji (każda z każdą) i obliczenie dla nich procentu różnic (lub score-ów). Stworzenie macierzy odległości
stworzenie w oparciu o macierz odległości przewodniego (pomocniczego) drzewa - guide tree, dendogramu (metodą NJ)
sekwencje przyrównywane są kolejno ze względu na podobieństwo opisane na drzewie. Przyrównane zostają najpierw sekwencje najbardziej podobne do siebie
następnie przyrównywane są kolejne, najbardziej podobne sekwencje wg przewodniego drzewa filogenetycznego. Sekwencje już przyrównane są traktowane jako całość w kolejnym przyrównaniu

Question 58

Q

algorytm programowania dynamicznego wykorzystywany jest do poszukiwania sekwencji…

Answer

A

odległych, o <20% identyczności

Question 59

Q

metody heurystyczne - poszukiwania sekwencji i tworzenia przyrównań, analizują..

Answer

A

tylko niektóre z możliwych przyrównań, nie gwarantują znalezienia optymalnego przyrównania, są zoptymalizowane by być szybkie, nie do dokładności przyrównania

Question 60

Q

wykorzystanie PSSM i profili do przeszukiwania baz

Answer

A

wykonuje wielokrotne przeszukiwania bazy danych
sekwencje znalezione w danym przeszukiwaniu są wykorzystywane do tworzenia macierzy score’ów (PSSM, profile) stosowanej w następnym etapie poszukiwań
odpowiedni dla poszukiwania odległych homologów

sekwencja pojedyncza -> bazy danych zawierająca sekwencje aminokwasowe -> macierz score’ów PSSM profile -> bazy danych zawierająca sekwencje aminokwasowe

Question 61

Q

etapy analiz filogenetycznych

Answer

A

przyrównanie sekwencji - uzyskanie zbioru danych
określenie modelu substytucji - podstawień
skonstruowanie drzewa filogenetycznego - określenie odległości między sekwencjami
analiza i ocena drzewa filogenetycznego

Question 62

Q

homologi to…

Answer

A

sekwencje, które posiadają arbitralny, przyjęty poziom podobieństwa określony na podstawie przyrównania pasujących zasad lub aminokwasów

Question 63

Q

ortologi to…

Answer

A

homologi powstałe w wyniku specjacji. Reprezentują one geny z różnych organizmów odziedziczone po wspólnym przodku. Mają tendencję do posiadania podobnej funkcji

Question 64

Q

paralogi to…

Answer

A

homologi powstałe w wyniku duplikacji. Reprezentują geny z jednego organizmu pochodzące od wspólnego genu - przodka, który został zduplikowany w danym organizmie, a następnie uległ dywergnecji. Mają one tendencję do posiadania różnych funkcji

Answer 64

A

homologi nabyte w wyniku poziomego przenoszenia informacji genetycznej między organizmami transferu horyzontalnego, bocznego - HGT. Mają zwykle podobne funkcje

Answer 65

A

zmiana synonimiczna - brak zmiany aminokwasu

najczęściej szkodliwe, nieakceptowane:

zmiana niesynonimiczna - missense -> zmiana aminokwasu
zmiana nonsensowna - nonsense -> kodon stop
pominięcie stopu

Answer 66

A

większą częstość mutacji zasad podobnych do siebie
tranzycje rzadziej zmieniają kodowane aminokwasy lub ich właściwości

tranzycje CT, AG
transwersje CA, CG, TG, TA

Answer 67

A

takie same substytucje w obu sekwencjach
np. 1) A->C i 2) A->C

zbieżne substytucje
np. 1) A->T i 2) A->C->T

rewersje
np. 1) nic i 2) A->C->A

Answer 68

A

w ogóle są niezmienne, np. ze względu na pełnioną funkcję

Answer 69

A

w różnym tempie (mają różne prawdopodobieństwa zmian) ze względu na działającą na nie różną presję selekcyjną i mutacyjną

Answer 70

A

trzecie pozycje kodonów, dlatego w wielu analizach filogenetycznych genów wyklucza się trzecie pozycje

Answer 71

A

metoda konstruowania drzewa filogenetycznego
wybranie drzewa o najmniejszej liczbie zmian ewolucyjnych lub najkrótszej łącznej długości gałęzi
drzewo z najmniejszą liczbą substytucji najlepiej tłumaczy różnice między taksonami

etapy:

wyszukanie wszystkich możliwych topologii drzew
odtworzania sekwencji przodków z jak najmniejszą liczbą zmian w sekwencji
zliczanie sumy zmian dla drzew - drzewo o jak najmniejszej liczbie zmian uznawane za najlepsze

Answer 72

A

metoda tworzenia drzewa filogenetycznego
sekwencje molekularne ewoulują w stałym tempie, a zatem liczba zgromadzonych mutacji jest proporcjonalna do czasu ewolucji. Zgodnie z tą hipotezą można oszacować czas dywergencji. Założenie o stałości tempa ewolucji rzadko znajduje odzwierciedlenie w rzeczywistości

Answer 73

A

UPGMA

NJ - przyłączania sąsiada

Answer 74

A

LS/FM

ME - metoda minimalnych odległości

Answer 75

A

MP - parsymonii
ML - największej wiarygodności
metody Bayesowskie

Answer 76

A

znajdowania genów reagujących zmianą ekspresji na zmiany środowiskowe lub genotypowe
znajdowanie genów, których ekspresja różni się między tkankami, podczas rozwoju, w tkance chorej i zdrowej, między gatunkami
wykrywanie predyspozycji lub diagnostyka chorób
określenie wpływu leków