HC1 Flashcards
Databanken voor genen, genomen en variatie
Ensembl
Databanken voor gen en eiwitexpressie
PRIDE
Databanken voor eiwitsequenties, families en motieven
InterPro, Pfam, UniProt
Databanken voor reacties, interacties en pathways
IntAct, Reactome, MetaboLights
Databanken voor literatuur en ontologieën
PubMed, Ontology
Waarom gebruiken we bio databases?
- info opzoeken
- sequenties vergelijken
- voorspellingen doen
- IPA
- Metadata analyse
Wat is IPA?
Ingenuity Pathway Analysis —> geeft veel meer info dan enkel de sequentie of expressie van bv. P53, komt in vele pathways voor
Welke structuren heeft een gen?
Intron/exon, promotor, coding region, eiwit…
Hoe weet ik of er een actief gen mogelijk is in mijn genoomsequentie of hoe bepalen we het aantal mogelijke genen in een genoom?
Hypothetisch gen = nog niet aangetoond in lab, maar op basis van data output zou het wel betrokken zijn.
Wat is het verschil tussen primaire en secundaire databases?
Primair = experimentele data = sequenties of structuren met geassocieerde “annotatie” informatie = bv. organisme, functie, ziekte mutatie…
Secundair = afgeleide data = bekomen uit analyse van primaire data = bv. patronen, profielen zoals de meest geconderveerde delen van multiple alignments, knipplaats restrictie enzym…
Nu: databanken volledig geïntegreerd met elkaar
Meest gebruikte integrale sites?
Genbank: NCBI = Amerikaans initiatief
EBI = Europees initiatief
—> uitwisseling van data tussen NCBI en EBI
Welke verschillende file formaten zijn er?
Genbank = volledige entry in databank
FASTA = ID lijn gevolgd door sequentie (nummering kan en mag)
Raw = enkel sequentie ( soms mag nummering)
Databases kunnen hun typisch eigen formaat hebben maar essentieel en elke database zijn:
Unique identifier of accession code
Name of depositor
Literature references
Deposition date
The real date
Wat is SwissProt?
Protein Database
Data komen van bv. translaties van DNA-sequenties (van EMBL Database), direct ingediend door onderzoekers…
Invoegen door ong. 200 Annotatie experts wereldwijd
Keyword-organised flatfile
Wat is RefSeq?
= Reference Sequence —> voor een natuurlijk voorkomend DNA, mRNA of eiwit is afgeleid van publieke databanken
Een gevalideerde sequentie
Varianten/mutante sequenties worden bepaald tov de RefSeq (bv. A in RefSeq maar je ziet T in andere, mutante sequentie)