Reader, Alberts and Werkcolleges Flashcards

1
Q

Wat is transcriptomics?

A

De aanpak voor het meten van de relatieve expressie van alle expressed genome elements

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Longer transcripts lead to … reads than shorter transcripts

A

more

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

P-values in differential expression analysis

A

differential gene expression analysis should be performed with FDR corrected p-values and choosing a significance cut-off of 5% us optional

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

low p-value in differential expression analysis

A

You cannot say the difference is significant
> a low p-value, not very logical if the expression level is the same, but you can not say that the difference is significant

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

How does Hi-C help you understand transcriptomics

A

identifies long range chromatin interactions, the data can be used to identify enhancers

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

How are cell types detected with scRNA-seq

A

cells are clustered and these clusters are characterized with marker genes that are known to be specific for certain cell types
> Highly Variable Genes are used for the initial clustering

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

ATAC-seq

A

tagmentation
> Tagmentation method cuts and inserts adapters to DNA fragments in the same reaction using an enzyme called transposase.
> detect open chromatine

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Analysing mRNA-seq data with thousands of t-tests to identify differentialy expressed genes: is it good practice?

A

This is not good practice, because you have to use specialized statistical tests that are designed for transcriptomics.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

ChIP-seq for transcription understanding

A

It identifies the locations in the genome that are bound by proteins or histone modification

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Difference Hierarchal clustering and K-means clustering

A

HC calculates a dendrogram based on distances, whereas K-means searches iteratively for groups of similar features

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

De-novo assembly in transcriptomics

A

An assembly analysis aims to reconstruct mRNA transcript sequences from the (much shorter) sequencing reads which are divided in k-mers

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

What is the false discovery rate (FDR)

A

the expected proportion of false discoveries among the rejected hypotheses. (the differently expressed genes)
> of 100 differentially expressed genes and FDR is 5% than 5 genes are expected to be false discoveries.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Determine gene of origin for a read from RNA-seq

A

Map the reads to an annotated genome or transcriptome.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

If a gene shows a (significant) increased average log2FC after an experimental treatment, you may conclude that:

A

The treatment has an effect on the expression of this gene, and it is upregulated

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

A gene set analysis is useful when you are willing to assume that

A

Cellular processes, or pathways, with many differentially expressed genes are important (or “changed”) in your experiment

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

what is a kmer, what is a contig?

A

In de novo assembly, Reads are sliced into short sequences called kmers, which are analyzed for overlap. A contig is a long sequence, and represents the result of an assembly procedure

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

You perform an mRNA sequencing experiment, but you have forgotten to normalize your data before analysis. What may be the consequence?

A

Technical variation is maintained

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

How does ATAC-seq help you understand transcription?

A

chromatin availability

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Are gene expression estimates from an mRNA-seq experiment normally distributed?

A

No, it’s a random draw like marbles in a sack.
> Poisson distribution
> they are counts from a random draw

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Highly variable genes

A

Highly variable genes are genes that show a high degree of biological variability.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Results from single cell RNA sequencing experiments are often plotted with tSNE or UMAP, instead of PCA. Why?

A

With PCA it is difficult to visualize all the clusters in a two dimensional plot.
Het doel van PCA is om een dataset met veel dimensies te reduceren tot enkele dimensies, waarin de hoogste mate van variatie weergegeven kan worden
- Uit PCA plots zie je verschillende clusters met meerdere plots bv PC1/PC2 en PC3/PC4 > niet op twee dimensies.
- Laat wel de grootste effecten zien in de data in de PC1 en PC2 (zoals batch effecten ontdekken omdat je daar iets mee moet)
- Je weet hoe belangrijk de effecten zijn.
Doel tSNE en UMAP is om een dataset met veel dimensies te reduceren tot enkele dimensies en daarbij zoveel originele structuur behouden
> Andere doelen van de analyses en om de structuur van scRNA-seq weer te geven in 2 dimensies kun je beter tSNE of UMAP gebruiken

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

[A]= 10-9 M, [pX]=10-10 M, kon= 1 M-1s-1 and koff= 10-8 s-1. c) Calculate [A:pX].

A

a. Equation 8-1: [A:pX] = kon/ koff [A] [pX] = 1/10-8 10-9 10-10= 10-11 M

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

[A]= 10-9 M, [pX]=10-10 M, kon= 1 M-1s-1 and koff= 10-8 s-1. Calculate [A:pX] if A is added until [A] is doubled?

A

use equation 8-2: [A:pX] = (K[A]/(1+K[A])) [pXT]= (108 * 210-9/(1+108 * 210-9)) * 1.110-10= (0.2/1.2)1.1*10-10=1.8 *10-11 M. so also nearly doubled (this only holds for relative small concentrations of [A]).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

g) If we would have had a higher starting concentration of A, say [A] = 10-3 M and then have added A until the concentration of A had doubled, what would have happened to [A:pX]. Answer the question without calculating

A

a. Nothing, the promoter is already almost fully occupied

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

a) How long would it take to reach 50% of the steady state value if both kon and koff are doubled? Please give your answer in seconds. Orginal time till 50% steady state: 10 s

A

a. 5 s The back conversion does not matter, the time is shorter because the rate of formation and dissociation go faster.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

b) How long would it take to reach 50% of the steady state value if both kon and koff are halved? Please give your answer in seconds. Org 10 s

A

a. 20 s

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

c) How long would it take to reach 50% of the steady state value if only kon is doubled and koff does not change?

org 10 s

A

a. Between 5 s and 10 s, to determine the exact value you have to do the calculation. It is slower than 5 s because the koff does not change

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

In panel (A) (inhibition system) you see a circuit of three components and in panel (B) one of five components producing oscillations.
a) Is it a coincidence that both these numbers are odd? Please explain your answer.

A

Even numbers will not give oscillations, because there is no positive feedback and half of the genes will be expressed and the other half won’t be.
> odd: Gene X will be expressd more and more and gene Y less and less
> even: With gene W, X, Y, Z than with W being upregulated than W and Y will both be upregulated and X and Z will be downregulated, no oscillation because of this.
> If in the two gene system X would promote Y, then an oscillation will be started because X promotes Y which leads to less X and less promotion of Y so more X and so on.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Ruimte voor opslaag in edge list en adjacency matrix van netwerken

A
  • Edge list: size = number of edges x 2
  • Adjacency matrix > size = number of nodes 2
    diagonal shows circular network
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Log FC histogram is not centered around 0

A

-Niet precies normalized
-meer genen minder in tumor beschreven of fout in normalisatie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Wat doe je met informatie netwerk?

A
  • Replicatie
  • In-depth literatuuronderzoek
  • Modelling
  • Targeted > knockout, chemische inhibitie, labelling experiment en check isotopen
32
Q

Voor validatie wil je de ..

A

meest extreme moleculen nemen voor best verschillen meten en detecteren

33
Q

integratie uitdagingen in metingen en data attributen

A
  • Welke technische uitdagingen.
  • Aantal analyten
  • Isoformen > niet altijd te onderscheiden
  • Verschillende meetapparaten > sequencer, massaspectrometer
    o Bij sequencer weet je alleen diepte tov totale reads
    o Bij massaspectrometer kan kwantificatie wat absoluter met standaarden.
  • Verschil in de fold change die kan worden gemeten per omics. De dynamic range van de massaspectrometer is te laag om zulke grote verschillen als bij sequencing te meten > grotere -log(p waarde) voor RNA dan eiwitten
34
Q

Welke knopen wil je verwijderen om het netwerk het meeste aan te tasten

A

de mest centrale knopen

35
Q

Normalisatie bij verdunningsverschillen urine: wanneer (on)wenselijk

A
  • Wanneer wenselijk > als er veel verduningsverschillen zijn in de urine, terwijl dit geen rol speelt in de studie
  • Niet wenselijk > bij studies waarin hoeveelheid urine die geproduceerd wordt een rol speelt bv de ziekte leidt tot meer urine verdunning en lagere concentraties etc.
36
Q

Verschil PCA scores en Discriminant PLS scores?

A

o PCA: X = t * pT + e > houdt niet rekening met de groepen
o PLS: maxti(sumi=1I(ti * yi)) > houdt rekening met groepen
- Wat willen ze maximaliseren?
o PCA scores maximaliseren de hoeveelheid variatie van X die kan worden beschreven
o DPLS scores proberen X zo goed mogelijk te beschrijven maar ook Y (klassen per individu). De covariantie tussen T en Y is maximaal

37
Q

wanneer verschillen PCA en DPLS scores?

A

Als de richting van de grootste variatie niet overeenkomt met de verschillende groepen in de dataset dan zullen de scores van PCA erg anders zijn dan die van Discriminant PLS

38
Q

Wat is de interpreatie van K[A]/(1+K[A])?

A

Probability that promotor is occupied, averaged over
time or
average occupancy across a large population of cells
at any instant in time.
K is de associatieconstante
> concentratie [A] waarbij de helft van de promotor is gebonden
> affiniteit
Affiniteit = 1/K.

39
Q

When a promoter p is not saturated with bound activator protein A, doubling
the total concentration of A would …
A. increase steady-state [A:p] exactly twofold.
B. increase steady-state [A:p] over twofold.
C. increase steady-state [A:p] less than twofold.
D. decrease steady-state [A:p] approximately twofold.
E. decrease steady-state [A:p] over twofold

A

C, increase steady-state [A:p] less than twofold.

40
Q

Everything else being equal, if the mean
lifetime of a protein is doubled, its
concentration at steady state would:
A. increase approximately twofold.
B. increase less than twofold.
C. increase over twofold.
D. decrease approximately twofold.
E. decrease less than twofold

A

A

41
Q

You have set up a system of differential equations to
describe the concentration of a protein as a function of
time based on transcription, translation, and degradation
rates.
You simulate two conditions (1 and 2) that are identical
except that the transcription rate for the protein is set
tenfold higher for the first condition.
Starting from a concentration of zero, the time required
to reach 50% of the final steady-state concentration is …
A. the same for conditions 1 and 2.
B. tenfold longer for 1 compared to 2.
C. tenfold longer for 2 compared to 1.
D. less than tenfold longer for 1 compared to 2.
E. less than tenfold longer for 2 compared to 1.

A

A, Response time only dependent on protein life time
not on production of RNA or protein!
calculate response time for 50% steady state in X(t) formula

42
Q

Bistability in a biological system can be accompanied by hysteresis. Consider
switchlike cellular responses to a signal molecule, as shown in the following
graphs. In each graph, the solid curve corresponds to the change in cellular
response when the signal concentration is being increased over time,
whereas the dashed curve corresponds to the change when the signal
concentration is being decreased. Which graph do you think corresponds to a
system with a greater degree of hysteresis? (the curves are increasing sigmoids) What mechanism is responsible
for this behavior?

A

positive feedback,
greater degree in hysteresis in smaller sigmoid but later onset

43
Q

De begin concentratie van het enzym is 10 mmol/l. De begin concentraties van ES is 0. Hoe groot is de som van ES
en E op een willekeurig tijdstip. (enzymkinetiek)

A

E + ES = 10 mmol/l

44
Q

Onder welke condities enzymreactie in Michaelis Menten kinetiek

A

MM reaction: S→P
This can only be true if ES (the complex) does not change
The complex concentration does not change much if its concentration remains relatively low
This is the case if total enzyme concentration is much lower than substrate concentration

45
Q

Wanneer mogen we Michaelis Menten kinitiek gebruiken?

A

Als de veranderingen in ES klein zijn en dit is het geval als de
concentratie enzym klein is ten opzichte van de concentratie substraat.
kunnen we nu een uitdrukking voor ES vinden
Verandering in ES klein dus d(ES)/dt ≈0

46
Q

De begin concentratie van het enzym is E0, en de begin concentratie van het substraat is S0 alle andere begin
concentraties zijn nul. Geef de formule voor de concentratie van het enzym E als het concentratie verloop van ES
berekend is.

A

E = E0 - ES

47
Q

Geef een drietal voorbeelden wat je met modellen uit de systeem biologie kunt doen.

A

Voorspellen: hoeveel product wordt er gemaakt?
* Scenario’s:
* > wat gebeurt er als de affiniteit van het enzym verandert?
* > Hoeveel moet ik k1 veranderen om nog maar 10% van het product te maken?
* Hypothese testen: Bij welke situaties mag ik Michaelis-Menten
kinetiek veronderstellen?

48
Q

Count data wordt vaak log-getransformeerd. Geef twee redenen waarom. Leg uw
antwoord duidelijk uit

A

(1) Het transformeert de asymmetrische fold-change waarden in
symmetrische log-fold-change waarden. (2) Het stabiliseert de variantie. (3) Het
zorgt ervoor dat analyses minder gedomineerd worden door (enkele) genen die hoog
tot expressie komen.

49
Q

Een belangrijke fase van de RNA-seq data analyse is de “exploratory data
analysis”. Wat is het belangrijkste doel van deze fase, en waarom is deze zo
belangrijk?

A

Het belangrijkste doel van deze fase in de data analyse is om in te
schatten of samples vergelijkbaar zijn, of er veel (of weinig) ruis is, en of er uitbijters
zijn. Er wordt ook vaak een inschatting gemaakt of de experimentele condities veel
of weinig van elkaar verschillen. Dit is belangrijk omdat hiermee ingeschat wordt
hoe betrouwbaar resultaten zijn

50
Q

U wilt bepalen welke genen significant verschillend tot expressie komen. Voor de
statistische analyse voor differentiële expressie worden vaak speciale software
pakketten op basis van “modified test statistics” gebruikt. Geef twee redenen
waarom het goed is speciale software te gebruiken

A

Deze software houdt rekening met de volgende aspecten. (1) Dat
de parameterschattingen (gemiddelden, varianties enz.) die nodig zijn voor het
berekenen van teststatistieken, niet stabiel zijn (veel metingen, kleine n). (2) Dat
de gegevens bestaan uit discrete tellingen die een negatieve binominale verdeling
volgen. (3) Dat er een FDR correctie moet worden toegepast

51
Q

U wilt nu ook weten of er een verschil in isoform expressie is tussen de
behandelde en niet behandelde cellen. Kunt u een reden bedenken waarom
inzicht in isoform expressie uw inzicht in de differentiële expressie kan
verbeteren?

A

Differentiële genexpressie wordt bepaald op basis van het aantal
reads per gen. Als dit erg verschilt tussen samples, of (statistisch consistent)
verschilt tussen experimentele condities, dan gaat men ervan uit dat er een
verschil is in het aantal mRNA transcripten, en dan spreekt met van differentiële
genexpressie. Een verschil in het aantal reads kan echter ook veroorzaakt worden
doordat er een verschil is in typen mRNA transcripten. Langere transcripten zorgen
voor meer reads. Inzicht in isoform expressie maakt het mogelijk deze twee
effecten te ontwarren.

52
Q

Een van deze technieken heet ChIP-seq. Welk aspect van transcriptie kan met
deze techniek geanalyseerd worden? Leg beknopt hoe de techniek werkt, en hoe de
data U helpt om de transcriptie beter te begrijpen

A

Met Chip-seq kan geanalyseerd worden op welke locaties in het
genoom eiwitten kunnen binden, en op welke locaties histonen gemodificeerd
kunnen zijn. De techniek bestaat uit de volgende stappen. (1) Eiwitten worden
gebonden aan het DNA (crosslinking). (2) Het DNA wordt gefragmenteerd. (3) Voeg
een antibody toe met magnetic bead, die gericht is tegen het eiwit. (4) Isoleer het
eiwit. (5) Extraheer en isoleer het gebonden DNA en sequence deze fragmenten.
Voor het analyseren van histonmodificaties kan een passende antibody worden
gebruikt. Eiwitten zoals transcriptiefactoren, en histonmodificaties zoals
actelylering, spelen een rol bij de transcriptie

53
Q

Er bestaat ook een techniek die ATAC-seq heet. Welk aspect van transcriptie kan
met deze techniek geanalyseerd worden?

A

Met ATAC-seq kan geanalyseerd worden op welke locaties in het
genoom het chromatine meer open is

54
Q

U voert op hetzelfde sample een ATAC-seq en een ChIP-seq analyse uit. Geef een
korte beschrijving van uw verwachting over hoe de resultaten eruit zullen zien.
Verwacht U een relatie tussen deze twee analyses. En zo ja, hoe ziet deze
verwachting eruit?

A

De sequencing reactie levert reads op, en als deze reads gemapped
worden op het genoom zijn er locaties te zien met pieken van reads. Dit zijn de
locaties met open chromatine (ATAC-seq) of eiwitbindingen (ChIP-seq) of
histonmodificaties (ChIP-seq). Als er een ATAC-seq en een ChIP-seq analyse
uitgevoerd wordt dan wordt er gekeken of er genomische locaties zijn waarbij beide
analyses een signaal (piek van reads) geven. Dit geeft aan dat op bepaalde locaties
het chromatine open is, en dat er een eiwit bind, of histonmodificatie heeft
plaatsgevonden, en dat is extra sterk bewijs voor transcriptie

55
Q

Beschrijf beknopt hoe u middels “de-novo assembly” de basevolgorde van
transcripten kunt bepale

A

Reads vertegenwoordigen korte stukjes van mRNA transcripten,
en om de basevolgorde van mRNA transcripten te verkrijgen moeten reads met
overeenkomstige sequenties geassembleerd worden. Daartoe worden de reads
opgeknipt in korte stukjes (kmers) en worden kmers die overlappen aan elkaar
gekoppeld tot lange sequenties, die contigs genoemd worden

56
Q

Een assembly analyse leidt doorgaans tot een groot aantal sequenties, die het
transcriptoom representeren. Om het expressie niveau van de transcripten te
bepalen kunt u de reads mappen op het transcriptoom. (in plaats van het genoom),
en per transcript tellen. Geef aan hoe u deze data zou normaliseren

A

Er zijn twee antwoorden mogelijk. 1) RPKM: Tel het totaal aantal
reads in de steekproef op en deel dat aantal door 1.000.000 – dit is de “per million”
scaling factor. Deel de read counts per gen door de per million scaling factor. Dit
geeft reads per million (RPM). Deel de RPM-waarden door de lengte van het gen, in
kilobasen. 2) TPM: Deel de read-counts door de lengte van elk gen in kilobasen. Dit
geeft reads per kilobase (RPK). Tel alle RPK-waarden in een sample bij elkaar op en
deel dit getal door 1.000.000. Dit is de “per million” scaling-factor. Deel de RPK-
waarden door de scaling-facto

57
Q

Het sequensen levert een count-table op met genexpressie waarden, en met read
counts voor de ERCC spike-ins. U voert een normalisatie uit. U ziet dat de variatie
van de ERCC spike-ins over de samples vermindert. Baart dit u zorgen?

A

Nee, in principe niet. De ERCC spike-ins kwantificeren de
technische variabiliteit. U verwacht dat normalisatie procedure de technische
variabiliteit vermindert. Tijdens college is uitgelegd dat dit een doel van de
normalisatie is.

58
Q

Om cell clusters te herkennen voert U een Hierarchical clustering uit. Dit levert
een dendrogram op. Wat zegt deze dendrogram?

A

Deze dendrogram wordt uitgerekend op basis van de distance
matrix, die aangeeft hoeveel iedere cel verschilt van iedere andere cel op basis van
gen-expressie waarden. Een dendrogram is een vertakkingsdiagram die gelijkenis
tussen (groepen van) cellen weergeeft. Op basis van deze diagram kunnen clusters
van cellen herkend en gedefinieerd worden.

59
Q

Een Principal Component Analyse (PCA) maakt het mogelijk om de grootste
variatie in een “high dimensional” data set te plotten in twee dimensies. PCA is
ook toe te passen op Single Cell RNA-seq data. Toch gebruik je dan ook vaak tSNE
of UMAP om de data te plotten. Waarom?

A

Het doel van PCA is om een dataset met veel dimensies te
reduceren tot enkele dimensies, waarin de hoogste mate van variatie weergegeven
kan worden. Het doel van tSNE en UMAP is om een dataset met veel dimensies te
reduceren tot enkele dimensies, en daarbij zoveel mogelijk de originele structuur
van de data te behouden. Het doel van de analyses is dus verschillend, en om de
structuur van een single-cell RNA-seq dataset weer te geven in twee dimensies kan
een tSNE of UMAP beter werken dan een PCA.

60
Q

which of the two sets of highlighted points differ significantly between the two
compared conditions – the ones in the red square (high -log(p)) or the ones in the red oval? (low -log(p)) how
can you tell?

A

the square – they have a small P-value (high negative log, 2 pt) and at least some
fold change (1 pt); or, alternatively: the oval has a high P-value and some of the
points represent pretty low fold-changes

61
Q

which of the molecular groups (metabolites, phospho-proteins, or RNA) has the
largest dynamic range in this experiment/measurement? how can you tell?

A

probably RNA (1 pt) – there are some RNAs, with a log FC of -8 (1 pt), but it’s possible
that the range of one of the other omes is larger and there are just less differences

62
Q

do you think that the metabolites, phospho-proteins and transcripts represented by
the points in the dashed box have similar functions? explain why or why not (approx same log FC)

A

pro-argument: they are both lower in tumor tissues, so they might be related (1 pt);
con-argument: many different functions can differ in the two conditions (1 pt); some
may be causal, some may be consequences, some may strengthen the phenotype,
some may be the attempt of the cell to reach a ‘normal’ state (any one of these
would yield 1 pt).

63
Q

what is indicated by the colour of the nodes representing the transcripts in the
network? how can you tell?

A

the direction of regulation/change in gene expression (1 pt); the one blue point sits
at the opposite end of the x-axis in the volcano plot – the x-axis represents the log
fold change

64
Q

what is represented by the direction of the edges in the network?

A

who regulates who / the direction of regulation

65
Q

is the network uni- or bi-partite? why or why not (

A

I can’t say for sure (1 pt) – the network might be bi-partite, because we don’t see
targets of STAT2 interacting with each other (1 pt), or it might be uni-partite and
there are just no interactions between these specific genes

66
Q

name three different experimental techniques which link transcription factors to
transcripts

A

ChIPseq, ChIP-chip, knock-down/silencing/mutation of TF-gene + RNAseq, eQTL
analysis, promoter assays, e.g. luciferase… etc

67
Q

what does a yeast-2-hybrid screen detect?

A

protein-protein-interaction / that two proteins bind to each other / that two
proteins are part of a protein complex

68
Q

a group of researchers want to perform an experiment to find proteins that they can
target with a drug to influence the behaviour of some cells. They debate whether
they should take the approach from figure 1 or figure 2. Which arguments can you
find for and against the two approaches, given their aim?

A

pro-correlative analysis: this can be done with any omics-level that we find
interesting, including proteomics and the behaviour of the cells (1 pt), we don’t need
prior knowledge (1 pt); anti-correlative analysis: the correlation does not imply
causation, so we would not know if a protein correlated to some behaviour of
interest is actually a cause (2 pt), the observed correlation may be indirect and we
don’t see the link (1 pt); pro-protein-protein-interaction: the experiment is targeted
Figure 1: Figure 2:
to the omics level we are interested in (proteins; 1 pt); anti-protein-protein-
interaction: we need prior knowledge to link at least some proteins to the behaviour
of interest

69
Q

A group of researchers wants to study changes in the transcriptome,
proteome, and metabolome of cultured cells after adding a substance that is
suspected to be toxic for human cells to the culture medium. Would you
expect to see effects in all omics datasets at the same time? Why, or why
not? Give examples.

A

The time scales will be different for the different omics (2 pt). Metabolism can
change very fast, if the enzymes are present (0.1 μs-10s for a metabolite to appear),
transcripts take longer (10 min per gene), proteins can be made in a minute, if the
transcript is there.

70
Q

The researchers were able to measure 200 metabolites, 2000 proteins, and
12000 transcripts. If the substance had no effects on the cells, which omics
dataset will return the most differentially abundant/expressed analytes?
Why?

A

The transcriptome is most likely to yield false positive differential expression, just
because it has the most analytes

71
Q

The researchers repeat the experiment, this time on a set of 10 different cell
types in culture (e.g., a cell line from the lung epithelium, one from immune
cells, one from liver etc…) as replicates. If the substance has an effect in all
these cell types, do you expect the effect size to be similar in all omics
datasets? Why, or why not?

A

The biological variation between the cell lines can differ for the omics levels. For
example, some cells may have very different proteins, because they have different
morphologies and enzymes. Metabolites might be more stable, because many
central metabolites are shared by the cells. This would cause the effect size to be
smaller for the proteins than the metabolites, even if the effect of the substance is
similar on both (different levels of noise, same signal). On the other hand, the effect
may also be stronger at one of the levels, for example, the cell might respond with
changes in many transcripts, while only few metabolites are affected, so the effect
size would be larger in the transcriptome than the metabolome (same level of noise,
more signal)

72
Q

An omics-wide model indicates that signaling through the MAP kinase ERK1 is
important for the response to the substance tested in 2). If the researchers
want to test this by knocking ERK1 out, what could happen that would leave
them with no answer to their question?

A

There might be side effects on other processes. In the worst case, the
cells are just not able to live long enough to be tested

73
Q

Name and describe an omics experiment that would allow the researchers to
assess whether the substance is further metabolized by the cells.

A

The researchers could first try to see if the amount of the substance
decreases faster in the cells than without living cells under similar
conditions. They could perform a stable isotope experiment, where they
label the substance with heavy isotopes and see if the isotopes end up in
other molecules in the cell

74
Q

The researchers found that the substance is metabolized by the liver cell line
and suspect that this detoxifies the substance. They suspect that a certain
enzyme is involved. Suggest an experiment to validate this hypothesis

A

They could overexpress this enzyme. The substance should be degraded
faster and the toxic effect should be weaker. They could also knock the
enzyme out/down or inhibit it with another substance (if they know one)
and see if the toxic effect is stronger

75
Q

Geef voor elk van de variatie bronnen een voorbeeld waarbij door replicatie de variatie kan worden verkleind.

A

Biologische variatie: neem meer mensen in de studie
* Analytische variatie: meet de samples vaker.

76
Q

Naast replicatie zijn ook randomisatie en blocking middelen om het effect van een treatment zo goed mogelijk te kunnen
schatten. Geef van beide een voorbeeld wanneer en hoe ze gebruikt worden

A

Randomisatie: Door mensen op een random manier toe te wijzen aan twee treatments, kun je systematische verschillen vermijden.
* Blocking: Als er meer samples zijn dan in 1 batch / dag gemeten kunnen worden kun je de samples over de twee dagen verdelen. Het batch /
dag effect wordt dan voor gecorrigeerd

77
Q

Beschrijf waarom je beter experimenten kunt blocken dan randomizeren.

A

Bij blocken verwijder je variatie tussen experimenten waarvan je weet dat die niet relevant is. Hierdoor kun je een kleiner
treatment effect vinden.
* Bij randomisatie verwijder je geen variatie, maar probeer je geen bias te veroorzaken