VL6 ChIP-Seq Flashcards
ChIP-Seq Ziel
Ziel:
Isolierung und Bestimmung Protein-verpackter-DNA
Protein-DNA-Interaktionen wichtig für Regulierung Genexpression
Wie kann man den “histone code” ablesen?
Histonmodifikation:
Meistens wo auf Protein?
Wann?
Bedeutungen oder Auswirkungen
N-Terminal
posttranslational
Bedeutung / Ausiwirkung:
→ Werden jeweils mehr oder weniger „klebrig“
→ Nukleosomen interagieren anders miteinander oder mit anderen Faktoren
→ anderen (Transkriptions)Faktoren werden rekrutiert
Histone Code?
hypothesis that transcription of genetic information encoded in DNA is part regulated by chemical modifications to histone proteins
Haeufigste Histonmodificationen
+ an welche AS?
+ Ergebnis?
Methylierungen: Lysin (K), Arginin (R) → kondensiert Chromosomen
Acetylierungen: Lysin (K) → lockert Chromosom🡪 hohere Genaktivität
Weniger haeufige Histonmodificationen
Ubiquitinylierungen
Serinphosphorylierungen
4 Standard Histone
H3
H4
H2A
H2B
ChIP?
ChIP = Chromatin Immuno Präzipitation (ChIP)
ChIP:
Anschließende mögliche Experimente
Sequenzierung (ChIP-Seq)
Hybridisierung meist auf tiling array (ChIP-chip)
PCR /qPCR
ChIP:
wichtige Zielproteine
Transkriptionsfaktoren
Histone (verschiedene Typen und Modifikationen)
ChIP-Seq:
grobe Ablauf
Crosslinking mit Formaldehyd
Zelllyse
Ultraschallbehandlung (oder Enzymbehandlung)
Immunopräzipitation (IP)
Eluierung
Reversion des Crosslinks durch hohe Temperaturen
(nur bei DNA)
DNA-Aufreinigung
Sequenzierung
Mapping und peak Identifikation
ChIP Ablauf:
Teilschritt 1:
Crosslinking
Crosslinking mit Formaldehyd
Formaldehyd:
- toxisch, krebserregend, vernetzt Proteine mit DNA → Mutationen
- Vernetzung von DNA und Proteinen (für Erhaltung labile Interaktionen)
Wie:
Formaldehyd reagiert mit (Aminogruppe der) Proteine
→ Schiffsche Base (Aminogruppe mit Rest)
→ reaktiv mit Aminogruppen der DNA (befinden sich in Basen)
→ kovalente Bindung von Protein an DNA
ChIP Ablauf:
Teilschritt 3:
Ultrschalbehandlung (oder Enzymbehandlung)
Zerstörung DNA
Verkürzung der Chromatinfragmente
ChIP Ablauf:
Teilschritt 4:
Immunopraezipitation (IP)
Immunopräzipitation (IP)
- Weg: Epitop-tag + Antikörper
- Epitop-tag (HA, myc - transgen)
- vor der Lyse markieren - Weg: nur Antikörper
- Antikörper direkt gegen Protein (bzw. RNA-Pol)
- Bsp. aus Hasen gewonnen
Antikörper auf Beads geladen
Proteine bindet an Antikörper
Beads koennen Leicht mit Zentrifugation angereicht werden 🡪 Pellet
ChIP
IP - Bspiele von Epitope Tag
zB HA - 7 AS, aus hemagglutinin Protein von Influenza
zB myc - 9 AS, aus TF
Antikörper bindet an Tag
ChIP :
Kurzerer reads ermoeglichen _____ _______
Kurzerer reads ermoeglichen höhere Auflösung
man weiss besser wo Bindestelle war
ChIP Ablauf:
Schritte nach IP
Eluierung Reversion des Crosslinks durch hohe Temperaturen (nur bei DNA) DNA-Aufreinigung Sequenzierung Mapping und peak Identifizierung
ChIP :
DNA Library Anfertigung - Illumina
Vorbereitung der kleinen DNA-Fragmente (End-repair ChIP DNA, add one „A“ nt)
Adapterligation: Adapter / Linker mit Barcode - spezifisch fuer jede Library - Barcode erlaubt multiplexing
PCR Amplifikation (16-17 Zyklen)
Library Sequenzierung
Multiplexing
PCR, Sequenzierung von verschiedene DNA Libraries gleichzeitig
Kontrollen für ChIP-Seq
Kontrollen für ChIP-Seq :
- Input DNA - Chromatin ohne IP
- Kein Antikörper / unspezifische Antikoerper (zB Immunoglobulin G - IgG)
- Kein Tag/ no tag
Kontrollen für ChIP-Seq
Input DNA - wie / warum?
Input DNA - Chromatin ohne IP - alles sequenzieren
weil: Fragmente ligieren unterschiedlich gut mit Adaptoren, werden unterschiedlich gut amplifiziert
wie: alles sequenzieren um potentiellen Bias in der Sequenzierfaehigkeit aufzudecken
Kontrollen für ChIP-Seq
Kein Antikoerper / Tag
warum?
DNA + Proteine reagieren auch unspezifisch miteinander; Chromatinfragmente kleben auch an Beads
→ Trotz keiner Verwendung von Antikörper, DNA im Pellet
Also, fuer Sichtbarmachung des unspezifischen DNA Hintergrunds in Sequenzierung
Chip-seq bioinformatische Analyse Workflow
Reads als FASTQ Datei
Qualitätskontrolle der Sequenzen (Sequenzlänge, Basenzusammensetzung usw)
Mapping: Reads einem Ort im Reference-Genom zuordnen,
Coverage: wie häufig ein Fragment repräsentiert ist
Peak Calling: Normalisierung mit Ausschluss Peaks
Custom Analysis: wo findet man die Peaks, an welcher Stelle im Genom die meisten Reads
- Enriched Motifs
- Annotation
- Overlapping or differentially bound peaks
Chip-seq Detektion
Chip-seq Detektion - siehe ZF
ChIP-Seq eines TFs
Identifizierung von ChIP-Peaks basierend auf typischer Asymmetrie der Sequenzier-reads
Sequenzierung von Reads auf + und - Strang jeweils von 5’Richtung in 3’Richtung
🡪 Reads in beide Richtungen
ChIP-Seq mehrerer TFs Bindung von mehreren TFs führt zu ungenauer Peak-Detektion 🡪 schlechtere Auflösung Uberlapp der Gauss-Verteilung nicht ungewoehnlich
ChIP-Seq ausgewaehlter Histonmodifikationen
Fehlende Strand- asymmetrie bei diffusen Histonmodifikationen
ueber groessere Bereicher verteilt - noch ungenauerer Peak
Chip-Seq - Moeglichkeiten fuer Kartierung von Bindestellen
d = durchschnittliche Fragmentlänge
- Möglichkeit - mittels Tag-Verschiebung
Jeder Sequenz-Tag wird um d/2 verschoben (also zur Mitte des IP-Fragmentes) - Möglichkeit - mittels Tag-Verlängerung
Jeder Sequenz-Tag wird informatisch in 3‘-Richtung auf d verlängert
Normalisierung: andere Name
Normalisierung: Bestimmung des Hintergrunds/ Noise per Input-Analyse/ mock IP-Analyse / P-Calling/ Peak-Calling
Warum sind input / mock IP-Daten essentiell?
Noise ist nicht uniform (Chromatin Konformationen, Sequenzierbias, mappability)
eigentliches Experiment (= signal + noise) und Input (= noise) haben normalerweise nicht gleiche Sequenztiefe
Normalisierung - Ansatz bei RNA-Seq
funktioniert das bei ChIP-Seq?
naiver Ansatz: Skalierungsfaktor (funktioniert bei RNA-Seq)
Input: N Reads
Experiment → M > N reads
Normalisierung an Hand der Größe der Library: M → M’ = N
ChIP-Seq: Experiment mit Negativ-Kontrolle
Wie macht man Normalisierung?
Problem: Signal beeinflusst scaling Faktor: mehr Signal aber gleicher Noise
→ Normalisierung an Hand Librarygröße → künstlicher Noise überbewertet
Lösung: Peak Calling; Ausschluss von Regionen mit starker Anreicherung
→ Skalierung der beiden Experiment basierende nur auf technischen Unterschieden
(vereinfacht - tatsaechlich nach partieller Regression)
ChIP-Seq: Vergleichenden ChIP-Seq Experimenten
Wie macht man Normalisierung?
Differentielle Anreicherung bei Vergleichenden ChIP-Seq Experimenten
Meist werden mehrere Chip-Seq-Experimente verglichen 🡪 ChIP-Seq unter verschiedenen Bedingungen
Dann kann man mit einer einfacher Skalierungsfaktor wie bei RNA-Seq Normalisieren
Was sind differentiell angereicherte Regionen? In welchen Regionen unterscheiden sich Peaks?
Anwendung:
Histonmodifikationen
DNA-Methylierung
TSS
TSS = Transcription Start Site - Wo Pol anfängt - in Promotor zu finden
Promotor
Promotor - rekrutiert Pol - enthält TSS
Enhancer
Enhancer: wird nicht transkribiert, Bindet Transkriptionsaktivatoren, kann weit von Gen entfernt sein
Wie analysiert man Peaks von ChIP-Seq?
Analyse von ChIpPeak: Peaks 🡪 Gene 🡪 Funktionen:
Ort des Peaks im Genom?
Gibt es genomweit eine Anreicherung von bestimmten Genfunktionen (e.g. GO Kategorien) um die peaks
Überrepräsentierte Motive Finden – kmers/logos
Clustering mit anderen vorher schon untersuchten DNA-Bindeproteinen
Konservierung in Evolution bestimmen
Wie analysiert man Peaks von ChIP-Seq?
Ort des Peaks im Genom?
Ort des Peaks im Genom?
Proximal (stromaufwaerts) zum TSS / Promoter / Enhancer
intergenische Region
Introns
Wie analysiert man Peaks von ChIP-Seq:
Nachteile bei Fokus auf proximale Regionen?
Nachteil 1:
führt zum Verlust von einer großen Zahl von Bindestellen
nicht nur die nächstliegende Gene wo Protein gebunden wurde wird beeinflusst durch Protein
Nachteil 2:
„Nächstes-Gen“ Ansatz induziert Bias hin zu Genen mit großen Intergenischen Bereichen
Manche Gene haben riesige intergenische Bereich
e.g. GO-Term “multicellular organism development”: 14% aller Gene, aber 33% des Genoms → grosse regulatorische Sequenzen (zB in vgl rRNA)
🡪 auf solche Bereiche findet man ChIP-Peaks
Verwandte Techniken zu ChIp-Seq
meist _________
Beispiele
meist unspezifischer
Beispiele:
DNase I hypersensitive site mapping (aelteste Technik)
FAIRE-Seq
ATAC-Seq
3C - Chromatin Conformation Capture
Verwandte Techniken zu ChIp-Seq:
DNase I hypersensitive site mapping
welche DNA ist nicht in Nukleosomen gewickelt, d.h. liegt frei vor
Unspezifische DNA-Endonuklease
- kann nicht in Nukleosom-Bereichen schneiden
- kann in TF-Bereichen Schneiden
Ergebnis: DNA die nicht mehr da ist, war freie aktive DNA (nicht um Nukleosomen gewickelt) –> Sequenzieren
heutzutage: man benutzt MNase - noch aktiver
Verwandte Techniken zu ChIp-Seq:
FAIRE-Seq
= Formaldehyde-Assisted Isolation of Regulatory Elements
Ziel: welche DNA ist nicht in Nukleosomen gewickelt (freie DNA)
Ablauf
- Crosslinking von Proteine mit DNA, mittels Formaldehyd
- Zusätzlich Negativkontrolle (ohne crosslink)
- Zelllyse, Fragmentierung durch Ultraschall
- Phenol/Chloroform Extraction
- oben: Freie DNA/ Nukleotide in wässrige Phase
- unten: Proteine (mit angehefteter DNA) in phenolische Phase
- Ergebnis: Sequenzierung von wässrigen Phasen (nicht gecrosslinked, freie DNA), Vergleich mit nicht-crosslinked- Experiment
Vorteil: leicht in lebendige Organismen einführbar
Verwandte Techniken zu ChIp-Seq:
ATAC-Seq
= Assay for Transposase Accessible Chromatin using sequencing
Ziel: welche DNA ist nicht in Nukleosomen gewickelt (Freie DNA)
Basiert auf: transgene, aggressiver Transposase Tn5 / Transposon
Schneidet in jeder beliebige freien Stelle der DNA, DNA Fragmente anhängen
Transposon trägt Sequenz für Transposase
Transposon hat invertierte repetitive (IR) Endsequenzen (die sind auch Zielsequenzen der Transposase)
Transposase schneidet Sequenz als Ringförmige Struktur aus
erhält nur noch Endsequenzen ohne innere Sequenz
Schneidet Gen an vielen Stellen auf (wo DNA offen vorliegt) und klebt an Enden Adapter (für Illumina) dran
Ergebnis: Sequenzierung von DNA, die locker verpackt ist
Verwandte Techniken zu ChIp-Seq:
3C
3C - Chromatin Conformation Capture
Ziel: 3D Struktur DNA/Chromatin im Zellkern zu bestimmen 🡪Welche Gene nah beieinander liegen
Ablauf:
- Crosslink diesmal um DNA mit anderen DNA-bereichen zu verknüpfen
- Schneiden und digestion - Verdauung
- Anschließend auflösen des Crosslinks → zirkuläres Molekül
- Man benutzt primer für den bekannten Bereich → man kann unbekannte interagierende Sequenz amplifizieren
Erkennt Genpositionen, Rückschlüsse auf Interaktionen - zB Enhancer
Auch Genomweit möglich (dann braucht man Adaptoren usw) = Hi-C
ENCODE
ENCODE Projekt: ChIp-Seq- Anwendung
Dutzende Labore haben ChIP-seq unter den gleichen Qualitätsrichtlinien durchgeführt:
- Über 100 Transkriptionsfaktoren und Histonmodifikationen wurden getestet
- Zusätzliche Techniken für DNA methylation, Chromatin Zugänglichleit, etc.
- Auf welche Bereiche wird in einem ChIP-Seq Experiment bevorzugt normalisiert?
Bereiche zwischen Signal-Peaks im Experiment
= Peak Calling - Ausschluss von Regionen mit starker Signalen
- Nennen Sie drei wichtige Kontrollen für ChIP-Seq Experimente.
Input DNA, Kein Antikoerper, kein Tag
- Welchen Zelltyp brauchen Sie für die Durchführung eines ChIP-Seq Experiment?
Muskelzelle
Nervenzelle
B-Zelle: für Antikörper
Epidermiszelle
C.
B-zelle für die Antikörper
(Zelle für Produktion der notwendigen Bestandteilen)
- Welches der folgenden DNA-Bindeproteine interagiert sequenzspezifisch mit DNA?
Histon H3
DNA-Polymerase
NF-kB
RNA-Polymerase
C) NF-kB ist ein Transkriptionsfaktor, der an eine spezifische DNA-Sequenz dem κB-Motiv bindet und so die Transkription beeinflussen kann
nuclear factor ‘kappa-light-chain-enhancer’ of activated B-cells
- Was ist der primäre Zweck der Ultraschallbehandlung in einem ChIP Experiment?
A. Verkürzung der Chromatinfragmente
B. Aufschmelzen von dsDNA zu ssDNA
C. Die Viskosität in der Probe zu erniedrigen
D. Proteine von der DNA zu entfernen
A. Verkürzung der Chromatinfragmente, zerhacken der DNA
Hoehere Aufloesung –> Notwendig um Bindestellen zu finden
- Sie wollen genomweit untersuchen, welche Sequenzen von Ihrem Transkriptionsfaktor Bollocks1 gebunden werden. Leider haben Sie momentan keinen Zugang zu einer Sequenziermaschine, sondern müssen präzipitierte DNA mit einem microarray analysieren. Welchen Nachteil hat das?
erfordert Spezies/ transkript spezifische Proben
erkennt keine vorher unbekannten Veränderungen
Niedrigere Spezifität und Sensitivität
dynamic Range - limitierte Auflösung, hängt von DNA-Fragmentlänge ab
- Was bedeutet 3C (mit Skizze) und welche Frage beantwortet dieses Experiment?
Chromatin Conformation Capture
Chromatin 3D / räumliche Struktur im Zellkern wird bestimmt
quantifizierung von Wechselwirkungen genomischer Loci die sich im 3Dimensionalen Raum nah beieinander befinden, auf dem Genom aber weit entfernt sind
Skizze:
X, Ring usw
- Wieso sind ChIP-Seq reads oft neben (stromauf-und stromabwärts) und nicht auf der Bindestelle des untersuchten DNA-Bindeproteins zu finden?
Fragmente ca 100basenpaare
Alle Fragemnete haben gemein das Bidnestelle für TF im Inneren liegt
Bei Sequenzierung mit Illumina nur sehr kurze Reads
Reads liegen am Ende der Fragmente (nihct wo gebunden wird
Wie kann man mit Formaldehyd global nach regulatorischen Sequenzen im Genom suchen?
FAIRE-Seq
Ziel: welche DNA ist frei, nicht in Nukleosomen gewickelt (freie DNA)
Ablauf
Crosslinking mittels Formaldehyd Proteine mit DNA
Zusätzlich Negativkontrolle (ohne crosslink)
Zelllyse, Fragmentierung durch Ultraschall
Phenol/Chloroform Extraction:
- oben: Freie DNA/ Nukleotide in wässrige Phase
- unten: Proteine (mit angehefteter DNA) in phenolische Phase
Ergebnis: Sequenzierung von wässrigen Phasen (nicht gecrosslinked, freie DNA), Vergleich mit nicht-crosslinked- Experiment
- Was ist der Vorteil von Fair-Seq gegenüber der DNase I Analyse?
DNA1: schneidet DNA Bereiche für die DNAse (ist eine Endonuklease) zugänglich ist 🡪 es entsteht Ende, an das Linker angehängt wird, diese werden sequenziert (diese Bereiche sind zugänglich)
FAIRE-Seq: Vorteil in lebendigen Systemen: Formaledhyd leichter aufnehmbar als DNAase 1 (für DNAse 1 müssen Löchr in ZellMembran schaffen, diffundiert in Kern; man muss mit Zelllinien arbeiten)
(12.In welchen Regionen des Genoms finden Sie üblicherweise ChIP-Peaks?)
Meist in der Nähe von Promotoren, also um den Transkriptionsstart TSS herum
und distale (= enhancer) Region
(13.Nennen Sie zwei Techniken, um nicht von Proteinen geschützte DNA-Bereiche zu identifizieren.)
FAIRE-Seq
ATAC-Seq
DNAseI alles was übrig bleibt war offen, veraltet