Computational Social Sciences (11) Flashcards

1
Q

Computational Social Science =

A

endeavour to understand human communication by using automation in observational, theoretical and experimental research

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

CSS: content

A
  1. lange and complex data sets
  2. digital traces and other “naturally occurring” data
  3. requires algorithmic solution to analyse
  4. re-testing old theories with new approach
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

doppelte Relevanz von CSS

A
  1. Werkzeugkasten der KoWi
    1. können für Studien eingesetzt werden
  2. Gegenstand der KoWi
    1. man untersucht z.B. Algorithmen con Suchmaschinen oder auf Social Media
    2. Problem: Tech-Unternehmen geben Algorithmen nicht Preis
    3. Ziel der Forschung: diese geheimen Algorithmen aufdecken und analysieren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Algorithmus =

A

Regelwerk für schrittweises Verfahren bzw. Folge von Anweisungen zur Lösung eines Problems (z.B. Rezept)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Big Data beinhaltet

A
  • Volume
  • Variety
  • Velocity
  • Veracity
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Big Data: Volume

A

große Datenmenge, oft Peta- oder Exabytes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Big Data: Variety

A

Vielfalt der Datenstrukturen
(nicht nur Zahlendatenbanken, sondern Text, Audio, Video etc.)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Big Data: Velocity

A

Geschwindigkeit, mit der Daten entstehen und sich dynamisch entwickeln

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Big Data: Veracity

A

“Wahrhaftigkeit” von Daten
(Herkunft, inhaltliche Gültigkeit)
→ Bias aus Analyse der Big Data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Datafizierung =

A

man kann Menschen durch Daten erfassen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Digitalisierung vs. Datafizierung

A
  • Datafizierung ≠ Digitalisierung, da auch schon vorher möglich
  • Digitalisierung vereinfacht jedoch Datafizierung maßgeblich
  • Sammlung der Daten durch Suchmaschinen, Bewegung (Maps), Webnutzung, Social Media (Instagram), Kommunikation (WhatsApp)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Künstliche Intelligenz (KI) =

A

Artificial Intelligence (AI)

Teilgebiet der Informatik, die sich mit Nachbildung intelligenten Denkens, Verhaltens bei Maschinen beschäftigt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Machine Learning =

A

ein Teilbereich der KI

künstlicher Prozess, bei dem Computer anhand von vorgegebenen Parametern und Datenmaterial Wissen generieren, indem sie Algorithmen auf große Datenmengen anwenden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

NLP =

A

natural language processing

Anwendung von Machine Learning auf geschriebene und gesprochene Sprache, um sie für Computer verarbeitbar zu machen → Unterkategorie von ML

ein Teilbereich des Machine Learnings, dieses ist wiederum Teil der KI

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Beispiele für AI-generated content

A
  • Roboterjournalismus (Wetter, Sport, Aktienberichte anhand von Daten)
  • online-Produktbeschreibungen
  • Handschrifterkennung
  • Prognosemodelle, z.B. für Erkrankungen, Straffälligkeit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Telemetrie =

A

Messeinrichtungen, die an Fernseher angeschlossen werden, erfassen alls An-, Um- und Ausschaltvorgänge
→ “People Meter”

(automatisierte Beobachtung)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Datenspuren =

A

Daten, die aus natürlichem Verhalten von Menschen durch automatisierte Beobachtungsverfahren erfasst und gespeichert werden

Bsp. Navigationshandlungen im Internet ( Page Visits, Scroll Depth, Time Spent etc. )

(automatisierte Beobachtung)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Datenspuren: Vorteile

A
  • Resultat natürlichen Verhaltens
  • große Datenmengen
  • neue Analysemöglichkeiten für “alte” Theorien
19
Q

Datenspuren: Nachteile

A
  • Zugang beschränkt und teuer (Unternehmen geben Daten selten preis)
  • fehlende Repräsentativität (viele Daten ≠ gute/repräsentative Daten)
  • algorithmische Konfundierung (jeder Feed auf Social Media sieht anders aus)
  • Rückschluss auf sensible Informationen über Personen (Datenmissbrauch)
20
Q

Tracking =

A

> Software erfasst gewünschte Variablen und zeichnet diese auf (z.B. Plugins im Browser)

Option: zusätzlich Merkmale mit Fragebogen erfassen

21
Q

Datenspende =

A

Nutzer laden Daten herunter und stellen sie Forschenden zur Verfügung

22
Q

Automatisierte IA =

A

verschiedene Verfahren, bei denen die Codierung der Codiereinheiten durch Computerprogramme übernommen wird

23
Q

Automatisierte IA: Beispiele

A
  • zeitliche Dynamiken und Veränderungen in der Berichterstattung
  • formale und sprachliche Merkmale von Kommunikation (z.B. politische Reden)
  • Rezeption von Inhalten (z.B. Kommentare auf Social Media)
24
Q

automatisierte IA: Scraping/Crawling

A

automatisierte Ansteuerung von Websites und Extraktion von Inhalten
→ ganze Webseite gespeichert

25
Q

automatisierte IA: API

A

(application programming interface)

Forschende fragen z.B. bei Twitter an, ob sie alle Tweets mit #trump von 2015-2016 erhalten können, Twitter stellt diese dann zur Verfügung

  1. Request: API call is initiated by researcher
  2. Receive: API goes to server and collects data
  3. Response: SPI transfers requested data back to researcher
26
Q

automatisierte IA: Datenaufbereitung

A

Daten müssen für Computer “lesbar” gemacht werden

  • Definition und Erstellung von Codiereinheiten
  • Preprocessing
    1. Feature-Extraktion
    2. Tokennisierung (Merkmale in noch kleinere Bestandteile zerlegen)
  • Entfernung von Stoppwörtern (und, oder)
  • Wörter auf Wortstamm reduzieren (do = does = doing)

→ Output: Datenstruktur die als Input für Computer dient

27
Q

automatisierte IA: Datenanalyse: Überblick

A

verschiedene Codierungsverfahren

28
Q

automatisierte IA: Datenanalyse: Überblick

A

verschiedene Codierungsverfahren

  • Text- und Wortmetriken
29
Q

automatisierte IA: Datenanalyse: Überblick

A

verschiedene Codierungsverfahren

  • Text- und Wortmetriken
  • Textklassifikation
30
Q

automatisierte IA: Datenanalyse: Text- und Wortmetriken

A
  • Kollokation: gemeinsames Auftreten von Wörtern nacheinander
  • Kookurenz: gemeinsames Auftreten von Wörtern in selbem Dokument
    → Frequenzanalyse
31
Q

automatisierte IA: Datenanalyse: Textklassifikation

A

diktionärbasierter Ansatz

  • typische Wörter für Konstrukt werden in Wörterbuch zusammengefasst
  • in Dokument wird nach Übereinstimmungen mit Wörterbuch gesucht
  • Bsp. Erfassung von positiven/negativen Bewertungen (Sentimentanalyse)
32
Q

Beispiele für Machine Learning

A
  • analyse jokes or sarcasm
  • analyse children’s books concerning most frequent descriptions
  • analyse common patterns in political speeches
33
Q

supervised machine learning

A

Trainingsmaterial für Machine Learning wird vorgegeben

34
Q

unsupervised machine learning

A

Machine Learning geschieht ohne Trainingsmaterial, das System sucht selbstständig nach Mustern in Daten

35
Q

NLP: topic modelling

A

Wortcluster (Worte kommen oft zusammen vor) werden zu topics zusammengefasst

36
Q

NLP: transcription and translation

A

Transkriptionen von handgeschriebenen Texten, gesprochener Sprache und anschließender Übersetzung

37
Q

Simulationen =

A

Vorgänge werden mithilfe von Programmen simuliert

38
Q

Simulationsarten

A
  • statische Simulationen (nur ein Zeitpunkt)
  • Monte-Carlo-Simulationen (basierend auf Zufallsprozessen)
  • dynamische Simulationen (Prozesse)
    • kontinuierlich (Prognosemodelle stetiger Prozesse)
    • diskrete Simulation (outcome nach festgelegter Zeit)
  • agent based modelling (Agenten mit Eigenschaften imitieren menschliches Verhalten)
39
Q

statische Simulationen

A

nur ein Zeitpunkt

40
Q

Monte-Carlo-Simulationen

A

basierend auf Zufallsprozessen

41
Q

dynamische Simulationen

A

Prozesse

  • kontinuierlich (Prognosemodelle stetiger Prozesse)
  • diskrete Simulation (outcome nach festgelegter Zeit)
42
Q

agent based modelling

A

Agenten mit Eigenschaften imitieren menschliches Verhalten

43
Q

Limitationen der CCS

A
  • Computer erkennt Doppeldeutigkeit und Verwendungskontext nicht
  • manuelle Validierung der Ergebnisse durch Forschende nötig
  • aufwendige Datenaufbereitung
  • Machine Bias (KI lernt an biased data)
44
Q

Studie von van Dalen et al. 2012

A
  • Untersuchungsobjekte: Journalisten (ES, GB, DK, DE)
  • Mikroebene
  • keine Zufallsstichprobe, sonder so viele wie möglich
  • standardisierte PAPI
  • Feldphase 2007-2009
  • Likert-Skala
  • Ergebnisse
    • Unterschiede im Rollenverhältnis zwischen Ländern
    • korrespondiert mit Inhalt (mehr Unterhaltung in GB)
    • zentrale Rolle des Mediensystems als Sozialisierungsinstanz
  • kritische Würdigung
    • vergleichende Perspektive
    • Kombination von IA und Befragung
    • Limitationen:
      • standardisierte Befragung
      • kein Matching von Inhalt und Befragte
      • nur 4 Länder