Computational Social Sciences (11) Flashcards
Computational Social Science =
endeavour to understand human communication by using automation in observational, theoretical and experimental research
CSS: content
- lange and complex data sets
- digital traces and other “naturally occurring” data
- requires algorithmic solution to analyse
- re-testing old theories with new approach
doppelte Relevanz von CSS
-
Werkzeugkasten der KoWi
- können für Studien eingesetzt werden
-
Gegenstand der KoWi
- man untersucht z.B. Algorithmen con Suchmaschinen oder auf Social Media
- Problem: Tech-Unternehmen geben Algorithmen nicht Preis
- Ziel der Forschung: diese geheimen Algorithmen aufdecken und analysieren
Algorithmus =
Regelwerk für schrittweises Verfahren bzw. Folge von Anweisungen zur Lösung eines Problems (z.B. Rezept)
Big Data beinhaltet
- Volume
- Variety
- Velocity
- Veracity
Big Data: Volume
große Datenmenge, oft Peta- oder Exabytes
Big Data: Variety
Vielfalt der Datenstrukturen
(nicht nur Zahlendatenbanken, sondern Text, Audio, Video etc.)
Big Data: Velocity
Geschwindigkeit, mit der Daten entstehen und sich dynamisch entwickeln
Big Data: Veracity
“Wahrhaftigkeit” von Daten
(Herkunft, inhaltliche Gültigkeit)
→ Bias aus Analyse der Big Data
Datafizierung =
man kann Menschen durch Daten erfassen
Digitalisierung vs. Datafizierung
- Datafizierung ≠ Digitalisierung, da auch schon vorher möglich
- Digitalisierung vereinfacht jedoch Datafizierung maßgeblich
- Sammlung der Daten durch Suchmaschinen, Bewegung (Maps), Webnutzung, Social Media (Instagram), Kommunikation (WhatsApp)
Künstliche Intelligenz (KI) =
Artificial Intelligence (AI)
Teilgebiet der Informatik, die sich mit Nachbildung intelligenten Denkens, Verhaltens bei Maschinen beschäftigt
Machine Learning =
ein Teilbereich der KI
künstlicher Prozess, bei dem Computer anhand von vorgegebenen Parametern und Datenmaterial Wissen generieren, indem sie Algorithmen auf große Datenmengen anwenden
NLP =
natural language processing
Anwendung von Machine Learning auf geschriebene und gesprochene Sprache, um sie für Computer verarbeitbar zu machen → Unterkategorie von ML
ein Teilbereich des Machine Learnings, dieses ist wiederum Teil der KI
Beispiele für AI-generated content
- Roboterjournalismus (Wetter, Sport, Aktienberichte anhand von Daten)
- online-Produktbeschreibungen
- Handschrifterkennung
- Prognosemodelle, z.B. für Erkrankungen, Straffälligkeit
Telemetrie =
Messeinrichtungen, die an Fernseher angeschlossen werden, erfassen alls An-, Um- und Ausschaltvorgänge
→ “People Meter”
(automatisierte Beobachtung)
Datenspuren =
Daten, die aus natürlichem Verhalten von Menschen durch automatisierte Beobachtungsverfahren erfasst und gespeichert werden
Bsp. Navigationshandlungen im Internet ( Page Visits, Scroll Depth, Time Spent etc. )
(automatisierte Beobachtung)
Datenspuren: Vorteile
- Resultat natürlichen Verhaltens
- große Datenmengen
- neue Analysemöglichkeiten für “alte” Theorien
Datenspuren: Nachteile
- Zugang beschränkt und teuer (Unternehmen geben Daten selten preis)
- fehlende Repräsentativität (viele Daten ≠ gute/repräsentative Daten)
- algorithmische Konfundierung (jeder Feed auf Social Media sieht anders aus)
- Rückschluss auf sensible Informationen über Personen (Datenmissbrauch)
Tracking =
> Software erfasst gewünschte Variablen und zeichnet diese auf (z.B. Plugins im Browser)
Option: zusätzlich Merkmale mit Fragebogen erfassen
Datenspende =
Nutzer laden Daten herunter und stellen sie Forschenden zur Verfügung
Automatisierte IA =
verschiedene Verfahren, bei denen die Codierung der Codiereinheiten durch Computerprogramme übernommen wird
Automatisierte IA: Beispiele
- zeitliche Dynamiken und Veränderungen in der Berichterstattung
- formale und sprachliche Merkmale von Kommunikation (z.B. politische Reden)
- Rezeption von Inhalten (z.B. Kommentare auf Social Media)
automatisierte IA: Scraping/Crawling
automatisierte Ansteuerung von Websites und Extraktion von Inhalten
→ ganze Webseite gespeichert
automatisierte IA: API
(application programming interface)
Forschende fragen z.B. bei Twitter an, ob sie alle Tweets mit #trump von 2015-2016 erhalten können, Twitter stellt diese dann zur Verfügung
- Request: API call is initiated by researcher
- Receive: API goes to server and collects data
- Response: SPI transfers requested data back to researcher
automatisierte IA: Datenaufbereitung
Daten müssen für Computer “lesbar” gemacht werden
- Definition und Erstellung von Codiereinheiten
- Preprocessing
- Feature-Extraktion
- Tokennisierung (Merkmale in noch kleinere Bestandteile zerlegen)
- Entfernung von Stoppwörtern (und, oder)
- Wörter auf Wortstamm reduzieren (do = does = doing)
→ Output: Datenstruktur die als Input für Computer dient
automatisierte IA: Datenanalyse: Überblick
verschiedene Codierungsverfahren
automatisierte IA: Datenanalyse: Überblick
verschiedene Codierungsverfahren
- Text- und Wortmetriken
automatisierte IA: Datenanalyse: Überblick
verschiedene Codierungsverfahren
- Text- und Wortmetriken
- Textklassifikation
automatisierte IA: Datenanalyse: Text- und Wortmetriken
- Kollokation: gemeinsames Auftreten von Wörtern nacheinander
- Kookurenz: gemeinsames Auftreten von Wörtern in selbem Dokument
→ Frequenzanalyse
automatisierte IA: Datenanalyse: Textklassifikation
diktionärbasierter Ansatz
- typische Wörter für Konstrukt werden in Wörterbuch zusammengefasst
- in Dokument wird nach Übereinstimmungen mit Wörterbuch gesucht
- Bsp. Erfassung von positiven/negativen Bewertungen (Sentimentanalyse)
Beispiele für Machine Learning
- analyse jokes or sarcasm
- analyse children’s books concerning most frequent descriptions
- analyse common patterns in political speeches
supervised machine learning
Trainingsmaterial für Machine Learning wird vorgegeben
unsupervised machine learning
Machine Learning geschieht ohne Trainingsmaterial, das System sucht selbstständig nach Mustern in Daten
NLP: topic modelling
Wortcluster (Worte kommen oft zusammen vor) werden zu topics zusammengefasst
NLP: transcription and translation
Transkriptionen von handgeschriebenen Texten, gesprochener Sprache und anschließender Übersetzung
Simulationen =
Vorgänge werden mithilfe von Programmen simuliert
Simulationsarten
- statische Simulationen (nur ein Zeitpunkt)
- Monte-Carlo-Simulationen (basierend auf Zufallsprozessen)
- dynamische Simulationen (Prozesse)
- kontinuierlich (Prognosemodelle stetiger Prozesse)
- diskrete Simulation (outcome nach festgelegter Zeit)
- agent based modelling (Agenten mit Eigenschaften imitieren menschliches Verhalten)
statische Simulationen
nur ein Zeitpunkt
Monte-Carlo-Simulationen
basierend auf Zufallsprozessen
dynamische Simulationen
Prozesse
- kontinuierlich (Prognosemodelle stetiger Prozesse)
- diskrete Simulation (outcome nach festgelegter Zeit)
agent based modelling
Agenten mit Eigenschaften imitieren menschliches Verhalten
Limitationen der CCS
- Computer erkennt Doppeldeutigkeit und Verwendungskontext nicht
- manuelle Validierung der Ergebnisse durch Forschende nötig
- aufwendige Datenaufbereitung
- Machine Bias (KI lernt an biased data)
Studie von van Dalen et al. 2012
- Untersuchungsobjekte: Journalisten (ES, GB, DK, DE)
- Mikroebene
- keine Zufallsstichprobe, sonder so viele wie möglich
- standardisierte PAPI
- Feldphase 2007-2009
- Likert-Skala
- Ergebnisse
- Unterschiede im Rollenverhältnis zwischen Ländern
- korrespondiert mit Inhalt (mehr Unterhaltung in GB)
- zentrale Rolle des Mediensystems als Sozialisierungsinstanz
- kritische Würdigung
- vergleichende Perspektive
- Kombination von IA und Befragung
- Limitationen:
- standardisierte Befragung
- kein Matching von Inhalt und Befragte
- nur 4 Länder