Big Data & Data Science Flashcards
Deskriptive Analyse
Untersuchung von Vorgängen in der Vergangenheit
z.b. Report zum Jahresumsatz
Prädiktive Analyse
Sagt wahrscheinliche Resultate vorher und erstellt fundierte Prognosen anhand historischer Daten
verlängert Trends in die Zukunft, um mögliche Ergebnisse abzuleiten
Präskriptive Analyse
nutzt Daten aus vielen Quellen, zb Statistiken, ML & Data-Mining
um mögliche zukünftige Ergebnisse zu identifizieren und die beste Option zu zeigen
liefert umsetzbare Erkenntnisse statt Rohdaten, sagt was geschehen sollte und nicht nur könnte
Algorithmus Definition
Eindeutige Handlungsvorschrift zur Lösung eines Problems/Klasse von Problemen
Algorithmus Eigenschaften
Finitheit
Ausführbarkeit
Dynamische Finitheit/Platzkomplexität
Terminierung oder Zeitkomplexität
Algorithmus Eigenschaften - Finitheit
Verfahren muss in einem endlichen Text eindeutig beschreibbar sein
Algorithmus Eigenschaften - Ausführbarkeit
Jeder Schritt des Verfahrens muss ausführbar sein
Algorithmus Eigenschaften - Platzkomplexität
Verfahren darf zu jedem Zeitpunkt nur endlich viel Speicherplatz benötigen
Algorithmus Eigenschaften - Terminierung
Verfahren darf nur endlich viele Schritte benötigen
Deterministischer Algorithmus
wenn er bei selben Vorrausetzungen immer das selbe Ergebnis liefert
zu jedem Zeitpunkt der nächste Schritt eindeutig definiert ist
Induktion
Generalisierung von in der Realität beobachteten Regelmäßigkeiten zu einer allg. Vermutung
-> Hypothensenbildung
Bottom Up
Bsp: 30 Bohnen ziehen - alle weiß, nochmal 30 ziehen - alle weiß. Ergo: Alle Bohnen müssen weiß sein
Deduktion
Ableitung von Aussagen aus anderen (allg.) Aussagen mit Hilfe logischer Regeln
-> Hypothesenprüfung
Bohnen in Sack gefüllt. Alle waren weiß. Bohne aus dem Sack nehmen-> sie ist weiß
Abduktion
Verknüpfung von EInzelbeobachtungen und Erkennen (Vermuten) von Regeln
-> Hypothesenbildung
Top-Down
Sack, ich sehe weiße Bohnen, ich finde weiße Bohne iwo im raum. -> Bohne muss aus dem Sack sein
Big Data - Aufteilung der Probleme
Infrastruktur
Analytics
Anwendungen
Big Data - Aufteilung der Probleme - Infratruktur
Hadoop, NoSQL, Data Warehouse
Big Data - Aufteilung der Probleme - Analytics
Analysen, VIsualisierung, BI, Machine Learning
Big Data - Aufteilung der Probleme - Anwendungen
Wirtschaftsbezogen: Gesundheit, Marketing, Betrugserkennung, FInanzen
Business Intelligence
Sammelbergriff für IT-gestützten Zugriff auf Informationen & Analysen und Aufbereitung dieser Informationen
Ziel: aus vorhandenem Wissen neues handlungsorientiertes Wissen generieren
Big Data
Informationen mit hohem Volumen (Volume)
hoher Geschwindigkeit (velocity)
hoher Vielvalt (Variety)
Veracity (Richtigkeit)
brauchen innovative Formen der Verarbeitung
Big Data Volume
Scale of Data
ca 90% der Daten wurden in letzten 2 Jahren geschaffen
Big Data Velocity
Speed of Data
ca 50.000 GB/Sekunde beträgt geschätzte Datenübertragung im Internet
Big Data Veracity
Certainity of Data
3,1 Bio $ geschätzter jährlicher Verlust in US für schlechte Datenqualität
Big Data Variety
Variety of Data
90% neu geschaffener Daten sind unstrukturiert
BI schlagworte
Data Subsets
Historisch
Strukturiert
Single Source of Application
Statisch
Private Daten
Data growth as a burden to manage
Big Data Schlagworte
All Data & Meta Data
fast real-Time
strukturiert und unstrukturiert
multiple Sources/Apps
Dynamisch
privat und öffentlich
Data as a new source of copetitive opputunity
Data science
Untersuchung von Daten
Umfasst Entwicklung von Methiden zur Erfassung, Speicherung und Analyse von Daten um nützliche Informationen effektiv zu extrahieren
Ziel: Wissen aus jeder Art von Daten zu gewinnen
Decision Cycle
Collect
Prepare
Examine
Model
Decide
Act
Treiber für Big Data
Menschen
Firmen
Sensores & Beacons
Künsctliche Intelligence (KI)
Wissenschaft, Dinge intelligent zu machen
Sammelbegriff für die Fähigkeit von Computern menschliche Aufgaben auszuführen
Umfang umstritten, verändert sich ständig
konzentiert sich auf Schaffug von intelligenten Maschinen
KI aktivitäten bsp
Speech recognition
learning
planing
problem solving
Machine Learning (ML)
Ansatz zur Erreichung künstlciher Intelligenz durch Systee, die aus Erfahrungen lernen, um Muster in einem Datensatz zu finden
Computer muster anahnd von Beispielen zu erkennen, anstatt sie mit regeln zu programmieren
ist KI-Disziplin
ermöglicht es Computern neue Situationen durch Analyse, Selbsttraining, Beobachtung und Erfahrung zu bewältigen
Machine Learning vorgehen
benötigt einige Daten
lernt muster aus Daten
arbeitet mit neuen unbekannten Daten
schätzt welche neuen Daten wahrscheinlilch sind, basierend auf Schritt 2
Machine learning - bedeutsam?
ML lernt selbstständig aus übergebnene Daten
kann für andere Dinge wiederverwendet werden
Deep Learing (DL)
Tehnik zur Implementierung von Machine Learning
-> Deep Natural Networks (DNNs)
Konzept: geschrieben Code Strukturen in Schichten angeordnet, erinnern lose dem menschlichen Gehirn, kann aus Mustern und Beispielen lernen
Familie von Methoden die für ML verwendet wird
Sammlung von Algorithmen, die in ML verwendet werden, um hochranginge Abstraktionen in Daten zu modellieren
Machine Learning 3 wichtigste Kategorien
Supervised Learning
Unsupervised Learning
Reinforcement leraning
Supervised Learning
Classification
Regression
Unsupervised Learning
Clustering
Dimensionality Reduction
Reinforcement Learinign bsp
Game AI
Skill Acquistuin
learning tools
robot navigation
real-time decision