Sem III (Data Science) - N1 Flashcards
Was versteht man unter Data Science?
Data Science befasst sich mit dem Analysieren von Daten und beinhaltet Schritte wie Beschaffung, Aufbereitung, Exploration, Modellierung und Interpretation.
Data Science занимается анализом данных и включает такие этапы, как сбор, подготовка, исследование, моделирование и интерпретация.
Warum ist Data Science eine Querschnittsdisziplin?
Sie kombiniert Programmierung, Statistik, Machine Learning und Fachwissen aus einem Anwendungsbereich.
Она объединяет программирование, статистику, машинное обучение и предметную экспертизу из конкретной области применения.
Was sind typische Datenquellen?
Daten kommen etwa aus Log‑Files, Texten (z. B. E‑Mails, Tweets), Sensoren, Bildern oder Videos.
Данные поступают, например, из лог‑файлов, текстов (например, электронных писем, твитов), датчиков, изображений или видео.
Welche Formen der Datenstruktur gibt es?
Man unterscheidet strukturierte, semi‑strukturierte, quasi‑strukturierte und unstrukturierte Daten.
Различают структурированные, полу‑структурированные, квази‑структурированные и неструктурированные данные.
Welche Einschränkungen können bei Datenanalysen auftreten?
Daten sind nicht objektiv; sie liefern nur Annäherungen. Methoden, Stichprobenauswahl, fehlende Werte oder Bias beeinflussen das Ergebnis.
Данные не являются объективными; они дают лишь приближения. Используемые методы, выборка, пропущенные значения или смещения влияют на результат.
Welche typischen Fehlerquellen in Daten gibt es?
Fehlende Werte, falsche Beschriftungen, Inkonsistenz und Tippfehler sind häufige Probleme.
Частыми проблемами являются пропущенные значения, неверные метки, несогласованность и опечатки.
Was bezeichnet der Begriff „Big Data“?
Er steht für Datenmengen, die zu groß oder komplex für klassische Datenbanksysteme sind, und umfasst zugleich ein kulturelles Phänomen im Umgang mit Daten.
Он обозначает объёмы данных, которые слишком велики или сложны для классических СУБД, и одновременно культурный феномен обращения с данными.
Was versteht man unter „Datafication“?
Damit ist gemeint, dass immer mehr Lebensbereiche in Form von Daten erfasst und quantifiziert werden.
Под этим понимается, что всё больше сфер жизни фиксируется и количественно описывается в виде данных.
Worin besteht „Maschinelles Lernen“?
ML optimiert Modellparameter mithilfe von Trainingsdaten, um Vorhersagen zu treffen oder Wissen aus Daten zu gewinnen.
Машинное обучение оптимизирует параметры моделей с помощью обучающих данных, чтобы делать прогнозы или извлекать знания из данных.
Welche Hauptaufgaben hat die Statistik in der Datenanalyse?
Deskription, Exploration sowie Induktion für wahrscheinlichkeitstheoretische Rückschlüsse.
Описательная статистика, исследовательский анализ и индукция для вероятностных выводов.
Was ist mit „Statistical Computing“ gemeint?
Die Verbindung von statistischen Methoden, Computertechnologie und Fachwissen, um Daten in verwertbare Informationen zu überführen.
Это сочетание статистических методов, компьютерных технологий и предметной экспертизы для превращения данных в полезную информацию.
Warum ist Domänenwissen in der Datenwissenschaft wichtig?
Es hilft, Fragestellungen und Ergebnisse korrekt zu interpretieren und sinnvolle Analysen durchzuführen.
Оно помогает правильно формулировать вопросы, интерпретировать результаты и проводить осмысленный анализ.
Nenne drei Beispiele für praktische Anwendungen von Data Science.
Wettervorhersage, Suchmaschinen, autonome Fahrzeuge.
Прогноз погоды, поисковые системы, автономные транспортные средства.
Was ist ein Datensatz im Kontext der Datenanalyse?
Eine strukturierte Sammlung von Daten (z.B. in Tabellenform) mit Zeilen und Spalten.
Это структурированный набор данных (например, таблица) с строками и столбцами.
Welche drei Datenkategorien werden häufig unterschieden?
Strukturierte, quasi‑strukturierte und unstrukturierte Daten.
Структурированные, квази‑структурированные и неструктурированные данные.
Wodurch zeichnen sich strukturierte Daten aus?
Sie liegen in einem festen Format (z.B. Tabellen, CSV) mit klar definierten Spalten und Datentypen.
Они представлены в фиксированном формате (например, таблицы, CSV) с чётко определёнными столбцами и типами данных.
Was versteht man unter quasi‑strukturierten Daten?
Daten mit uneinheitlichem, teils festgelegtem Format (z.B. Logfiles, Clickstreams).
Данные с неоднородным, частично фиксированным форматом (например, лог‑файлы, кликовые потоки).
Was sind unstrukturierte Daten?
Daten ohne ein einheitliches Schema (z.B. Bilder, Videos, PDFs).
Данные без единой схемы (например, изображения, видео, PDF‑файлы).
Warum ist die Graphentheorie in der Data Science wichtig?
Sie hilft, Beziehungen und Muster in vernetzten Daten (z.B. soziale Netzwerke) zu erkennen.
Она помогает выявлять связи и паттерны в сетевых данных (например, в социальных сетях).
Was ist „supervised learning“?
Ein maschinelles Lernverfahren, bei dem Modelle anhand bekannter Eingabe‑Ausgabe‑Beispiele trainiert werden.
Машинное обучение с учителем, при котором модели обучаются на известных парах «вход–выход».
Welche Rolle spielt Datenanalyse im wissenschaftlichen Arbeitsprozess?
Sie liefert objektive Informationen, unterstützt Hypothesenbildung und ermöglicht fundierte Entscheidungen.
Она предоставляет объективную информацию, поддерживает формирование гипотез и позволяет принимать обоснованные решения.
Was ist das übergeordnete Lernziel der Vorlesung?
Die Studierenden sollen die Phasen eines Datenanalyse‑Prozesses sowie deren ZieleundMeilensteine sicher beherrschen.
Студенты должны уверенно владеть этапами процесса анализа данных, а также их целями и контрольными точками.
Welche Fach‑ und Soft‑Skills sind für Data Science laut Skript nötig?
Informatik, Mathematik, Statistik, MachineLearning, Domänenwissen, Kommunikation&Präsentation, Datenvisualisierung.
Информатика, математика, статистика, машинное обучение, предметная область, коммуникация и презентация, визуализация данных.
Nennen Sie die sechs Schritte des CRISP‑DM‑Modells.
Geschäftsverständnis →Datenverständnis →Datenpräparation →Modellierung →Evaluation →Bereitstellung.
Понимание бизнеса →понимание данных →подготовка данных →моделирование →оценка →внедрение.
Wofür steht das OSEMN‑Prinzip?
Obtaining,Scrubbing,Modeling,Exploring,Interpreting.
Получение, очистка, моделирование, исследование, интерпретация.
Welche Phase kostet typischerweise die meiste Zeit?
Datenbereinigung (Scrubbing) dominiert den Aufwand.
Больше всего времени обычно занимает очистка данных.
Kerninhalt von PhaseI „Erkundung“?
Eingrenzung des Untersuchungsziels und Formulierung der Forschungsfrage im relevanten Kontext.
Уточнение цели исследования и формулировка исследовательского вопроса в соответствующем контексте.
Vier zu berücksichtigende Kontexte in PhaseI?
Fachlich, technologisch, rechtlich, gesellschaftlich/ethisch.
Предметный, технологический, правовой, социально‑этический контекст.
Welcher wesentliche Meilenstein schließt PhaseI ab?
Eine klar definierte Forschungsfrage mitsamt grobem Arbeitsplan.
Чётко сформулированный исследовательский вопрос и приблизительный план работ.
Leitfragen der PhaseII „Datenbeschaffung“?
Datenmenge, Betrachtungszeitraum, vorhandenes Format, benötigte Struktur und mögliche Aggregation.
Объём данных, период наблюдения, существующий формат, требуемая структура и возможная агрегация.
Was bedeutet „Inventarisierung“ in PhaseII?
Systematische Liste aller Datenquellen mit Angaben zu Verfügbarkeit, Erhebung oder Kauf.
Систематический перечень всех источников данных с указанием доступности, способа получения или покупки.
Erklären Sie ETLT vs.ELT.
ETLT:Extract‑Transform‑Load‑Transform; ELT:Extract‑Load‑Transform–unterscheidet Reihenfolge von Transformation und Laden.
ETLT: извлечение–трансформация–загрузка–трансформация; ELT: извлечение–загрузка–трансформация— различаются порядком трансформации и загрузки.
Warum sollten Rohdaten unverändert archiviert werden?
Für Reproduzierbarkeit und spätere Versionierung der Analyseschritte.
Для воспроизводимости и последующего контроля версий аналитических шагов.
Drei typische Aufgaben der Datenbereinigung.
Ausreißer entfernen, fehlende/inkonsistente Werte behandeln, Formate normalisieren.
Удаление выбросов, обработка отсутствующих/неконсистентных значений, нормализация форматов.
Zentrale Qualitätsfragen in PhaseIII?
Genügend Daten? Repräsentieren sie die Zielpopulation? Entsprechen sie den Erwartungen?
Достаточно ли данных? Представляют ли они целевую популяцию? Соответствуют ли ожиданиям?
Beispiel für Dateninkonsistenz laut Skript.
Viermonatige Lücken in einer Jahres‑Zeitreihe eines Aktienkurses.
Четырёхмесячные пробелы в годовом ряду цен акций.
Warum ist Granularität wichtig?
Auflösung muss Analyseanforderungen entsprechen (z.B. Millisekunden‑ statt Minuten‑Timestamps).
Разрешение должно соответствовать требованиям анализа (например, миллисекунды вместо минутных меток времени).
Zwei empfohlene Big‑Data‑ETL‑Tools.
ApacheHadoop/MapReduce und ApacheSpark.
ApacheHadoop/MapReduce и ApacheSpark.
Nennen Sie drei Datenschutzprinzipien für die Datenpräparation.
Datensparsamkeit, Anonymisierung, Zweckbindung.
Минимизация данных, анонимизация, целевое использование.
Was ist das Hauptziel der EDA?
Datenverteilung verstehen und Hypothesen verfeinern.
Понять распределение данных и уточнить гипотезы.
Welche zwei Kernaktivitäten umfasst EDA?
Grafiken erstellen, Kennzahlen berechnen.
Построение графиков и расчёт показателей.
Warum plant man ein Modell in PhaseIV?
Um reale Zusammenhänge mathematisch abzubilden.
Чтобы математически отразить реальные взаимосвязи.
Zwei Beispiele für einfache vs. komplexe Zusammenhänge?
Assoziation vs. Korrelation/Kausalität.
Ассоциация против корреляции/каузальности.
Nenne drei EDA‑Tools.
R, Python, Octave.
R, Python, Octave.
Welche Datensätze nutzt PhaseV?
Training, Fitting, Test.
Обучающая, подгоняющая и тестовая выборки.
Zweck des Trainingssatzes?
Modellparameter initial lernen.
Первичное обучение параметров модели.
Wozu dient der Testsatz?
Modellgüte validieren (Scoring).
Проверка качества модели (оценка).
Vier typische Modelltechniken?
Clustering, Klassifikation, Regression, Dimensionalitätsreduktion.
Кластеризация, классификация, регрессия, уменьшение размерности.
Wann gilt ein Modell als „Fit“?
Es bildet Realität verlässlich ab.
Модель надёжно отражает реальность.
Was charakterisiert „Underfit“?
Modell verfehlt Grundstruktur der Daten.
Модель не улавливает основную структуру данных (недообучение).
Was ist „Overfit“?
Modell passt zu stark auf Trainingsdaten.
Модель чрезмерно подогнана под обучающие данные (переобучение).
Wichtigste Voraussetzung für gute Modellierung?
Fachwissen des Analysten.
Профессиональные знания аналитика.
Hauptaufgaben der Interpretation (PhaseVI)?
Schlussfolgern, Bedeutung bewerten, dokumentieren.
Делать выводы, оценивать значимость, документировать.
Drei typische Interpretationsfragen?
Erfolg? Limitationen? Kontextbewertung?
Успех? Ограничения? Оценка контекста?
Was braucht man vor der Veröffentlichung?
Vollständige Prozessdokumentation.
Полная документация процесса.
Zwei Veröffentlichungsformen?
Präsentation, schriftlicher Bericht.
Презентация, письменный отчёт.
Ziel der Operationalisierung (PhaseIX)?
Modell auf neue Kontexte anwenden.
Применить модель к новым контекстам.
Warum kontinuierliche Evaluation nach Deployment?
Modelgüte langfristig sichern.
Долгосрочно обеспечивать качество модели.
Zwei mögliche Folgefelder der Analyse?
Produktentwicklung, wissenschaftliche Studien.
Разработка продуктов, научные исследования.
Was untersucht die philosophische DisziplinEthik?
Reflexion über gutes Lebenund richtiges Handeln.
Размышление о хорошей жизни и правильных поступках.
Wie unterscheidet sichMoralvonEthik?
Moral beschreibt gelebte Regeln;Ethikanalysiertund begründet sie.
Мораль описывает существующие правила;этикаих анализирует и обосновывает.
Welches Kennzeichen hatRechtgegenüber Moral?
Durchsetzbar mittels staatlicher Strafe.
Право обеспечивается государственным принуждением.
Nenne die drei Hauptfunktionen der Ethik.
Deskriptiv, normativ, metaethisch.
Дескриптивная, нормативная, метаэтическая функции.
Welche Grundfunktionen erfüllt Moral?
Ordnung, Abgrenzung, freiwillige Selbstbindung.
Порядок, разграничение, добровольное самоограничение.
Zentrales Spannungsfeld menschlichen Handelns laut Ethik?
Autonomievs.Heteronomie.
Автономияпротивгетерономии.
Was lehren teleologische Ansätze?
Beurteilen Handlungen nach ihren Folgen.
Оценивают поступки по их последствиям.
Worauf fokussiert die deontologische Ethik?
Pflichten und intrinsische Rechte.
На обязанностях и неотъемлемых правах.
Kerngedanke der Tugendethik?
Streben nach einem gelungenen Leben durch Charaktertugenden.
Стремление к достойной жизни через развитие добродетелей характера.
Makro‑,Meso‑undMikro‑Ebene beschreiben was?
Gesellschaftliche, institutionelle und individuelle Ethikebenen.
Общественный, институциональный и индивидуальный уровни этики.
Wer prägte die aristotelische Tugendethik?
Aristoteles – Übung formt Tugenden.
Аристотель–практика формирует добродетели.
Welches Prinzip definiert Kant?
Kategorischer Imperativ.
Категорический императив.
Ziel des Utilitarismus nach Bentham/Mill?
Maximierung des Glücks aller Betroffenen.
Максимизация счастья всех затронутых лиц.
Wofür steht die Diskursethik vonHabermas?
Herrschaft des besseren Arguments im idealen Dialog.
Власть лучшего аргумента в идеальном диалоге.
Existenzialisten betonen welche Verantwortung?
Der Mensch schafft Sinn selbst.
Человек сам создаёт смысл.
Grenzt Ethik verbindliche Gesetze vor?
Nein, sie bietet Optionen, kein Zwangskatalog.
Нет, этика предлагает варианты, не является сводом принуждения.
Was istValueSensitiveDesign?
Einbettung menschlicher Werte in den gesamten Software‑Prozess.
Интеграция человеческих ценностей во весь процесс разработки ПО.
Ziel derValueSensitiveAlternative?
Ständige Suche nach noch wert‑sensitiveren Lösungen.
Постоянный поиск ещё более ориентированных на ценности решений.
Nenne vier Strömungen technikbezogener Ethik.
Technik‑, Informations‑, Computer‑, DigitaleEthik.
Этика техники, информационная, компьютерная и цифровая этика.
Womit befasst sichMaschinenethik?
Moralisches Verhalten von Maschinen gegenüber Menschen/Maschinen.
Моральное поведение машин по отношению к людям и другим машинам.
Was untersuchtRoboterethik?
Ob Roboter moralische Agenten oder Patienten sind.
Являются ли роботы моральными агентами или пациентами.
Wichtigste Themen für Data‑Science‑Ausbildung laut NAS?
Ethik‑Kodizes, Datenschutz, Forschungsethik, „Schrott“-Wissenschaft, Bias.
Кодексы этики, защита данных, исследовательская этика, «псевдонаука», предвзятость.
Zentrale Forderung des ACMCodeofEthics?
Wohl der Allgemeinheit Vorrang vor Eigennutz.
Благо общества важнее личной выгоды.
Welche Kompetenz betont Art.1 der GI‑Leitlinien?
Ständige Verbesserung der Fachkompetenz.
Постоянное совершенствование профессиональной компетентности.
Warum verlangt Art.9 GI Zivilcourage?
Schutz der Menschenwürde auch gegen geltende Normen.
Защита человеческого достоинства даже вопреки действующим нормам.
Welches Hauptziel verfolgt dasData Ethics Framework des UK‑DCMS?
Immer mit klarem Nutzerbedarf beginnen und öffentlichen Nutzen schaffen.
Всегда начинать с чёткого запроса пользователя и создавать общественную пользу.
Nenne zwei der sieben Google‑KI‑Prinzipien.
(1) Gesellschaftlicher Nutzen, (2) Vermeidung von Bias.
(1) Общественная польза, (2) избегание предвзятости.
Was mahnt der „Hippokratische Eid“ für Finanzmodelle?
Modelle nie über die Realität stellen und ihre Annahmen offenlegen.
Никогда не ставить модели выше реальности и раскрывать их допущения.
Erste Regel der zehn Big‑Data‑Gebote nachZooketal.?
Anerkenne: Daten repräsentieren Menschen und können ihnen schaden.
Признай: данные представляют людей и могут им навредить.
Was bedeutet Bias in ML‑Modellen?
Systematische Abweichung durch zu simples Modell oder verzerrte Daten.
Систематическое отклонение из‑за слишком простой модели или искажённых данных.
Was ist Varianz?
Hohe Streuung der Modellvorhersagen durch Überanpassung.
Большая разбросанность предсказаний модели из‑за переобучения.
Wie lässt sich hohe Varianz verringern?
Modell vereinfachen oder mehr Daten sammeln.
Упростить модель или собрать больше данных.
Definiere Underfit.
Modell zu simpel→erfasst Datenkomplexität nicht.
Модель слишком проста→не отражает сложность данных.
Definiere Overfit.
Modell zu komplex→lernt Rauschen statt Muster.
Модель слишком сложна→учит шум вместо закономерностей.
Unterschied direkte vs. indirekte Diskriminierung.
Direkt: Entscheidung auf sensitives Attribut; indirekt: auf korrelierendes Nicht‑sensitives Attribut.
Прямая: решение основывается на чувствительном признаке; косвенная: на коррелирующем нечувствительном признаке.
Zwei Techniken gegen Diskriminierung im DataMining.
RuleProtection und RuleGeneralization.
Защита правил и их обобщение.
Vier Phasen desValue‑Sensitive Design.
ValueDiscovery, ValueConceptualization, EmpiricalInvestigation, TechnicalInvestigation.
Выявление ценностей, концептуализация, эмпирическое исследование, техническое исследование.
Was schützt die DSGVO laut Art.1?
Grundrechte und ‑freiheiten natürlicher Personen bei Datenverarbeitung.
Основные права и свободы физических лиц при обработке данных.
Kernprinzip des deutschen Datenschutzes?
Recht auf informationelle Selbstbestimmung.
Право на информационное самоопределение.
Wie definiert Art.4(1) DSGVO „personenbezogene Daten“?
Jede Information zu einer identifizierten oder identifizierbaren Person.
Любая информация об идентифицированном или идентифицируемом лице.
Drei geschützte Persönlichkeits‑Sphären.
Sozial‑/Individual‑, Privat‑ und Intimsphäre.
Социальная/индивидуальная, частная и интимная сферы.