Wykład 2 Flashcards
Jakie są etapy przygotowania danych?
- Organizacja danych
- Identyfikator próbek
- Określenie formatu danych
- Sprawdzanie błędów
- Kontrola braków danych
- Kontrola wielkości próby
- Analiza danych odstających
Jak organizować dane?
-
zmienne zależne:
-Powodowane przyczynowo lub uzależnione od innej zmiennej
-Opisują zmianę lub stan, który interesuje badacza -
zmienne niezależne:
-Zmienna grupująca
-Traktuje się jako dane/tło i nie próbuje wyjaśnić
-Determinują wartości zmiennych zależnych
-W badaniu manipulujemy nią
Co robić w przypadku braków danych?
- Usunąć próbę = powiększyć katastrofę usunięcie kolumny i/lub wiersza z tabeli
-
Uzupełnić braki = imputacja:
-Zmierzyć od nowa
-Średnia z wartości zmierzonych np. dwóch sąsiednich
-Obliczanie wartości na podstawie równania regresji
Co wchodzi w skład kontroli liczebności próby?
- Liczba próbek/obserwacji
- Liczebność zmiennej w próbkach
- Liczebność próbek w grupach
- Identyfikacja kategorii rzadkich
- Udział braków danych do całości danych
Czym są dane odstające?
- Nietypowe i rzadkie
- Generowane przez inne mechanizmy
- Nie pokrywają się z rozkładem pozostałych danych
- Różnią się przynajmniej wartością jednej zmiennej
Z czego wynikają dane odstające?
- Przypadek
- Błąd pomiarowy
- Błąd wprowadzania danych
Jak analizować dane odstające?
- Wykres rozkładu zmiennej
- Wykres rozrzutu dla surowych danych, najczęściej dwóch zmiennych:
-Zaburzenie zmiennej y
-Zaburzenie zmiennej x i y
-Ponowna analiza po wyłączeniu danych odstających
Jakimi sposobami przekształca się dane?
- Zastąpienie wartości oryginalnych innymi wartościami
- Przeliczanie lub zmiana danych
- Dyskretyzacja
- Kodowanie
- Standaryzacja
- Transformacja
Na czym polega dyskretyzacja danych?
- Przekształcenie zmiennej ciągłej na dyskretną
- Zmienia rozkład zmiennej
- Przykładowe zastosowania:
-Kategoryzacja
-Wstępna wizualizacja
-Wydzielanie podpróbek/grup
Na czym polega kodowanie danych?
- Dodawanie, odejmowanie, mnożenie lub dzielenie wszystkich elementów szeregu przez stałą
- Nie zmienia kształtu rozkładu danych
- Ułatwia obliczenia i graficzne przedstawienie wyników
- Zmiana skali, np. z liczb dziesiętnych na całkowite
- Zmiana punktu zerowego skali, jeśli chcemy żeby wszystkie dane były dodatnie -> dodanie odpowiedniej liczby do każdego elementu
Na czym polega standaryzacja danych?
- Ujednolicenie próbek
- Stosowanie gdy zmienne zapisane w różnych jednostkach miary (pH, zasolenie, temperatura)
- Pozwala przekształcić zmienne o nieporównywalnych miarach w jedną porównywalną miarę statystyczną
- Pomocna do określania obserwacji odstających
- Najczęstsza standaryzacja Z
Z = (zmienna niestandaryzowana – średnia)/odchylenie standardowe
Na czym polega transformacja danych?
- Gdy w danych mamy do czynienia z zależnościami nieprostolijnymi
- Transformacja wpływa na kształt rozkładu
- Transformujemy bo chcemy aby ważniejsze w danych było to co jest regułą czyli to co jest najczęstsze
- Obniża wagę pomiarów rzadkich, ale np. o wysokiej liczebności
Jakie są rodzaje transformacji danych?
- Transformacja do skali binarnej (Tylko wartości 0 i 1)
- Transformacja do skali porządkowej (nadanie porządku skali o różnych wielkościach przedziałów)
- Transformacja pierwiastkowa:
-w przypadku rozkładów prawoskośnych, zbliżonych do rozkładu Poissona,
-problem, jeśli zmienna przyjmuje wartości ujemne:
Wtedy możemy zmienną zakodować (np. x + 10);
-słabsza od transformacji logarytmicznej;
-im wyższy stopień pierwiastka, tym większa transformacja - Transformacja logarytmiczna (Normalizacja rozkładów prawoskośnych, zbliżonych do logarytmicznych)
Czy transformacja danych jest konieczna
- Zależy od typu analizy i pytania badawczego
- Nie zawsze, dlatego niezbędne porównanie wyników:
-Analiza danych oryginalnych
-Analiza dla danych transformowanych
-Porównanie wyników
-Wybór wyniku
Czym są statystyki opisowe?
Forma podsumowania zbioru danych:
- Tabelaryczna -> liczebność, gęstość
- Graficzna -> wykresy
Charakterystyka badanej zbiorowości (próby) poprzez obliczanie miar:
- Położenia (tendencji centralnej) np. średnia
- Zmienności (rozproszenia) np. wariancja
- Asymetrii i koncentracji (kształtu) np. kurtoza
Czym są miary tendencji centralnej?
To miary, które wskazują na centralne (bliskie środka) wartości cechy w rozkładzie
Jakie są miary tendencji centralnej?
- moda (dominanta, modalna, MO)
- średnia
- mediana
Scharakteryzuj modę
- Najczęstsza wartość w zbiorze – dominanta
- Prawdopodobieństwo wystąpienia jest najwyższe
- Gdy brak powtarzających się pomiarów -> brak modalnej
- Rzadko używana
Jakie są rodzaje średniej?
- arytmetyczna
- ważona
- geometryczna
- harmoniczna
- geometryczna ważona
Scharakteryzuj średnią arytmetyczną
- Centralny punkt rozkładu empirycznego z próby
- Suma wszystkich wartości zmiennej podzielona przez liczbę wartości
- Wraz ze wzrostem wielkości próby wzrasta możliwość oszacowania średniej w populacji i jej wahania maleją
- Dla danych w skali ilościowej oraz dla porządkowej gdy rozkład jest symetryczny
- Wrażliwa na wielkość próby i wartości odstające (od średniej)
Scharakteryzuj średnią ważoną
- Stosowana zazwyczaj przy obliczaniu średniej już z obliczonych średnich
- Stosujemy gdy pewne wartości są ważniejsze (mają większą wagę) od pozostałych wartości z próby
- Do wartości zmiennej dołączamy wartość wagi
Scharakteryzuj średnią geometryczną
- Tylko dla liczb nieujemnych
- Gdy jeden z elementów jest równy 0, to średnia geometryczna =0
- Stosujemy dla rozkładów skośnych (logarytmiczno-normalnych)
- Stosowana do określenia tempa przyrostu np. masy ciała, wzrostu populacji itp.
Scharakteryzuj średnią harmoniczną
- do wyliczania przeciętnych wskaźników kształtu, dominacji, zagęszczenia
- do obliczania tzw. efektywnej wielkości populacji
- jest średnią wagową rzędu -1
- nadaje większe znaczenie mniejszym wartościom
- stanowi odwrotność średniej arytmetycznej
Scharakteryzuj medianę
- Wartość środkowa, drugi kwartyl, 50% rozkładu
- Wymaga uszeregowania pomiarów od najmniejszego do największego
- Dzieli uporządkowany (w kierunku wzrostu) zbiór na połowę
- Tyle samo obserwacji po obu stronach mediany
- Gdy liczba pomiarów parzysta -> średnia z dwóch środkowych elementów
- Odporna na wpływ wartości skrajnych
- Dobra miara dla rozkładów skośnych