Wykład 2 Flashcards

1
Q

Jakie są etapy przygotowania danych?

A
  • Organizacja danych
  • Identyfikator próbek
  • Określenie formatu danych
  • Sprawdzanie błędów
  • Kontrola braków danych
  • Kontrola wielkości próby
  • Analiza danych odstających
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Jak organizować dane?

A
  • zmienne zależne:
    -Powodowane przyczynowo lub uzależnione od innej zmiennej
    -Opisują zmianę lub stan, który interesuje badacza
  • zmienne niezależne:
    -Zmienna grupująca
    -Traktuje się jako dane/tło i nie próbuje wyjaśnić
    -Determinują wartości zmiennych zależnych
    -W badaniu manipulujemy nią
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Co robić w przypadku braków danych?

A
  • Usunąć próbę = powiększyć katastrofę usunięcie kolumny i/lub wiersza z tabeli
  • Uzupełnić braki = imputacja:
    -Zmierzyć od nowa
    -Średnia z wartości zmierzonych np. dwóch sąsiednich
    -Obliczanie wartości na podstawie równania regresji
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Co wchodzi w skład kontroli liczebności próby?

A
  • Liczba próbek/obserwacji
  • Liczebność zmiennej w próbkach
  • Liczebność próbek w grupach
  • Identyfikacja kategorii rzadkich
  • Udział braków danych do całości danych
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Czym są dane odstające?

A
  • Nietypowe i rzadkie
  • Generowane przez inne mechanizmy
  • Nie pokrywają się z rozkładem pozostałych danych
  • Różnią się przynajmniej wartością jednej zmiennej
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Z czego wynikają dane odstające?

A
  • Przypadek
  • Błąd pomiarowy
  • Błąd wprowadzania danych
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Jak analizować dane odstające?

A
  • Wykres rozkładu zmiennej
  • Wykres rozrzutu dla surowych danych, najczęściej dwóch zmiennych:
    -Zaburzenie zmiennej y
    -Zaburzenie zmiennej x i y
    -Ponowna analiza po wyłączeniu danych odstających
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Jakimi sposobami przekształca się dane?

A
  • Zastąpienie wartości oryginalnych innymi wartościami
  • Przeliczanie lub zmiana danych
  • Dyskretyzacja
  • Kodowanie
  • Standaryzacja
  • Transformacja
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Na czym polega dyskretyzacja danych?

A
  • Przekształcenie zmiennej ciągłej na dyskretną
  • Zmienia rozkład zmiennej
  • Przykładowe zastosowania:
    -Kategoryzacja
    -Wstępna wizualizacja
    -Wydzielanie podpróbek/grup
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Na czym polega kodowanie danych?

A
  • Dodawanie, odejmowanie, mnożenie lub dzielenie wszystkich elementów szeregu przez stałą
  • Nie zmienia kształtu rozkładu danych
  • Ułatwia obliczenia i graficzne przedstawienie wyników
  • Zmiana skali, np. z liczb dziesiętnych na całkowite
  • Zmiana punktu zerowego skali, jeśli chcemy żeby wszystkie dane były dodatnie -> dodanie odpowiedniej liczby do każdego elementu
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Na czym polega standaryzacja danych?

A
  • Ujednolicenie próbek
  • Stosowanie gdy zmienne zapisane w różnych jednostkach miary (pH, zasolenie, temperatura)
  • Pozwala przekształcić zmienne o nieporównywalnych miarach w jedną porównywalną miarę statystyczną
  • Pomocna do określania obserwacji odstających
  • Najczęstsza standaryzacja Z
    Z = (zmienna niestandaryzowana – średnia)/odchylenie standardowe
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Na czym polega transformacja danych?

A
  • Gdy w danych mamy do czynienia z zależnościami nieprostolijnymi
  • Transformacja wpływa na kształt rozkładu
  • Transformujemy bo chcemy aby ważniejsze w danych było to co jest regułą czyli to co jest najczęstsze
  • Obniża wagę pomiarów rzadkich, ale np. o wysokiej liczebności
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Jakie są rodzaje transformacji danych?

A
  • Transformacja do skali binarnej (Tylko wartości 0 i 1)
  • Transformacja do skali porządkowej (nadanie porządku skali o różnych wielkościach przedziałów)
  • Transformacja pierwiastkowa:
    -w przypadku rozkładów prawoskośnych, zbliżonych do rozkładu Poissona,
    -problem, jeśli zmienna przyjmuje wartości ujemne:
    Wtedy możemy zmienną zakodować (np. x + 10);
    -słabsza od transformacji logarytmicznej;
    -im wyższy stopień pierwiastka, tym większa transformacja
  • Transformacja logarytmiczna (Normalizacja rozkładów prawoskośnych, zbliżonych do logarytmicznych)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Czy transformacja danych jest konieczna

A
  • Zależy od typu analizy i pytania badawczego
  • Nie zawsze, dlatego niezbędne porównanie wyników:
    -Analiza danych oryginalnych
    -Analiza dla danych transformowanych
    -Porównanie wyników
    -Wybór wyniku
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Czym są statystyki opisowe?

A

Forma podsumowania zbioru danych:
- Tabelaryczna -> liczebność, gęstość
- Graficzna -> wykresy
Charakterystyka badanej zbiorowości (próby) poprzez obliczanie miar:
- Położenia (tendencji centralnej) np. średnia
- Zmienności (rozproszenia) np. wariancja
- Asymetrii i koncentracji (kształtu) np. kurtoza

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Czym są miary tendencji centralnej?

A

To miary, które wskazują na centralne (bliskie środka) wartości cechy w rozkładzie

17
Q

Jakie są miary tendencji centralnej?

A
  • moda (dominanta, modalna, MO)
  • średnia
  • mediana
18
Q

Scharakteryzuj modę

A
  • Najczęstsza wartość w zbiorze – dominanta
  • Prawdopodobieństwo wystąpienia jest najwyższe
  • Gdy brak powtarzających się pomiarów -> brak modalnej
  • Rzadko używana
19
Q

Jakie są rodzaje średniej?

A
  • arytmetyczna
  • ważona
  • geometryczna
  • harmoniczna
  • geometryczna ważona
20
Q

Scharakteryzuj średnią arytmetyczną

A
  • Centralny punkt rozkładu empirycznego z próby
  • Suma wszystkich wartości zmiennej podzielona przez liczbę wartości
  • Wraz ze wzrostem wielkości próby wzrasta możliwość oszacowania średniej w populacji i jej wahania maleją
  • Dla danych w skali ilościowej oraz dla porządkowej gdy rozkład jest symetryczny
  • Wrażliwa na wielkość próby i wartości odstające (od średniej)
21
Q

Scharakteryzuj średnią ważoną

A
  • Stosowana zazwyczaj przy obliczaniu średniej już z obliczonych średnich
  • Stosujemy gdy pewne wartości są ważniejsze (mają większą wagę) od pozostałych wartości z próby
  • Do wartości zmiennej dołączamy wartość wagi
22
Q

Scharakteryzuj średnią geometryczną

A
  • Tylko dla liczb nieujemnych
  • Gdy jeden z elementów jest równy 0, to średnia geometryczna =0
  • Stosujemy dla rozkładów skośnych (logarytmiczno-normalnych)
  • Stosowana do określenia tempa przyrostu np. masy ciała, wzrostu populacji itp.
23
Q

Scharakteryzuj średnią harmoniczną

A
  • do wyliczania przeciętnych wskaźników kształtu, dominacji, zagęszczenia
  • do obliczania tzw. efektywnej wielkości populacji
  • jest średnią wagową rzędu -1
  • nadaje większe znaczenie mniejszym wartościom
  • stanowi odwrotność średniej arytmetycznej
24
Q

Scharakteryzuj medianę

A
  • Wartość środkowa, drugi kwartyl, 50% rozkładu
  • Wymaga uszeregowania pomiarów od najmniejszego do największego
  • Dzieli uporządkowany (w kierunku wzrostu) zbiór na połowę
  • Tyle samo obserwacji po obu stronach mediany
  • Gdy liczba pomiarów parzysta -> średnia z dwóch środkowych elementów
  • Odporna na wpływ wartości skrajnych
  • Dobra miara dla rozkładów skośnych
25
Zależnie od czego można wybrać miarę tendencji centralnej?
- skali - kształtu rozkładu
26
Wybór miary tendencji centralnej w zależności od skali
- nominalna -> moda - porządkowa -> moda, mediana, - interwałowa -> śr. arytmetyczna, mediana, moda - ilorazowa -> śr. geometryczna i harmoniczna
27
Wybór miary tendencji centralnej w zależności od kształtu rozkładu
- skośny -> mediana, moda - symetryczny jednomodalny -> średnia, mediana - dwu-/wielomodalny -> moda