WNUM Flashcards
Co to jest miara R2
? Do czego służy? Kiedy miara R2 wynosi 1? Co to znaczy, ze miara R2 wynosi 0.5?
Miara R2
służy do weryfikacji hipotezy, czyli do sprawdzenia, czy nasz model dobrze odzwierciedla zmienność
danych. Gdyby nasz model odzwierciedlał 100% zmienności danych -> punkty danych wejściowych leżałyby
dokładnie na modelu przyjmuje wartość 1. Oczywiście w przypadku istnienia szumu nie będzie to dobry model
bo uwzględniałby on tez szum, ale wartości ~0.995 są uznawane za OK. Miara jest zachowawcza tzn. R2=0.5
oznacza, ze nasz model tłumaczy 50% zmienności danych.
Opisz czym jest i jak działa miara χ
2
służąca do weryfikacji hipotezy (modelu).
Miara R2
służy do weryfikacji hipotezy i ma zastosowanie kiedy mamy wiele punktów dla tego samego x
(powtażamy eksperyment) lub x znajduje się w pewnych kategoriach. Miara ta przyjmuje dla każdej z kategorii
rozkład normalny wyników i na podstawie danych w każdej z podkategorii oblicza spodziewane położenie
maksimum rozkładu normalnego. Model jest tym lepszy im to maksimum leży bliżej wartości predykowanej przez
masz model w każdej z podkategorii.
Zdefiniuj problem regresji Opisz czym jest rozwiązanie problemu regresji w sensie normy drugiej. Opis zilustruj
graficznym przykładem regresji liniowej.
Problem regresji zdefiniowany jest następująco: dla danych wejściowych (𝒙, 𝒚̃) obarczonych błędem ε (𝒚̃ =
𝑓(𝒙) + 𝜺) i przyjętego modelu (𝑓(𝒙, 𝒑)) o współczynnikach p musimy znaleźć taki wektor współczynników p,
który minimalizuje przyjętą normę wektora błędu ε.
min(‖𝜺‖) = min(‖𝒀 −𝒚̃‖) = min(‖𝑓(𝒙)− 𝒚̃‖)
W sensie normy drugiej rozwiązaniem będą parametry modelu gwarantujące, że średniokwadratowa odległość
modelu od wszystkich punktów bredzenie minimalna (geometrycznie odległość średniokwadratowa to po prostu
długość więc jest to zestaw współczynników, dla którego długość sumaryczna wszystkich błędów całego rekordu
danych jest najmniejsza).
Czyli zestaw parametrów p minimalizuje sumę długości błędu (przerywanych czarnych linii). Jeżeli się zmieni to
sumaryczna długość przerywanych czarnych linii wzrośnie.
Co to jest i o czym mówi twierdzenie Stonea-Weierstrassa? Jakie są praktyczne wnioski z tego twierdzenia?
Twierdzenie Stonea-Weierstrassa mówi, że istnieje optymalny stopień wielomianu w przypadku użycia
aproksymacji (przypadek danych obarczonych dużym błędem) do odwzorowania kształtu. Dalsze zwiększanie
stopnia wielomianu aproksymującego nie daje poprawy wyniku. Twierdzenie ograniczone jest do błędu w
węzłach. Praktycznie oznacza to, że nie ma sensu próbować zrobić aproksymacji opartej o duży zbiór punktów
wielomianem bardzo wysokiego do odwzorowania kształtu. Ograniczamy się do wielomianów niższych stopni.
Dlaczego na maszynach numerycznych najczęściej implementuje się Zespoloną Dyskretną Transformatę Fouriera
a nie Rzeczywistą Dyskretną Transformatę Fouriera
Ze względu na problem z rozwiązaniem dużego układu równań o potencjalnie niekorzystnych właściwościach
numerycznych (źle uwarunkowanego) koniecznego do obliczenia współczynników interpolacyjnych.
Transformaty liczone są typowo z bardzo dużych rekordów danych. Przechodząc na przestrzeń zespoloną można zbudować układ równań liniowych o najlepszym możliwym uwarunkowaniu (cond(A)=1) oraz skorzystać z cechy
unitarności w celu uroszczenia obliczeń i trzymania błędu obliczeniowego w rozsądnych granicach.
Dla sygnału o okresie T
𝑓(𝑥) = 4𝑐𝑜𝑠(5(2𝜋/𝑇𝑥)
określ wymagane parametry próbkowania (długość okna obserwacji, częstotliwość próbkowania) aby poprawnie
zidentyfikować istniejącą składową. Chodzi o uzyskanie maksymalnego współczynnika korelacji.
Jeżeli próbkowanie odbywa się w oknie o długości T to musimy mieć przynajmniej 11 próbek. Dla 11 próbek
częstotliwość próbkowania to 10*1/T. Dla dłuższych okien ważne jest, żeby długość okna była dokładnie równa
wielokrotności okresu i odpowiednio trzeba będzie zwiększyć ilość próbek np. dla okna o długości 2T wymagane
będzie min 21 próbek.
Na czym polega różnica pomiędzy podstawowym algorytmem DFT i algorytmem FFT? Odpowiedź uzasadnij
pokazując różnice w parametrach numerycznych oraz sposobie próbkowania.
Podstawowy algorytm DFT ma złożoność obliczeniową O(N2
) co jest szczególnie niekorzystne dla dużych
rekordów danych (duże rekordy danych są z kolei wskazane ze względu na dokładność analiz – powiazanie
gęstości widma z ilością próbek). Implementacja FFT jest metodą o niższej klasie złożoności O(N log(N)), ale
nakłada dodatkowe ograniczenia na dane wejściowe - długość rekordu danych musi być potęgą 2