GALEWSKI NONINTELIGENCE Flashcards
- Negatywne efekty (chyba w wynikach analizy) działania na nieprzygotowanych danych?
Mogą występować Błędne dane, zbędne lub przestarzale Pola z brakującym i wartościami Punkty oddalone Dane w nieodpowiednim formacie Wartości niezgodne z zasadami lub zdrowym rozsądkiem Nadrzędnym celem jest eliminacja GIGO Wstępną obróbka danych zajmuje 60% czasu i wysilku
- Różnice między grupowaniem, a klasyfikacją
klasyfikacja to przyporządkowanie obiektu do predefiniowanej klasy. Zadanie klasyfikacji jest najczęściej realizowane z wykorzystaniem drzew decyzyjnych, sztucznych sieci neuronowych lub metody k-najbliższych sąsiadów
grupowanie – znajdowanie w zbiorze obiektów podzbiorów obiektów o podobnych właściwościach. Zadanie to jest często nazywane taksonomią, analizą skupień czy też potocznie w zastosowaniach marketingowych – segmentacją
- Dlaczego system transakcyjny nie jest projektowany tak, aby zmniejszyć ryzyko zanieczyszczenia danych?
NIE WIADOMOOOOOOOOOOOO
- Klasy informacji w hurtowni danych
a. informacja faktyczne (fakty) – opisują wystąpienie określonych zdarzeń w świecie rzeczywistym. W firmie dotyczą operacji gospodarczych. Stanowią właściwy przedmiot analizy - są opisywane za pomocą miar, wyrażonych na ogół wartościowo (sprzedaż, liczba reklamacji). Stanowią ok. 70% danych w hurtowni.
b. informacje referencyjne (opisy) – kategorie, według których można analizować dane faktyczne. Reprezentują kluczowe aspekty działania organizacji, takie jak: czas, produkt, usługa, region geograficzny, klient.
c. informacje zbiorcze (agregaty faktów) – przechowywanie agregatów ma na celu przyspieszenie udzielania odpowiedzi na zapytania użytkownika
d. metadane – opisują dane zapisane w hurtowni, wyjaśniają ich znaczenie oraz wskazują ich lokalizację, sposób pozyskania, przetwarzania i użycia. Wskazuje źródła danych zapisanych w hurtowni i określa procedury, jakie należy zastosować, aby wypełnić hurtownię danymi
- Co zrobić, jeżeli mamy brakujące dane w hurtowni?
Rozwiązanie:
1. Użycie wartości domyślnych ( nie zawsze możliwe )
2. Odrzucenie rekordu ( tzn. nie wprowadzenie do bazy ).
- Odrzucenie trwałe
zaleta – śmieci powinno się odrzucać
- Odrzucenie do naprawienia i ponownego przedłożenia
- Odrzucenie z automatycznym ponownym przedłożeniem
- Cechy wspólne definicji eksploracji danych’
Wszystkie definicje eksploracji danych mówią o wyszukiwaniu konkretnych trendów, wzorców w bazach danych.
Jakie czynniki wpływają na rozwój systemów BI? (information overload i wyspy informacyjne – wyjaśnić)
brak pełnej wiedzy menedżerów (podejmowanie decyzji w warunkach ignorancji, konfliktu, itp.)
nadmiar informacji (information overload, information glut, analysis paralysis)
brak spójności danych
spadek kosztów mocy obliczeniowej
chęć zlikwidowania „wysp informacyjnych”
Problemy z interpretacją wyników działania algorytmów odkrywania asocjacji.
nproblem interpretacji – w większości wyniki zastosowania reguł asocjacyjnych w małej części stanowią wiedze, która wcześniej nie była znana i jednocześnie jest użyteczna biznesowo.
nTylko użytkownik może stwierdzić, czy dane reguły są przydatne
nproblem złożoności obliczeń – bardzo dużo paragonów w sieciach handlowych. Trudności gdy chce się zwiększyć analizę do 3 produktów – czas analizy rośnie wykładniczo
(100 produktów, po 3, 161 700 kombinacji)
Co to jest data mart, ich zastosowanie.
Data marty są tworzone w celu zapewnienia wsparcia procesu podejmowania decyzji osobom odpowiedzialnym za konkretny obszar biznesowy
Duże organizacje najczęściej utrzymują kilkanaście lub kilkadziesiąt data martów, na potrzeby finansów, marketingu, sprzedaży, operacji IT i innych zespołów w zależności od potrzeb
Jeśli firma ma wiele oddziałów, to każdy może mieć np. własną hurtownię tematyczną. Na szczeblu centrali może istnieć jedna dodatkowa hurtownia, tworzona w dwóch celach:
- przeprowadzenie zbiorczych analiz
- utworzenie jednego źródła danych, którego celem jest dystrybucja danych do hurtowni oddziałowych
- Czym są operacje na kostkach OLAP?co robią rozwijanie, zwijanie, wycinanie i coś jeszcze (nie pamiętam co)
Magazyn danych zaprojektowany w technologii MOLAP do przechowywania danych wykorzystuje wielowymiarowe tablice zwane tez kostkami danych. Tablice te zawierają wstępnie przetworzone pochodzące z wielu źródeł.
Pozycja komórki w kostce wyznaczona jest przez kombinację wartości odpowiednich wymiarów (pewne komórki mogą pozostawać puste)
Kostki są tworzone przed rozpoczęciem analizy i mają charakter statyczny, to znaczy, że np. dodanie wymiaru spowoduje usunięcie danej kostki i utworzenie nowej.
Operacje:
nWyznaczanie punktu centralnego (ang. pivoting)
nOperacja ta polega na wskazaniu miary i określeniu wymiarów, w których wybrana miara będzie prezentowana. Przykładowo, w wymiarze produktu reprezentującego samochód marki „BMW” i wymiarze obszaru reprezentującego sklepy województwa poznańskiego może być prezentowana liczba sprzedanych samochodów.
nrozwijanie (ang. drilling down)
Rozwijanie polega na zagłębianiu się w hierarchie danego wymiaru w celu przeprowadzenia bardziej szczegółowej analizy danych. Jako przykład rozważmy informacje o sprzedaży samochodów marek BMW, Audi i Ford, w latach 1995, 1996 i 1997, w poszczególnych miastach. W celu dokonania analizy sprzedaży w poszczególnych miesiącach roku 1997 należy rozwinąć hierarchie reprezentującą czas, tj. rok 1997. Analiza sprzedaży w poszczególnych dniach wybranego miesiąca będzie możliwa po rozwinięciu hierarchii reprezentującej ten miesiąc
nzwijanie (ang. rolling up)
nZwijanie jest operacja odwrotna do rozwijania i polega na nawigowaniu w górę hierarchii danego wymiaru. Dzięki tej operacji można przeprowadzać analizę danych zagregowanych na wyższym poziomie hierarchii wymiarów.
nwycinanie (ang. slicing and dicing)
nOperacja ta umożliwia zawężenie analizowanych danych do wybranych wymiarów, a w ramach każdego z wymiarów – zawężenie analizy do konkretnych jego wartości. Przykładowo, dyrektor do spraw marketingu będzie zainteresowany wielkością sprzedaży wszystkich produktów, we wszystkich miastach kraju, w roku bieżącym. Natomiast kierownika oddziału firmy w Poznaniu będzie interesowała wielkość sprzedaży wszystkich produktów, w ciągu całego okresu działalności.
nobracanie (ang. rotating)
nOperacja obracania umożliwia prezentowanie danych w różnych układach. Celem jej jest zwiększenie czytelności analizowanych informacji.
- Czym się różnią systemy BI od poprzednich?
NIE WIADOMOOOO
Składowe systemu BI, ich rola.
Systemy Business Intelligence to systemy składające się z systemu bazodanowego gromadzącego dane przedsiębiorstwa (najczęściej jest to hurtownia danych) oraz z warstwy analityczno-raportującej analizującej dane zawarte w hurtowni danych, umożliwiającej dostęp do informacji o aktualnym stanie procesów (biznesowych bądź technologicznych), pozwalającej na wizualizację danych, automatyzację procesu raportowania oraz dającej możliwość przewidywania przyszłości na podstawie wzorców zawartych w danych historycznych.
Reguły asocjacyjne
Odkrywanie reguł asocjacyjnych polega na wyszukiwaniu zbiorów (najczęściej par) obiektów, które występują razem w określonym kontekście. Obiekty te są powiązane w tym znaczeniu, że wystąpienie danego obiektu implikuje pojawienie się, z określonym prawdopodobieństwem, obiektu z nim powiązanego
Analiza podobieństw jest badaniem atrybutów lub cech, które są powiązane ze sobą. Metody analizy podobieństw, znane również jako analiza koszyka sklepowego szukają nieodkrytych powiązań lub reguł do ilościowego określania relacji pomiędzy dwoma lub więcej atrybutami
Reguły asocjacyjne przybierają postać „jeśli poprzednik, to następnik” razem z miarą wsparcia i dokładności lub ufności reguły.
Najsłynniejszy przypadek analizy asocjacji, to odnalezienie reguły stanowiącej, że w piątek wieczorem dość duża część klientów kupuje piwo razem z pieluszkami.
Co to są punkty oddalone?
Są to punkty, które znajdują się blisko granicy zakresu danych lub są sprzeczne z ogólnym trendem pozostałych danych.
- Metody liczenia odległości między punktami
Jeśli mamy punkt i skupienie, to odległość między nimi można policzyć jako:
- średnią odległość między danym punktem a punktami należącymi do skupienia
- maksymalną odległość między punktem a punktami należącymi do skupienia
- minimalną odległość między punktem a punktami należącymi do skupienia
Drugi sposób, to wyznaczenie tzw. obiektu – reprezentanta (może istnieć w skupieniu lub abstrakcyjny).
Odległość między punktem a skupieniem, to wówczas odległość między punktem a reprezentantem.
BAM – przykłady
BAM - Business Activity Monitoring w tradycyjnych rozwiązaniach BI wspomaganie procesów decyzyjnych opiera się na analizie danych zgromadzonych w hurtowni.
Narzędzia BAM zakładają przetwarzanie danych, które napływają na bieżąco z systemów obsługujących sferę wykonawczą przedsiębiorstwa
Zapewniają bezpośredni monitoring stanu aktualnego. Użytkownikami systemów BAM są kierownicy „liniowi” bezpośrednio nadzorujący procesy gospodarcze.
Interfejs użytkownika końcowego systemu BAM najczęściej korzysta z koncepcji kokpitu menedżerskiego, w którym na jednym ekranie są prezentowane różne wskaźniki ilustrujące zmiany zachodzące w danych, które napływają w czasie rzeczywistym.
Zawierają dane na wysokim poziomie agregacji, przeważnie zawierając dane strategiczne i wskaźniki wydajności
Bardzo dużo grafiki, wykresów, diagramów
Znaczenie hurtowni danych w przedsiębiorstwie
przeprowadzanie analiz biznesowych bez ingerencji w operacyjną pracę systemów
całościowy wgląd w dane firmy – integracja informacji z wielu źródeł
dostęp do danych historycznych
ujednolicenie posiadanych informacji (hurtownia danych niweluje problem wielu wersji prawdy w firmie- jednolite pojęcia i jednolity sposób liczenia)
Co oznacza, że sieć jest jednokierunkowa, warstwowa i pełna?
Sieci jednokierunkowe to te, w których przepływ dozwolony jest tylko w jedną stronę – nie występują pętle ani cykle.
Sieć neuronowa jest pełna, jeśli wszystkie neurony z danej warstwy są połączone tylko z wszystkimi neuronami warstwy następnej i nie jest połączony z żadnym neuronem ze swojej warstwy.
Większość współcześnie budowanych i wykorzystywanych sieci neuronowych ma budowę warstwową, przy czym ze względu na dostępność w trakcie procesu uczenia wyróżnia się warstwy: wejściową, wyjściową, oraz tak zwane warstwy ukryte.
Pierwsza warstwa traktowana jest zawsze jako warstwa wejściowa a ostatnia jako wyjściowa. Pomiędzy nimi są warstwy ukryte. Oczywiście warstwy ukryte nie zawsze muszą występować, zależy to bowiem od ogólnej ilości warstw w sieci. Jeśli np. mamy cztery warstwy to kolejno 2 i 3 warstwa są warstwami ukrytymi. Jeśli warstw ogólnie jest dwie to logiczne jest, że taka sieć warstw ukrytych nie posiada
W jakim celu ustalany jest warunek stop i co może być tym warunkiem w sieciach neuronowych?
oAlgorytm może potrzebować wielu przebiegów zanim znajdzie optymalne wagi, dlatego też często dodaje się tzw. warunek stopu, czyli sygnał dla algorytmu, żeby przestał działać.
Jednym z takich warunków jest liczba przebiegów działania algorytmu lub po prostu czas działania.
oMożna również dodać wartość progową SSE, czyli wartość błędu, który jesteśmy w stanie zaakceptować.
oSieci neuronowe (jak wiele innych metod uczenia nadzorowanego) są podatne na tzw. przeuczenie, czyli bardzo dobrze dopasowują się do danych ze zbioru uczącego, ale na testującym wyniki są już znacznie gorsze.
Można również przeprowadzić procedurę sprawdzianu krzyżowego (cross-validation)
owydziel część danych jako zbiór uczący
oprzeprowadź uczenie sieci zgodnie z procedurą
ozastosuj nowo znalezione wagi na podstawie badania zbioru uczącego do zbioru testującego
oobserwuj dwa zestawy wag: jeden „nowy” zbiór wag otrzymany przez uczenie na zbiorze uczącym, drugi „najlepszy” z minimalną wartością SSE dla zbioru testującego
ozakończ algorytm, gdy błąd SSE sieci z wagami z „nowego” zbioru wag dla zbioru testującego będzie znacząco większy niż dla „najlepszego” zbioru wag
- Jakie są przykłady zanieczyszczenia danych?
NIEWIADOMOOOO
- Po co się dokonuje standaryzacji?
Standaryzacja danych to korekta danych w taki sposób, aby utworzyły one jednolity zapis. Jest to metoda porządkowania danych.
Dzięki standaryzacji danych błędne zapisy są poprawiane, a adresy zduplikowane - usuwane. Pomocą w standaryzacji danych są słowniki referencyjne oraz specjalne algorytmy umożliwiające poprawienie błędnych zapisów, np. w nazwach miejscowości czy ulic w celu ujednolicenia ich zapisu.
Standaryzacja danych w bazie pozwala na oszczędność czasu i oszczędność pod kątem finansowym w dotarciu do klientów. Jest niezbędnym elementem dbania o czystość baz danych i pozwala uniknąć pomyłek w wysyłaniu dwóch ofert do jednej firmy.
Zadanie pośredniej warstwy oprogramowania
Połączenie różnych platform systemowych i sprzetowych
Jak określić podobieństwo miedzy danymi obiektami?
Odlegloscia
- Dlaczego tak duże znaczenie w BI mają raporty aktualizacyjne?
Raporty aktualizacyjne
n Interaktywne raporty pozwalające na wprowadzanie i aktualizację danych, bezpośrednio połączone z hurtownią danych, dzięki którym można aktualizować dane w hurtowni danych.
Najczęstsze zastosowanie tego typu raportów to:
n Edycja i customizacja grupowania produktów i klientów
n Wprowadzanie wartości budżetu, prognoz, rabatów
n Ustawianie celów sprzedażowych
n Manualne korekty danych sprzedażowych
Najczęściej platforma raportowania jest wizytówką całej hurtowni danych i użytkownicy biznesowi właśnie poprzez jakość raportów oceniają całe środowisko Business Intelligence w organizacji. I nawet w przypadku, gdy środowisko hurtowni danych będzie rozwijane z użyciem najnowszych technologii, dane w niej zawarte będą wysokiej jakości i procesy ETL będą działały w sposób niezawodny i stabilny, hurtownia może być nieprzydatna - jeżeli frontend hurtowni danych udostępniony dla użytkowników biznesowych i aplikacje raportujące nie przypadną im do gustu.