GALEWSKI NONINTELIGENCE Flashcards

1
Q
  1. Negatywne efekty (chyba w wynikach analizy) działania na nieprzygotowanych danych?
A
Mogą występować
Błędne dane, zbędne lub przestarzale
Pola z brakującym i wartościami
Punkty oddalone
Dane w nieodpowiednim formacie
Wartości niezgodne z zasadami lub zdrowym rozsądkiem
Nadrzędnym celem jest eliminacja GIGO
Wstępną obróbka danych zajmuje 60% czasu i wysilku
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q
  1. Różnice między grupowaniem, a klasyfikacją
A

klasyfikacja to przyporządkowanie obiektu do predefiniowanej klasy. Zadanie klasyfikacji jest najczęściej realizowane z wykorzystaniem drzew decyzyjnych, sztucznych sieci neuronowych lub metody k-najbliższych sąsiadów

grupowanie – znajdowanie w zbiorze obiektów podzbiorów obiektów o podobnych właściwościach. Zadanie to jest często nazywane taksonomią, analizą skupień czy też potocznie w zastosowaniach marketingowych – segmentacją

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q
  1. Dlaczego system transakcyjny nie jest projektowany tak, aby zmniejszyć ryzyko zanieczyszczenia danych?
A

NIE WIADOMOOOOOOOOOOOO

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q
  1. Klasy informacji w hurtowni danych
A

a. informacja faktyczne (fakty) – opisują wystąpienie określonych zdarzeń w świecie rzeczywistym. W firmie dotyczą operacji gospodarczych. Stanowią właściwy przedmiot analizy - są opisywane za pomocą miar, wyrażonych na ogół wartościowo (sprzedaż, liczba reklamacji). Stanowią ok. 70% danych w hurtowni.
b. informacje referencyjne (opisy) – kategorie, według których można analizować dane faktyczne. Reprezentują kluczowe aspekty działania organizacji, takie jak: czas, produkt, usługa, region geograficzny, klient.
c. informacje zbiorcze (agregaty faktów) – przechowywanie agregatów ma na celu przyspieszenie udzielania odpowiedzi na zapytania użytkownika
d. metadane – opisują dane zapisane w hurtowni, wyjaśniają ich znaczenie oraz wskazują ich lokalizację, sposób pozyskania, przetwarzania i użycia. Wskazuje źródła danych zapisanych w hurtowni i określa procedury, jakie należy zastosować, aby wypełnić hurtownię danymi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q
  1. Co zrobić, jeżeli mamy brakujące dane w hurtowni?
A

Rozwiązanie:
1. Użycie wartości domyślnych ( nie zawsze możliwe )
2. Odrzucenie rekordu ( tzn. nie wprowadzenie do bazy ).
- Odrzucenie trwałe
zaleta – śmieci powinno się odrzucać
- Odrzucenie do naprawienia i ponownego przedłożenia
- Odrzucenie z automatycznym ponownym przedłożeniem

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q
  1. Cechy wspólne definicji eksploracji danych’
A

Wszystkie definicje eksploracji danych mówią o wyszukiwaniu konkretnych trendów, wzorców w bazach danych.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Jakie czynniki wpływają na rozwój systemów BI? (information overload i wyspy informacyjne – wyjaśnić)

A

brak pełnej wiedzy menedżerów (podejmowanie decyzji w warunkach ignorancji, konfliktu, itp.)
nadmiar informacji (information overload, information glut, analysis paralysis)
brak spójności danych
spadek kosztów mocy obliczeniowej
chęć zlikwidowania „wysp informacyjnych”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Problemy z interpretacją wyników działania algorytmów odkrywania asocjacji.

A

nproblem interpretacji – w większości wyniki zastosowania reguł asocjacyjnych w małej części stanowią wiedze, która wcześniej nie była znana i jednocześnie jest użyteczna biznesowo.
nTylko użytkownik może stwierdzić, czy dane reguły są przydatne
nproblem złożoności obliczeń – bardzo dużo paragonów w sieciach handlowych. Trudności gdy chce się zwiększyć analizę do 3 produktów – czas analizy rośnie wykładniczo
(100 produktów, po 3, 161 700 kombinacji)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Co to jest data mart, ich zastosowanie.

A

Data marty są tworzone w celu zapewnienia wsparcia procesu podejmowania decyzji osobom odpowiedzialnym za konkretny obszar biznesowy
Duże organizacje najczęściej utrzymują kilkanaście lub kilkadziesiąt data martów, na potrzeby finansów, marketingu, sprzedaży, operacji IT i innych zespołów w zależności od potrzeb
Jeśli firma ma wiele oddziałów, to każdy może mieć np. własną hurtownię tematyczną. Na szczeblu centrali może istnieć jedna dodatkowa hurtownia, tworzona w dwóch celach:
- przeprowadzenie zbiorczych analiz
- utworzenie jednego źródła danych, którego celem jest dystrybucja danych do hurtowni oddziałowych

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q
  1. Czym są operacje na kostkach OLAP?co robią rozwijanie, zwijanie, wycinanie i coś jeszcze (nie pamiętam co)
A

Magazyn danych zaprojektowany w technologii MOLAP do przechowywania danych wykorzystuje wielowymiarowe tablice zwane tez kostkami danych. Tablice te zawierają wstępnie przetworzone pochodzące z wielu źródeł.
Pozycja komórki w kostce wyznaczona jest przez kombinację wartości odpowiednich wymiarów (pewne komórki mogą pozostawać puste)
Kostki są tworzone przed rozpoczęciem analizy i mają charakter statyczny, to znaczy, że np. dodanie wymiaru spowoduje usunięcie danej kostki i utworzenie nowej.

Operacje:
nWyznaczanie punktu centralnego (ang. pivoting)
nOperacja ta polega na wskazaniu miary i określeniu wymiarów, w których wybrana miara będzie prezentowana. Przykładowo, w wymiarze produktu reprezentującego samochód marki „BMW” i wymiarze obszaru reprezentującego sklepy województwa poznańskiego może być prezentowana liczba sprzedanych samochodów.
nrozwijanie (ang. drilling down)
Rozwijanie polega na zagłębianiu się w hierarchie danego wymiaru w celu przeprowadzenia bardziej szczegółowej analizy danych. Jako przykład rozważmy informacje o sprzedaży samochodów marek BMW, Audi i Ford, w latach 1995, 1996 i 1997, w poszczególnych miastach. W celu dokonania analizy sprzedaży w poszczególnych miesiącach roku 1997 należy rozwinąć hierarchie reprezentującą czas, tj. rok 1997. Analiza sprzedaży w poszczególnych dniach wybranego miesiąca będzie możliwa po rozwinięciu hierarchii reprezentującej ten miesiąc
nzwijanie (ang. rolling up)
nZwijanie jest operacja odwrotna do rozwijania i polega na nawigowaniu w górę hierarchii danego wymiaru. Dzięki tej operacji można przeprowadzać analizę danych zagregowanych na wyższym poziomie hierarchii wymiarów.
nwycinanie (ang. slicing and dicing)
nOperacja ta umożliwia zawężenie analizowanych danych do wybranych wymiarów, a w ramach każdego z wymiarów – zawężenie analizy do konkretnych jego wartości. Przykładowo, dyrektor do spraw marketingu będzie zainteresowany wielkością sprzedaży wszystkich produktów, we wszystkich miastach kraju, w roku bieżącym. Natomiast kierownika oddziału firmy w Poznaniu będzie interesowała wielkość sprzedaży wszystkich produktów, w ciągu całego okresu działalności.
nobracanie (ang. rotating)
nOperacja obracania umożliwia prezentowanie danych w różnych układach. Celem jej jest zwiększenie czytelności analizowanych informacji.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q
  1. Czym się różnią systemy BI od poprzednich?
A

NIE WIADOMOOOO

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Składowe systemu BI, ich rola.

A

Systemy Business Intelligence to systemy składające się z systemu bazodanowego gromadzącego dane przedsiębiorstwa (najczęściej jest to hurtownia danych) oraz z warstwy analityczno-raportującej analizującej dane zawarte w hurtowni danych, umożliwiającej dostęp do informacji o aktualnym stanie procesów (biznesowych bądź technologicznych), pozwalającej na wizualizację danych, automatyzację procesu raportowania oraz dającej możliwość przewidywania przyszłości na podstawie wzorców zawartych w danych historycznych.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Reguły asocjacyjne

A

Odkrywanie reguł asocjacyjnych polega na wyszukiwaniu zbiorów (najczęściej par) obiektów, które występują razem w określonym kontekście. Obiekty te są powiązane w tym znaczeniu, że wystąpienie danego obiektu implikuje pojawienie się, z określonym prawdopodobieństwem, obiektu z nim powiązanego
Analiza podobieństw jest badaniem atrybutów lub cech, które są powiązane ze sobą. Metody analizy podobieństw, znane również jako analiza koszyka sklepowego szukają nieodkrytych powiązań lub reguł do ilościowego określania relacji pomiędzy dwoma lub więcej atrybutami
Reguły asocjacyjne przybierają postać „jeśli poprzednik, to następnik” razem z miarą wsparcia i dokładności lub ufności reguły.
Najsłynniejszy przypadek analizy asocjacji, to odnalezienie reguły stanowiącej, że w piątek wieczorem dość duża część klientów kupuje piwo razem z pieluszkami.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Co to są punkty oddalone?

A

Są to punkty, które znajdują się blisko granicy zakresu danych lub są sprzeczne z ogólnym trendem pozostałych danych.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q
  1. Metody liczenia odległości między punktami
A

Jeśli mamy punkt i skupienie, to odległość między nimi można policzyć jako:
- średnią odległość między danym punktem a punktami należącymi do skupienia
- maksymalną odległość między punktem a punktami należącymi do skupienia
- minimalną odległość między punktem a punktami należącymi do skupienia
Drugi sposób, to wyznaczenie tzw. obiektu – reprezentanta (może istnieć w skupieniu lub abstrakcyjny).
Odległość między punktem a skupieniem, to wówczas odległość między punktem a reprezentantem.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

BAM – przykłady

A

BAM - Business Activity Monitoring w tradycyjnych rozwiązaniach BI wspomaganie procesów decyzyjnych opiera się na analizie danych zgromadzonych w hurtowni.
Narzędzia BAM zakładają przetwarzanie danych, które napływają na bieżąco z systemów obsługujących sferę wykonawczą przedsiębiorstwa
Zapewniają bezpośredni monitoring stanu aktualnego. Użytkownikami systemów BAM są kierownicy „liniowi” bezpośrednio nadzorujący procesy gospodarcze.
Interfejs użytkownika końcowego systemu BAM najczęściej korzysta z koncepcji kokpitu menedżerskiego, w którym na jednym ekranie są prezentowane różne wskaźniki ilustrujące zmiany zachodzące w danych, które napływają w czasie rzeczywistym.
Zawierają dane na wysokim poziomie agregacji, przeważnie zawierając dane strategiczne i wskaźniki wydajności
Bardzo dużo grafiki, wykresów, diagramów

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Znaczenie hurtowni danych w przedsiębiorstwie

A

przeprowadzanie analiz biznesowych bez ingerencji w operacyjną pracę systemów
całościowy wgląd w dane firmy – integracja informacji z wielu źródeł
dostęp do danych historycznych
ujednolicenie posiadanych informacji (hurtownia danych niweluje problem wielu wersji prawdy w firmie- jednolite pojęcia i jednolity sposób liczenia)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Co oznacza, że sieć jest jednokierunkowa, warstwowa i pełna?

A

Sieci jednokierunkowe to te, w których przepływ dozwolony jest tylko w jedną stronę – nie występują pętle ani cykle.
Sieć neuronowa jest pełna, jeśli wszystkie neurony z danej warstwy są połączone tylko z wszystkimi neuronami warstwy następnej i nie jest połączony z żadnym neuronem ze swojej warstwy.
Większość współcześnie budowanych i wykorzystywanych sieci neuronowych ma budowę warstwową, przy czym ze względu na dostępność w trakcie procesu uczenia wyróżnia się warstwy: wejściową, wyjściową, oraz tak zwane warstwy ukryte.
Pierwsza warstwa traktowana jest zawsze jako warstwa wejściowa a ostatnia jako wyjściowa. Pomiędzy nimi są warstwy ukryte. Oczywiście warstwy ukryte nie zawsze muszą występować, zależy to bowiem od ogólnej ilości warstw w sieci. Jeśli np. mamy cztery warstwy to kolejno 2 i 3 warstwa są warstwami ukrytymi. Jeśli warstw ogólnie jest dwie to logiczne jest, że taka sieć warstw ukrytych nie posiada

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

W jakim celu ustalany jest warunek stop i co może być tym warunkiem w sieciach neuronowych?

A

oAlgorytm może potrzebować wielu przebiegów zanim znajdzie optymalne wagi, dlatego też często dodaje się tzw. warunek stopu, czyli sygnał dla algorytmu, żeby przestał działać.
Jednym z takich warunków jest liczba przebiegów działania algorytmu lub po prostu czas działania.
oMożna również dodać wartość progową SSE, czyli wartość błędu, który jesteśmy w stanie zaakceptować.
oSieci neuronowe (jak wiele innych metod uczenia nadzorowanego) są podatne na tzw. przeuczenie, czyli bardzo dobrze dopasowują się do danych ze zbioru uczącego, ale na testującym wyniki są już znacznie gorsze.
Można również przeprowadzić procedurę sprawdzianu krzyżowego (cross-validation)
owydziel część danych jako zbiór uczący
oprzeprowadź uczenie sieci zgodnie z procedurą
ozastosuj nowo znalezione wagi na podstawie badania zbioru uczącego do zbioru testującego
oobserwuj dwa zestawy wag: jeden „nowy” zbiór wag otrzymany przez uczenie na zbiorze uczącym, drugi „najlepszy” z minimalną wartością SSE dla zbioru testującego
ozakończ algorytm, gdy błąd SSE sieci z wagami z „nowego” zbioru wag dla zbioru testującego będzie znacząco większy niż dla „najlepszego” zbioru wag

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q
  1. Jakie są przykłady zanieczyszczenia danych?
A

NIEWIADOMOOOO

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q
  1. Po co się dokonuje standaryzacji?
A

Standaryzacja danych to korekta danych w taki sposób, aby utworzyły one jednolity zapis. Jest to metoda porządkowania danych.
Dzięki standaryzacji danych błędne zapisy są poprawiane, a adresy zduplikowane - usuwane. Pomocą w standaryzacji danych są słowniki referencyjne oraz specjalne algorytmy umożliwiające poprawienie błędnych zapisów, np. w nazwach miejscowości czy ulic w celu ujednolicenia ich zapisu.
Standaryzacja danych w bazie pozwala na oszczędność czasu i oszczędność pod kątem finansowym w dotarciu do klientów. Jest niezbędnym elementem dbania o czystość baz danych i pozwala uniknąć pomyłek w wysyłaniu dwóch ofert do jednej firmy.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Zadanie pośredniej warstwy oprogramowania

A

Połączenie różnych platform systemowych i sprzetowych

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Jak określić podobieństwo miedzy danymi obiektami?

A

Odlegloscia

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q
  1. Dlaczego tak duże znaczenie w BI mają raporty aktualizacyjne?
A

Raporty aktualizacyjne
n Interaktywne raporty pozwalające na wprowadzanie i aktualizację danych, bezpośrednio połączone z hurtownią danych, dzięki którym można aktualizować dane w hurtowni danych.
Najczęstsze zastosowanie tego typu raportów to:
n Edycja i customizacja grupowania produktów i klientów
n Wprowadzanie wartości budżetu, prognoz, rabatów
n Ustawianie celów sprzedażowych
n Manualne korekty danych sprzedażowych
Najczęściej platforma raportowania jest wizytówką całej hurtowni danych i użytkownicy biznesowi właśnie poprzez jakość raportów oceniają całe środowisko Business Intelligence w organizacji. I nawet w przypadku, gdy środowisko hurtowni danych będzie rozwijane z użyciem najnowszych technologii, dane w niej zawarte będą wysokiej jakości i procesy ETL będą działały w sposób niezawodny i stabilny, hurtownia może być nieprzydatna - jeżeli frontend hurtowni danych udostępniony dla użytkowników biznesowych i aplikacje raportujące nie przypadną im do gustu.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Na czym polega transakcyjny, a na czym macierzowy sposób reprezentowania danych?

A

Transakcyjny format danych – wymaga tylko dwóch pól, pola identyfikującego transakcję i pola zawartości, a każdy rekord zawiera tylko pojedynczy artykuł.

Macierzowy format danych – każdy rekord reprezentuje osobną transakcję z tak wieloma binarnymi polami, jak wiele jest artykułów.

26
Q
  1. Co to jest SSE i jak obliczyć?
A

W większości przykładów działania sztucznych sieci neuronowych miarą stopnia dopasowania jest suma kwadratów błędów
(SSE – Sum of Squared Errors)
oSSE = Σ (wartość rzeczywista – wyjście)2
oGdzie suma polega na dodaniu błędów z wszystkich neuronów wyjściowych i z wszystkich rekordów.
oProblemem staje się więc takie ustawienie wag, by minimalizować SSE - ujęcie podobne do regresji, ale istnienie funkcji sigmoidalnej utrudnia obliczenia

27
Q

Wymień kilka praktycznych zastosowań modeli data mining

A
Olbrzymie zainteresowanie eksploracją danych wynika z faktu, że szereg przedsiębiorstw, instytucji administracji publicznej czy wreszcie ośrodków naukowych nagromadziło w ostatnim czasie bardzo wiele danych przechowywanych w zakładowych bazach danych i stanęło przed problemem, w jaki sposób efektywnie i racjonalnie wykorzystać nagromadzoną w tych bazach wiedzę dla celów wspomagania swojej działalności biznesowej.
Rentowność klienta
Wartość klienta w czasie
Segmentacja
Analiza wspierająca sprzedaż krzyżową
Analiza lojalności i migracji klientów
Ocena ryzyka kredytowego
Wykrywanie oszustw
Analiza i ocena funkcjonowania serwisów internetowych
Text mining
28
Q

. Co to jest wsparcie i ufność

A

qNiech D będzie zbiorem transakcji przedstawionym wcześniej, gdzie każda transakcja z T z D reprezentuje zbiór artykułów z I. Załóżmy, że mamy dany zbiór artykułów A (np. fasola i kabaczki) i inny zbiór artykułów B (np. szparagi). Wtedy regułą asocjacyjna przybiera postać jeżeli A to B (A => B)
qWsparcie s dla danej reguły asocjacyjnej A => B jest procentem transakcji w D, które zawierają A i B. To znaczy:
Wsparcie = P (A i B) = (liczba transakcji zawierających A i B)/ (całkowita liczba transakcji)

nUfność – c dla danej reguły asocjacyjnej A => B jest miarą dokładności reguły, określoną jako procent transakcji zawierających A, które również zawierają B.
nUfność = P(B/A) = (liczba transakcji zawierających A i B)/ (liczba transakcji zawierających A)
qAnalitycy mogą zainteresować się tylko tymi transakcjami, które mają wysoki poziom wsparcie lub ufności, jednakże najczęściej szukają tzw. mocnych reguł, czyli reguł, które mają wysokie wartości zarówno wsparcie jak i ufności.
qOczywiście poziom wsparcia i ufności zadany przez analityka zależy od działań, które są analizowane. W analizie koszyka sklepowego będą one zdecydowanie większe, niż w przypadku zagrożeń terrorystycznych lub wyszukiwania podejrzanych transakcji kartą kredytową, ponieważ odsetek tych transakcji jest zdecydowanie mniejszy, niż w przypadku reguł kupowania danych produktów łącznie.

29
Q

Ogólny sposób działania sztucznego neuronu

A

Sztuczny neuron zbiera sygnały od poprzedzających neuronów lub sygnały wejściowe i tworzy z nich jedną wartość za pomocą zadanej funkcji łączącej (np. suma). Otrzymany wynik tej operacji jest wejściem dla tzw. funkcji aktywacji, która to „wytwarza” sygnał wyjściowy dla następnych neuronów.

30
Q

Reguła największego spadku

A

Pomocna w znajdowaniu wag, które zmniejszą SSE jest reguła największego spadku. Wskazuje kierunek dostosowywania się wag taki, aby zmniejszyć SSE.
oW tym celu tworzy się tzw. gradient wektora wag
SSE (w) = [ δSSE/ δw0; δSSE/ δw1; δSSE/ δw2; …; δSSE/ δwm]
Jest to zależność między SSE a wartością danej wagi. Szukana jest taka wartość w, która minimalizuje SSE. Wartość optymalna jest zaznaczona na wykresie jako w. Trzeba znaleźć regułę, która pozwoli przybliżyć obecną wartość wagi do optymalnej.
wnowe = wobecne + Δwobecne, gdzie Δwobecne jest krokiem uczenia w.
oJeśli przypuścimy, że obecna waga byłaby położona na lewo od wartości optymalnej, to daną wagę należałoby zwiększyć i na odwrót, jeśli będzie po prawej stronie w
, to należy wagę zmniejszyć. Pochodna tej funkcji będzie wskazywać gdzie znajduje się obecna waga, jeśli będzie po lewej stronie, to pochodna będzie przyjmować wartości ujemne, a jeśli po prawej stronie, to pochodna będzie dodatnia. Dopasowania są wiec ujemnie skorelowane ze znakiem pochodnej.
oJak bardzo należy przesunąć daną wagę? Jeśli waga będzie mocna różnić się od optymalnej to duża będzie wartość pochodnej i nastąpi duże przesunięcie. Gdy odległość jest mała to funkcja w tym obszarze jest prawie pozioma i wartość pochodnej będzie znikoma i wynikająca z tego zmiana wagi będzie mniejsza.
oOstatecznie ta pochodna jest jeszcze mnożona przez pewną stałą, która nazywa się współczynnikiem korekcji lub współczynnikiem uczenia ŋ. Przyjmuje on wartości z przedziału [0,1]. (współczynnik ten zostanie omówiony później)
oCałkowity krok uczenia jest więc równy
Δwobecne = - ŋ (δSSE/ δwobecne)

31
Q
  1. Na czym polega alert w kokpitach menedżerskich?
A

Za pomocą kokpitów możliwe jest monitorowanie kluczowych wskaźników wydajnościowych (KPI - Key Performance Indicators). Kokpity wykorzystują również mechanizm alertów, powiadamiający o przekroczeniach poziomów pewnych zmiennych i pozwalający na podjęcie błyskawicznej reakcji. Dzięki temu można zapobiec eskalacji negatywnych zjawisk, a także szybko wykryć nowe trendy czy nadarzające się okazje biznesowe.
Kokpity wspierają koncepcje zarządzania, takie jak: Zrównoważona Karta Wyników (BSC - Balanced Scorecard), Six Sigma czy TQM.

32
Q

Dlaczego nie wystarczy ERP?

A
Systemy transakcyjne (np. ERP) charakteryzują się następującymi cechami:
nzawierają dużą liczbę zbiorów i przechowywanych w nich danych, co powoduje, że niewiele osób jest w stanie zorientować się w ich zawartości,
nmają mało czytelną strukturę bazy danych i niezrozumiałe nazewnictwo tabel oraz atrybutów – są one zrozumiałe w zasadzie jedynie dla twórców systemów, względnie dal osób sprawujących opiekę nad oprogramowaniem
npostać i sposób przetwarzania danych są dogodne dla prowadzenia ewidencji, natomiast niedogodne dla przeprowadzania analiz.
33
Q

Co to są metadane?

A

metadane – opisują dane zapisane w hurtowni, wyjaśniają ich znaczenie oraz wskazują ich lokalizację, sposób pozyskania, przetwarzania i użycia. Wskazuje źródła danych zapisanych w hurtowni i określa procedury, jakie należy zastosować, aby wypełnić hurtownię danymi
Można wyróżnić następujące składniki metadanych
n słownik danych, obejmujący definicje obsługiwanych baz danych i relacji między elementami danych;
n przepływy danych, czyli kierunek i częstotliwość przekazywania danych w systemie;
n transformacje jakim podlegają dane podczas przenoszenia;
n numery wersji przechowywanych metadanych oraz informacje o modyfikacjach;
n statystyki użycia danych (profil danych);
n nazwy nadane poszczególnym polom w bazie;
n uprawnienia użytkowników dotyczące dostępu do danych
n Zastosowanie uznanego i rozpowszechnionego standardu metadanych powinno zapewnić odpowiednią elastyczność hurtowni dokumentów w zakresie integracji z pozostałymi komponentami systemu BI zarówno na etapie jego wdrażania jak i poźniejszego utrzymania i rozwoju.
n Przykładem standardu metadanych wykorzystywanego do tworzenia opisow zasobów elektronicznych jest Dublin Core Metadata Element Set (DCMS). Podstawą tego standardu jest zestaw piętnastu znaczników metadanych.

34
Q

Co to jest reguła asocjacji?

A

Asocjacje są jednym z rodzajów wiedzy, jaką możemy odkryć podczas analizy zbiorów danych. Odkrywanie asocjacji polega na odnalezieniu wartości atrybutów stosunkowo często występujących razem, np. odkrycie, że pewne towary są często kupowane wraz z innymi towarami, a klienci pewnej firmy są również klientami innej firmy. Właśnie takich zależności w danych poszukuje zaimplementowany przeze mnie algorytm w mojej aplikacji. W pewnych sytuacjach, min. wymienionych powyżej, odkrycie asocjacji może być dużo bardziej użyteczne, niż odkrycie innej wiedzy, np. klasyfikacji. Często też wydaje się być łatwiejszym do zrealizowania, chociaż nie oznacza to mniejszych kosztów i prostszych obliczeń.

35
Q

Co to jest transformacja danych?

A

transformacja danych (proces przetwarzania danych źródłowych pozyskanych ze źródeł zewnętrznych przed ich zapisem do hurtowni danych)

36
Q

Co jest celem grupowania? Wymień kilka metod analizy skupisk, ich zastosowanie.

A

Celem grupowania jest utworzenie jak najbardziej jednorodnych grup obiektów (skupień) ze względu na podobieństwo w zakresie wewnętrznej struktury charakteryzujących je zmiennych.
Metody:
metody hierarchiczne – algorytm tworzy dla zbioru obiektów hierarchię klasyfikacji, zaczynając od takiego podziału, w którym każdy obiekt stanowi samodzielne skupienie, a kończąc na podziale, w którym wszystkie obiekty należą do jednego skupienia. Istnieją dwa rodzaje metod hierarchicznych:
procedury aglomeracyjne (ang. agglomerative) – tworzą macierz podobieństw klasyfikowanych obiektów, a następnie w kolejnych krokach łączą w skupienia obiekty najbardziej do siebie podobne,
procedury deglomeracyjne (ang. divisive) – zaczynają od skupienia obejmującego wszystkie obiekty, a następnie w kolejnych krokach dzielą je na mniejsze i bardziej jednorodne skupienia aż do momentu, gdy każdy obiekt stanowi samodzielne skupienie.
grupa metod k-średnich (ang. k-means), w której grupowanie polega na wstępnym podzieleniu populacji na z góry założoną liczbę klas. Następnie uzyskany podział jest poprawiany w ten sposób, że niektóre elementy są przenoszone do innych klas, tak, aby uzyskać minimalną wariancję wewnątrz uzyskanych klas. Podstawowy algorytm (J. MacQueen, 1967):
losowy wybór środków (centroidów) klas (skupień),
przypisanie punktów do najbliższych centroidów,
wyliczenie nowych środków skupień,
powtarzanie algorytmu aż do osiągnięcia kryterium zbieżności (najczęściej jest to krok, w którym nie zmieniła się przynależność punktów do klas);

37
Q

Na czym polega działanie funkcji łączącej i jaką najczęściej przyjmuję postać?

A

Sztuczny neuron działa na podobnej zasadzie – zbiera sygnały od poprzedzających neuronów lub sygnały wejściowe i tworzy z nich jedną wartość za pomocą zadanej funkcji łączącej (np. suma). Otrzymany wynik tej operacji jest wejściem dla tzw. funkcji aktywacji, która to „wytwarza” sygnał wyjściowy dla następnych neuronów

38
Q
  1. jakie zadania spełnia eksploracja danych (nr 37 najprawdopodobniej)
A

Eksploracja danych jest to jeden z etapów procesu odkrywania wiedzy z baz danych. Idea eksploracji danych polega na wykorzystaniu szybkości komputera do znajdowania ukrytych dla człowieka (właśnie z uwagi na ograniczone możliwości czasowe) prawidłowości w danych zgromadzonych w hurtowniach danych.

39
Q
  1. dlaczego zbiór danych dzieli się na uczący i testujący (nr 41)
A

Teoria sprawdzianu krzyżowego została zapoczątkowana przez Seymoura Geissera. Pozwala ona bronić się przed tzw. błędem trzeciego rodzaju i właściwie ocenić trafność prognostyczną modelu predykcyjnego. Bez jej zastosowania nie można być pewnym, czy model będzie dobrze działał dla danych, które nie były wykorzystywane do jego konstruowania (zob. overfitting).

40
Q
  1. Co to są wielopoziomowe reguły asocjacyjne?
A

użytkownicy systemu eksploracji danych mogą być zainteresowani nie tyle znalezieniem grup konkretnych produktów kupowanych najczęściej przez klientów supermarketu, ile znalezieniem asocjacji pomiędzy grupami produktów kupowanych wspólnie przez klientów
Reguły asocjacyjne reprezentujące asocjacje pomiędzy nazwanymi grupami elementów (produktów, zdarzeń, cech, usług, itp.) nazywamy wielopoziomowymi lub uogólnionymi regułami asocjacyjnymi
Wielopoziomowe reguły asocjacyjne posiadają, często, większa wartość poznawcza dla analityków i decydentów aniżeli jednopoziomowe reguły asocjacyjne, ponieważ operują na ogólniejszych hierarchiach pojęciowych, które są czytelniejsze i łatwiejsze do analizy, oraz reprezentują uogólniona wiedze.

41
Q

jakie są konsekwencje tego, że dokona się analizy na nieoczyszczonych danyc

A

Początkowym etapem każdej z analiz jest “poznanie danych” oraz tzw. preprocesing, w skład którego wchodzi proces oczyszczania i standaryzacji danych (ang. data cleansing, data scrubbing). Bez nie go nie jesteśmy w stanie wydobyć cennej informacji.
Szybko i solidnie “oczyszczamy” dane.
Proces czyszczenia danych realizujemy w następujących etapach:

analiza danych – określenie problemów jakości danych i określenie strategii dalszych faz czyszczenia,
standaryzacja danych – parsowanie, poprawienie i standaryzacja danych, możliwość wykorzystania słownika, narzędzi informatycznych
dopasowanie – identyfikacja duplikatów,
agregacja danych – usunięcie duplikatów

42
Q

Zastosowanie systemów BI

A

Modelowaniu różnych wariantów rozwoju firmy, informowaniu o realizacji strategii, identyfikacji problemów i „wąskich gardeł” w ich rozwiązywaniu, dostarczaniu informacji o otoczeniu i trendach na rynku
Poprawie relacji z klientami, a w szczególności dostarczaniu przedstawicielom handlowym odpowiedniej wiedzy o klientach tak, aby szybko mogli reagować na ich potrzeby, śledzeniu poziomu satysfakcji klientów i skuteczności praktyk biznesowych oraz wychwytywaniu trendów na rynku.
Analizie zyskowności produktów i usług, przejawiających się między innymi w dostarczaniu analiz „najlepszych” i „najgorszych” produktów, pracowników, regionów (pod kątem sprzedaży, kosztów, wyników)
Analizie procesów wewnętrznych i sprawności operacyjnej organizacji, polegającej na dostarczaniu wiedzy i doświadczeń powstałych przy projektowaniu oraz wprowadzaniu produktów na rynek, wymianie pomiędzy zespołami projektowymi oraz działaniami firmy.
Controllingu i rachunkowości zarządczej, a zwłaszcza w analizie rzeczywistych kosztów i przepływów finansowych

43
Q

Jakie są metody liczenia odległości między skupieniami?

A

Metoda pojedynczego połączenia – zwana również metodą najbliższego sąsiedztwa. Oparta jest na minimalnej odległości pomiędzy dowolnym punktem z grupy A i dowolnym punktem z grupy B. Innymi słowy, o połączeniu danych grup decyduje najbliższe sąsiedztwo dwóch grup. Powoduje to często tworzenie długich i cienkich grup
Metoda całkowitego połączenia – zwana metodą najdalszego sąsiedztwa. Odległość między grupami jest zdefiniowana jako odległość między dwoma najbardziej oddalonymi, po jednym z każdej grupy. Ta metoda prowadzi do tworzenia kulistych, zwartych grup.
Metoda średniego połączenia – stworzona by ograniczyć wpływ wartości ekstremalnych. Odległość to średnia odległość wszystkich punktów grupy A do wszystkich punktów z gr. B.
Metoda Warda – odległość między klasami definiuje się jako moduł różnicy między sumami kwadratów odległości punktów od środków grup, do których te punkty należą. Stosując metodę Warda, uzyskuje się mało liczne klasy, o podobnej liczbie obiektów. Ponieważ pojedyncze obiekty łączone są we wstępnych etapach grupowania, zazwyczaj nie występują grupy jednoelementowe.

44
Q
  1. reguła propagacji wstecznej - siec neuronowa
A

oAlgorytm propagacji wstecznej na podstawie błędu dla danego rekordu oblicza sygnały błędu od warstwy wyjściowej do wejściowej i przypisuje je poszczególnym połączeniom. Wagi tych połączeń są następnie, w celu zmniejszania błędu, dopasowywane według reguły największego spadku.
wi,j,nowe = wi,j,obecne + Δwi,j

gdzie Δwi,j = ŋßjxi,j
Nieznane pozostaje w tym momencie tylko ß – jest to tzw. sygnał błędu, czyli udział w wielkości błędu neuronu j. Sygnał ten jest obliczany za pomocą pochodnej cząstkowej funkcji sigmoidalnej ze względu na netj i przybiera dwie postacie, w zależności od tego, czy mamy do czynienia z węzłem wyjściowym czy z węzłem w warstwie ukrytej.
ßj =wyjściej(1-wyjściej)(oczekiwanaj – wyjściej) (neurony wyjściowe)

ßj =wyjściej (1- wyjściej) Σdalsze neuronywjkßj (neurony ukryte)

Σdalsze neuronywjkßj – odwołuje się do ważonych sum sygnałów błędów neuronów z następnych warstw.

45
Q
  1. przeuczenie się sieci, jak wykryć, jak zapobiegać
A

Sieci neuronowe (jak wiele innych metod uczenia nadzorowanego) są podatne na tzw. przeuczenie, czyli bardzo dobrze dopasowują się do danych ze zbioru uczącego, ale na testującym wyniki są już znacznie gorsze

46
Q
  1. co to jest i jakie ma znaczenie w procesie uczenia się składnik momentu
A

Niestety sieci nie gwarantują znalezienia globalnego minimum SSE, dlatego też należy przeprowadzić dane obliczenia wiele razy i porównać wyniki (różne wartości początkowe wag).
Pomóc może również dodanie składnika momentu.
oDo algorytmu propagacji wstecznej można dodać jeszcze składnik momentu α, który przyjmuje postać:
Δwobecne = -ŋ(δSSE/δwobecne) + αΔwpoprzednie
ogdzie Δwpoprzednie jest poprzednim krokiem uczenia a α jest z przedziału [0,1]
omożna więc powiedzieć, że α reprezentuje część poprzedniego kroku uczenia dla danej wagi
oDuże wartości α będą wpływać na obliczenia tak, że będą dodawać dużą wartość poprzedniego kroku w tym samym kierunku, co poprzednia zmiana.
oSkładnik momentu pozwala wytłumić oscylacje wokół optymalnego punktu, przez hamowanie ruchu punktu przy zmianie kierunku. Pomaga on też w pierwszych fazach działania algorytmu, ponieważ powoduje szybsze zmiany w kierunku optymalnej wagi.
oNiestety przy działaniu składnika momentu pojawiają się te same problemy, co przy poprzednich współczynnikach. Duża wartość α może spowodować „przeskakiwanie” przez minimum globalne.

47
Q
  1. co to jest k-krotna walidacja krzyżowa
A

polega na podziale w losowy sposób zbioru przykładów na k równolicznych podzbiorów, a następnie używanie każdego z tych podzbiorów jako zbioru testującego dla hipotezy uzyskanej na podstawie zbioru trenującego, będącego sumą pozostałych k-1 podzbiorów. Otrzymane za każdym razem błędy klasyfikacji uśrednia się. Np testujesz 3 na 1 ( jak podzielił es na 4)

48
Q
  1. co to jest okienkowanie
A

Okienkowanie – uczenie na podstawie początkowo małych i w miarę potrzeby rosnących podzbiorów zbioru trenującego, nazywanych zbiorami roboczymi.
Pomysł polega na tym, żeby wybrać stosunkowo niewielki losowy podzbiór całego zbioru trenującego i uczeniu się na podstawie tak otrzymanego zbioru roboczego. Uzyskana hipoteza jest następnie testowana na pozostałych przykładach trenujących, a zbiór roboczy jest uzupełniany o niektóre (również losowo wybrane) spośród tych, które są przez nią klasyfikowane niepoprawnie.
Dla nowego zbioru roboczego wykorzystywany algorytm uczenia się ponownie generuje hipotezę i cały proces powtarza się tak długo, jak długo kolejna hipoteza jest lepsza od poprzedniej ze względu na błąd próbki na zbiorze trenującym (lub dopóki błąd nie spadnie poniżej pewnego poziomu).

49
Q
  1. jakie są kryteria oceny algorytmu klasyfikującego
A
Dokładność
Efektywność
Skalowalność
Odporność
Kryteria dziedzinowe
Interpretowalnosc ?
50
Q
  1. czym się różni głosowanie proste od ważonego w algorytmie k-sąsiadów
A

Procedura głosowania prostego wygląda następująco:
* ustal wartość k, czyli ilu najbliższych sąsiadów będzie branych pod uwagę
* wybierz k najbliższych sąsiadów stosując wybraną miarę odległości
* w następnym kroku nie ma już znaczenia odległość – liczy się tylko liczba przedstawicieli danej klasy – nowy rekord zostaje oczywiście przydzielony do klasy, która najliczniej jest reprezentowana w otoczeniu danego punktu
w sytuacji remisowej dodajemy następnego sąsiada, czyli zamiast metody
k-najbliższych sąsiadów, tworzymy metodę k+1 najbliższych sąsiadów; jeśli nadal jest remis, to postępujemy podobnie, aż uda się rozstrzygnąć
- wybieramy klasę, do której należy najbliższy sąsiad klasyfikowanej obserwacji, czyli w rzeczywistości stosujemy zasadę 1 najbliższego sąsiada
Można uznać, że nie powinna się liczyć wyłącznie liczba punktów należących do danej kategorii ale ich bliskość wobec analizowanego, nowego punktu
Stosuje się wtedy głosowanie ważone, gdzie wpływ danych punktów na klasyfikację jest odwrotnie proporcjonalny do odległości od rozpatrywanego punktu
Jeśli jest więcej reprezentantów danej klasy to ich głos ważony jest równy ich sumie przydzielonych im wartości
W tej metodzie zdecydowanie rzadziej dochodzi do sytuacji remisowe

51
Q
  1. co trzeba wziąć pod uwagę przy korzystaniu z algorytmu k-sąsiadów
A

jak mierzymy odległość?
jak mamy łączyć informacje uzyskane z więcej niż jednej obserwacji?
czy wszystkie punkty powinny mieć taką samą wagę, czy może niektóre punkty powinny mieć większy wpływ niż inne?
ilu sąsiadów powinniśmy rozważać? Ile wynosi k?

52
Q
  1. możliwe działania w przypadku remisu w głosowaniu prostym
A

w sytuacji remisowej dodajemy następnego sąsiada, czyli zamiast metody
k-najbliższych sąsiadów, tworzymy metodę k+1 najbliższych sąsiadów; jeśli nadal jest remis, to postępujemy podobnie, aż uda się rozstrzygnąć
- wybieramy klasę, do której należy najbliższy sąsiad klasyfikowanej obserwacji, czyli w rzeczywistości stosujemy zasadę 1 najbliższego sąsiada

53
Q
  1. jakie są zalety korzystania z drzew decyzyjnych
A

nCechuje się prostotą i czytelnością wyników
nIstnieje możliwość reprezentowania dowolnych hipotez dla danego zbioru atrybutów
nBezproblemowy sposób wykorzystania zarówno cech ilościowych jak i jakościowych
nDość duża efektywność pamięciowa i czasowa
nDuża odporność na punkty oddalone

54
Q
  1. co to jest liść, jak interpretować dane
A

W drzewie decyzyjnym występują liście, węzły i gałęzie; z liścia nie wychodzą gałęzie, jest to pole końcowe, oznacza, że nie już możemy dokonać podziału. I spytał dlaczego. Trzeba powiedzieć, że albo sami ustalamy warunek stopu (określamy ilość elementów) albo w wyniku naszych podziałów liść jest jednorodny i wtedy też nie można dalej dzielić.

55
Q
  1. na czym polega test tożsamościowy
A

Dla atrybutów nominalnych o skończonej liczbie wartości stosuje się najbardziej podstawowy rodzaj testów, polegający na sprawdzeniu wartości atrybutu. Wynikiem testu jest po prostu wartość odpowiedniego atrybutu. Testy tego rodzaju są w związku z tym nazywane testami tożsamościowymi.

56
Q
  1. na czym polega test przynależności
A

Test dla atrybutów nominalnych
Uogólnieniem testów równościowych są testy przynależnościowe:
t(x) = 1 jeśli a(x) należy do V
t(x)= 0 jeśli a(x) nie należy do V
gdzie V jest pewnym podzbiorem przeciwdziedziny atrybutu a

57
Q
  1. na czym polega przycinanie drzewa
A

Zbudowane drzewo zazwyczaj nie jest od razu optymalnej wielkości. Aby taką wielkość osiągnąć, stosuje się procedurę przycinania.
Jeżeli przykładowo drzewo składające się z dziesięciu węzłów prawidłowo klasyfikuje 92% obiektów, a wyeliminowanie jednego węzła zmniejsza trafność wnioskowania do 90%, to najczęściej warto to drzewo zmniejszyć.
W tym momencie pojawia się problem kosztów, obecny w całym procesie budowy i wykorzystania drzew. Koszty błędnego zakwalifikowania obiektu powinny być brane pod uwagę w procesie doboru zmiennych diagnostycznych, ustalania zasad podziału, zatrzymywania budowy drzewa, a także jego przycinania.
Z drugiej strony, nadmierne dopasowanie drzewa do próby uczącej (tzw. przeuczenie lub przetrenowanie) również nie jest efektem pożądanym, gdyż oznacza w praktyce nie najlepsze dopasowanie do próby testowej, czy ogólniej, do przyszłego zadania klasyfikowania nowych obserwacji.
Właściwie tylko w sytuacjach deterministycznych, bez losowości ukrytej w danych, ma sens budowanie drzewa decyzyjnego jak najdoskonalej klasyfikującego elementy próby uczącej
Niekiedy występuje jeszcze problem wyboru drzewa ostatecznego spośród kilku o bardzo podobnych własnościach (np. o podobnym błędzie klasyfikacji).

58
Q
  1. na czym polega algorytm baggingu
A

Jeśli dane drzewo klasyfikacyjne ma stosunkowy duży błąd klasyfikacji, to można poprawić wyniki stosując odpowiednio dużą liczbę niezależnych drzew decyzyjnych
Wraz ze zwiększeniem liczby drzew prawdopodobieństwo prawidłowej klasyfikacji rośnie
W 1996 Breiman zaproponował rodzinę klasyfikatorów opartych na agregacji bootstrapowej (ang. bootstrap aggregating) - bagging
nDziałanie algorytmu bagging polega na wygenerowaniu C drzew decyzyjnych utworzonych z oryginalnej n-elementowej próby uczącej
nWymaga to utworzenia C prób uczących o liczebności takiej samej jak oryginalna
nWszystkie próby powstają tak samo, czyli poprzez losowanie ze zwracaniem z próby oryginalnej
nC drzew jest trenowanych na C kolejnych n-elementowych próbach. Nie zaleca się tutaj przycinania drzew – często buduje się je aż do momentu otrzymania w danym liściu elementów z jednej klasop
nMając C drzew i chcąc zaklasyfikować nową obserwację, sprawdza się jak zostanie ona zaklasyfikowana przez każde drzewo i ostatecznie ją do tej klasy, która została wskazana najczęściej

59
Q
  1. na czym polega algorytm boostingu
A

Metoda boosting jest odmianą metody bagging
Początek działania algorytmu jest taki sam,
tzn. losowana jest ze zwracaniem próbka z próby oryginalnej, ale po każdym takim losowaniu tworzone jest drzewo i sprawdza się jego dokładność
nJuż od drugiego kroku algorytm boosting różni się znacznie od bagging, mianowicie zmienia się prawdopodobieństwo wylosowania danego elementu z próby. Jeśli dany element został wylosowany w poprzednim kroku i został źle zaklasyfikowany, to rośnie jego prawdopodobieństwo wylosowania o pewną stałą, równą dla wszystkich takich elementów w danym kroku

60
Q
  1. na czym polegają lasy losowe
A

Algorytm tworzenia lasu losowego jest bardzo prosty:
nPodobnie jak w przypadku baggingu losuje się n-elementowe próby z próby uczącej
nW każdym węźle budowanego drzewa podział podpróby odbywa się tak, że losuje się m spośród p atrybutów (losowanie bez zwracania) i stosowana jest dana reguła podziału do wylosowanych m atrybutów
nNie występuje tutaj przycinanie i jeśli to możliwe, to wskazane jest budowanie drzewa tak, by w liściach były elementy tylko jednej klasy
nKlasyfikacja odbywa się tak samo jak w przypadku baggingu, czyli dany element jest zaklasyfikowany do tej klasy, która osiągnęła zwykłą większość głosów
nTrzeba tylko ustalić liczbę m – dobre wyniki osiąga się przy m =pierwiastek z p
nBiorąc pod uwagę sposób „eliminacji” atrybutów, metoda ta świetnie nadaje się do danych, które są określone za pomocą bardzo dużej liczby atrybutów