MAS 4. Flashcards
Modelovanie vstupných dát
Model vstupných dát
Modelujeme dáta v modelovanom systéme, ktoré
vstupujú do simulačného modelu
- Od kvality modelovania vstupných konkrétnych dát
závisia výsledky modelu
Vstupné dáta
Spôsoby modelovania vstupnej veličiny
- Spôsoby modelovania vstupnej veličiny:
* Deterministicky
- Niektoré veličiny sú deterministické
(počet operátorov)
- Pozor na modelovanie stochastických
veličín deterministicky (príchod
zákazníkov do banky)
* Stochasticky
- Stochastické veličiny sú veľmi časté (čas
obsluhy, príchod zákazníkov, časy medzi
poruchami)
-Náhodná premenná (využitie rozdelenia
pravdepodobnosti)
f
Tvorba modelu vstupných dát
- Získanie dát z modelovaného systému
- Výber vhodného spôsobu modelovania dát
- Vytvorenie modelu dát
- Overenie vytvoreného modelu dát
Zber dát
- Najnáročnejšia časť modelovania vstupných dát
- Ako získať dáta:
- Zber dát priamo za účelom tvorby simulačného
modelu - výhodnejšie - Využitie existujúcich (už zozbieraných dát) –
lacnejšie
Priamy zber dát
- Plánovanie
- Zozbierajte 100-200 pozorovaní (vzoriek)
- Zachovajte dostatočnú presnosť
- Zozbierajte vzorky z rôznych častí dňa, týždňa - ak
je predpoklad variability - Testujte nezávislosť vzoriek dát - korelácia
- Spájajte homogénne vzorky dát (vhodné otestovať -
Kruskalov-Wallisov test)
Využitie existujúcich dát
- Dáta nemusia byť usporiadané podľa poradia zberu
- Dáta môžu byť združené do skupín
- Dáta nemusia mať požadovanú presnosť
- Môžu byť obsiahnuté chybné dáta
- Dáta môžu obsahovať viac združených veličín
(doba opravy stroja závisí od druhu práce - oprava,
údržba)
Použitie dát
Priame využitie dát v simulácií
- Dáta reprezentujú minulosť systému, môžu byť
odhadom jeho budúcnosti (pri zachovaní rovnakých
podmienok) - Vyskytujú sa len namerané hodnoty
- Nedostatok dát na dlhšie behy
- Môže byť pomalé - načítavanie veľkého množstva
dát - Vhodné pre validáciu modelu
Empirické rozdelenie pravdepodobnosti
Diskrétne - len namerané hodnoty
- Spojité - aproximácia
- Vhodné ak nie je možné nájsť teoretické rozdelenie
pravdepodobnosti
- Sú ohraničené (len nameraný rozsah hodnôt)
- Kvalita je úplne závislá od kvality vzoriek
- Nepresné pri malom množstve dát
Štatistické (teoretické) rozdelenie
pravdepodobnosti
- Diskrétne, spojité
- Vyhladenie nameraných vzoriek
- Poskytuje aj hodnoty mimo nameraného rozsahu
- Možnosť jednoducho meniť parametre - stredná
doba medzi príchodmi - Kompaktnejšie ako empirické rozdelenie -
nepotrebujeme evidovať tabuľky - Nie vždy sa dá nájsť vhodné rozdelenie
Tvorba modelu s využitím
teoretického rozdelenia
pravdepodobnosti
(Kroky)
- Kroky:
1. Test nezávislosti dát
2. Výber vhodného rozdelenia
3. Zistenie parametrov
4. Testovanie zvoleného rozdelenia
Test nezávislosti
Mnohé štatistické metódy (napr. chi-kvadrat test)
predpokladajú, že dáta sú nezávislé a rovnako
rozdelené (pochádzajú z rovnakého rozdelenia) –
IID (Independent & Identically Distributed)
Je potrebné testovať, napr.
* Scatter plot
- X-ová súradnica = hodnota x_i
- Y-ová súradnica = hodnota x_i+1
Ak sa body ukladajú po diagonále - dáta
sú závislé
Výber vhodného rozdelenia
- Vyberáme na základe:
- Teoretických znalostí - napr. príchod
zákazníkov je Poissonov proces - Číselných charakteristík - napr. koeficient
rozptylu, šikmosť, špicatosť - Rozsahu hodnôt (ohraničenie) - napr. doba
obsluhy nadobúda iba kladné hodnoty - Eyeballing (od oka) - na základe histogramu
Zistenie parametrov rozdelenia
- Štatistické metódy odhadov parametrov
- Odhady strednej hodnoty a rozptylu vzorky
- Metóda momentov
- Metóda maximálnej vierohodnosti
- Využitie špecializovaného softvéru
Nedostatok dát
- Ak dáta nie sú k dispozícií:
- Snažím sa to odhadnúť
- Využitie existujúceho modelu podobného
procesu - Typ procesu: napr. na príchod zákazníkov dám
Poissonove RP - Názory expertov: napr. ak poznám min a max
=> rovnomerné, ak poznám aj modus =>
trojuholníkové, ak poznám aj strednú hodnotu
=> beta - Môžem urobiť len tam, kde dáta nie sú citlivé
- Analýza citlivosti - ak malé zmeny vstupov
spôsobia veľké zmeny výsledku => dáta sú veľmi
citlivé
Multimodálne procesy
- Rozdelím na viacero častí, ktoré analyzujem
samostatne - Viem aký podiel je v jednotlivých častiach - ak
generujem, tak najprv určím o aký typ ide a až
potom generujem z rozdelenia - Multimodálne - “viac modusov”
- Telefonické hovory - rôzne povahy volajúcich