Explorasi Data (Kualitas dan Pola Sebaran Data) Flashcards
- Eksplorasi data adalah
- Eksplorasi data dilakukan untuk
- Eksplorasi data dilakukan dengan
- Penyajian data dalam bentuk tabel dan angka memang cukup bagus, tetapi
- Komunikasi informasi tersebut akan jauh lebih mudah dalam bentuk
- langkah awal sebelum analisis data dilakukan.
- lebih memahami karakteristik dari data.
- memvisualisasikan data.
- akan sulit untuk
memahami tren dan polanya. - grafik, chart, atau format
visual lainnya.
Siapa yang mengembangkan
metode deskriptif baru, dengan judul Exploratory Data Analysis (EDA)
John Tukey 1960-an
> Melihat ukuran penyebaran dan ukuran pemusatan
data.
Melihat adanya data pencilan.
Sebagai alat pembandingan sebaran dua kelompok
data atau lebih.
Boxplot
LANGKAH TEKNIS 1
* Hitung
1. Statistik lima serangkai :
2. Pagar Dalam Atas (PDA) :
3. Pagar Dalam Bawah (PDB) :
- Min, Q1, Q2, Q3, Max
- Q3 + 1.5(Q3-Q1) = Q3 + 1.5(IQR)
- Q1 - 1.5(Q3-Q1) = Q1 - 1.5(IQR)
LANGKAH TEKNIS 3
* Gambar
1. Kotak dengan batas
2. Jika Tidak ada Pencilan, maka
3. Jika ada Pencilan, maka
4. Pencilan digambarkan dengan
- Q1 dan Q3
- Tarik garis dari Q1 sampai data terkecil dan tarik garis dari Q3 sampai data terbesar
- Tarik garis Q1 dan atau Q3
sampai data sebelum pencilan - asterik
LANGKAH TEKNIS 2
* Identifikasi data
Jika data < PDB atau data > PDA maka data dikatakan memiliki
Pencilan
Melihat ukuran penyebaran dan
ukuran pemusatan data
Melihat adanya data outlier
Mendeteksi ada bimodus/tidak
Histogram
> grafik yang menggunakan titik
untuk mewakili nilai dua peubah numerik yang
berbeda.
Posisi setiap titik pada sumbu horizontal dan vertikal
menunjukkan nilai untuk satu titik data.
biasanya digunakan untuk mengamati hubungan antar variabel.
Scatter plot
- Nilai ekstrem (atau dikenal sebagai ‘pencilan’ (outlier))
adalah - Nilai-nilai ekstrim tersebut akan memengaruhi
- Bagaimana cara mendeteksi nilai ekstrem menggunakan
eksplorasi data?
- titik data yang tersebar di ekor distribusi suatu data
- analisis statistik
- Boxplot, Histogram, Scatter Plot
- Pencilan harus diselidiki dengan
- Seringkali pencilan berisi
- Sebelum mempertimbangkan kemungkinan penghapusan pencilan dari data, terlebih dahulu
harus dicoba untuk - Pencilan dapat terdiri dari dua jenis:
- hati-hati.
- informasi berharga tentang proses yang sedang diselidiki atau proses pengumpulan dan pencatatan data.
- dipahami mengapa pencilan
tersebut muncul dan apakah kemungkinan nilai serupa akan terus muncul. - Univariat dan Multivariat