Midterm Test ADS Flashcards
Apa itu data science?
Soal Quiz
Ilmu yang mempelajari data terutama yang sifatnya kuantitatif. Dapat juga berarti Proses penggalian data atau Proses untuk memproduksi pengetahuan data (data insight)
Apa itu Data Insight?
Soal Quiz
Sebuah simpulan yang dapat memberikan rekomendasi atau prediksi untuk kebutuhan tertentu
Apa peran seorang Data Scientist?
Soal Quiz
- Melakukan Pengolahan data sehingga menghasilkan pengetahuan
- Melakukan Mining Data dengan mekestraknya hingga menemukan data akurat
- Mengidentifikasi permasalahan, Mengumpulkan data dari berbagai sumber, mengatur informasi, dan menerjemahkan hasi menjadi solusi
Berapa tahap yang ada dalam proses data science untuk menghasilkan produk data yang benar?
Soal Quiz
3 yakni desain data, pengumpulan data, dan analisis data
Apa yang dimaksud dengan transformasi digital dalam konteks data science?
Soal Quiz
Pergerakan yang mengisyaratkan betapa bernilainya data bagi sebuah langkah strategis bisnis (Data is a new currency
Cabang ilmu kecerdasan buatan (Artificial Intelligence) yang mempelajari bagaimana dapat memberikan kemampuan belajar pada sebuah mesin dengan menggunakan algoritma tertentu merupakan pengertian dari
Machine Learning
Traditional Software merupakan cabang ilmu yang dihasilkan dari irisan cabang ilmu …
Komputer dengan Subject Matter Expertise (SME)
Apa yang dimaksud dengan Subject Matter Expertise (SME)?
Pengetahuan yang digunakan untuk mengembangkan sistem yg dapat membantu proses bisnis pada sebuah instansi.
Cabang ilmu yg diperoleh dari irisan ilmu matematika dan statistika dengan SME adalah
Traditional Research
Sebutkan Pengaplikasian data science dalam industri
- Analisis foto medis
- Deteksi penipuan di sektor keuangan
- Penetapan harga yg dinamis
- Merekrut bintang muda potensial
Apa itu data mining?
proses memilah-milah kumpulan data besar untuk mengidentifikasi pola dan hubungan yg dapat membantu memecahkan masalah bisnis melalui analisis data
Apa tujuan utama machine learning?
Untuk membuat model yang dapat membuat prediksi atau klasifikasi yang akurat
Memahami lebih jauh data yg diamati dan mengetahui karakteristik dari data yg dimaksud merupakan fungsi data mining yakni…
Descriptive
Menemukan pola tertentu dari suatu data yg digunakan untuk memprediksi variabel lain yg blm diketahui nilai atau jenisnya merupakan fungsi data mining yakni?
Predictive
CRISP-DM merupakan singkatan dari
Cross-Industry Standard Process for Data Mining
Sebutkan tahapan CRISP-DM!
- Business Understanding
- Data Understanding
- Data Preparation
- Modeling
- Evaluation
- Deployment
Apa yang dimaksud dengan mean?
Soal Quiz
Nilai yang didapatkan dari penjumlahan seluruh data yang dibagi dengan jumlah data tersebut atau
rata-rata
Apa yang dimaksud dengan median?
Soal Quiz
Nilai tengah dalam suatu rangkaian data
Apa yang dimaksud dengan range?
Soal Quiz
Selisih antara nilai maksimum dan minimum dalam kumpulan data
Apa yang dimaksud dengan mode?
Soal Quiz
Nilai yang paling sering muncul dalam kumpulan data
Apa yang dimaksud dengan variance?
Soal Quiz
Rata-rata dari kuadrat selisih setiap nilai data dan mean
Apa yg dimaksud Standard Deviation?
Simpangan Baku atau akar kuadrat dari varians
Statistika adalah…
Ilmu yg mempelajari data dan peluang
Statistik Inferensial digunakan untuk…
membuat kesimpulan atau prediksi dari data
Apa kegunaan dari Distribusi Probabilitas?
Untuk menghitung probabilitas peluang atau teknik pengurangan dimensi, over and under sampling, hingga teknik bayesian statistik
Konsep yg menjelaskan penggunaan probabilitas untuk memodelkan proses pengambilan sample dan mengontrol situasi tidak pasti sebelum proses pengumpulan data dilakukan merupakan pengertian dari?
Konsep Bayesian
Distribusi yang digunakan untuk menggambarkan variabel acak yg berkelanjutan adalah
Distribusi Probabilitas kumulatif atau normal
Distribusi probabilitas binomial atau diskrit adalah
distribusi yang digunakan untuk menggambarkan variabel acak yg diskrit
Metode matematika yg memungkinkan ilmuwan data untuk memprediksi hasil kontinu (y) berdasarkan nilai satu atau lebih variabel prediktor (x) adalah
Regresi
Apa perbedaan regresi linier dan non-linier?
Regresi linier mengacu pada satu variabel independet untuk membuat prediksi sedangkan Regresi non-linier mengacu pada dua atau lebih variabel independent
Fungsi Matriks dalam data science adalah
- Penyimpanan data
- Operasi Matriks
- Transformasi data
- Analisis data
- Evaluasi model
Apa itu dataframe?
struktur data 2 dimensi yg berbentuk tubular, terdiri dari baris dan kolom
Apa perbedaan Matriks dan Dataframe?
Setiap elemen pada matriks memiliki tipe data yg sama biasanya numerik, sedangkan setiap kolom pada dataframe dapat memiliki tipe data yg berbeda seperti angka, string, dll.
Bagaimana cara mengubah tipe data pada dataframe di Python?
Soal Quiz
Menggunakan fungsi astype()
Bagaimana cara merubah nama kolom pada dataframe di Python?
Soal Quiz
Menggunakan metode rename()
Bagaimana cara menghapus baris pada dataframe di Python?
Soal Quiz
Menggunakan fungsi drop()
Bagaimana cara melakukan manipulasi data seperti mengurutkan, memilih, dan menghapus nilai-nilai
duplikat pada dataframe di Python?
Soal Quiz
Menggunakan atribut columns
Bagaimana cara mentransfer nilai data ke dataframe di Python?
Soal Quiz
Menggunakan fungsi atau mapping
Bagaimana cara mengganti nilai yg hilang pada dataframe di python?
Menggunakan fungsi fillna()
Bagaimana cara mengelompokkan data kedalam interval tertentu pada dataframe di python?
Menggunakan metode cut()
Apa pengertian hipotesis menurut KBBI
sesuatu yg dianggap benar untuk alasan atau pengutaraan pendapat meskipun kebenarannya masih harus dibuktikan
Pengujian hipotesis dalam penelitian digunakan dalam situasi apa saja?
- Menguji kebenaran teori
- Memberikan gagasan baru untuk mengembangkan suatu teori
- Memperluas pengetahuan penelitian mengenai suatu gejala yg sedang dipelajari
- menguji dugaan penelitian
- menyusun problem statement
Representasi data, pemilihan dan pelatihan model, evaluasi model, pemahaman data, mengurangi kesalahan, dan menciptakan konsistensi merupakan fungsi dari
Model
Optimasi dalam data science adalah
Proses mencari nilai terbaik dari fungsi tujuan dalam suatu himpunan yg diizinkan
Sebutkan penerapan optimasi dalam data science!
Pembelajaran mesin, pemilihan model, penyusunan parameter, pengurangan dimensi, dan jaringan saraf tiruan
Bagaimana deep learning digunakan dalam pembelajaran mesin?
Soal Quiz
Digunakan untuk menyesuaikan model dengan data pelatihan.
Apa yang dimaksud dengan Volume dalam konteks Big Data?
Soal Quiz
Merujuk pada jumlah data yang sangat besar
Apa yang diatur dalam Pasal 27 Ayat (3) UU ITE?
Soal Quiz
Penyebaran informasi yang melanggar kesusilaan
Berapakah hukuman maksimal yang dapat diberikan kepada seseorang yang menyebarkan informasi elektronik bermuatan asusila menurut Pasal 45 Ayat (1)?
Soal Quiz
Denda Rp 1 miliar dan penjara enam tahun
Apa yang diatur dalam Pasal 45 Ayat (2) UU ITE?
Soal Quiz
Penyebaran berita bohong atau hoax kepada masyarakat
Deep learning disebut juga dengan
Deep neural learning atau deep network learning
Algoritma yg digunakan untuk meniru cara kerja otak manusia adalah
Algoritma jaringan syaraf atau artificial neural network dan turuannya
Apa pengertian dari big data?
Kumpulan data yg sangat besar, kompleks dan terus bertambah setiap waktu
Ada berapa karakteristik utama big data?
5V, yakni Volume, Velocity (kecepatan), Variety (variasi), Value (nilai), dan Veracity (keakuratan)
Jenis big data dimana data terstruktur dengan bak dan terdefinisikan adalah
Data terstruktur (Structured data)
Apa yg dimaksud dengan semi structured data?
data yg terstruktur namun tidak lengkap dan tidak memenuhi syarat data yg terstruktur
Apa jenis big data yg sulit ditangani, dipahami, dan dianalisis?
Unstructured data
Apa contoh unstructured data?
Data komentar, twit di twitter, postingan dan like
Sebutkan teknologi penyimpanan yg umum digunakan untuk big data!
Hadoop, cloud, dan NoSQL
Apa yg dimaksud etika akuntabilitas dalam data science
perusahaan bertanggung jawab penuh atas semua kerugian yg terjadi atas data yg dikumpulkan
Apas aja etika dalam data science?
Privasi, bias, transparansi, akuntabilitas, kenetralan, keadilan, kejujuran
Salah satu etika dalam data science adalah kejujuran yg berarti bebas dari DF2P dalam publikasi. Apa itu DF2P?
Duplikasi, Fabrikasi, Falsifikasi, Plagiarisme
Apa uu yg mengatur tentang pemberian hak kepada subjek data pribadi untuk mengakhiri pemrosesan, menghapus dan/atau memusnahkan data pribadi tentang dirinya sesuai dengan ketentuan peraturan perundang-undangan?
UU No.27 Tahun 2022 Pasal 8
UU No.27 Tahun 2022 Pasal 20 mengatur tentang
Setiap orang wajib memiliki dasar pemrosesan data pribadi
Apa UU yg mengatur tentang pencemaran nama baik melalui media elektronik?
Pasal 27 ayat (4) UU ITE
Sebutkan protokol AI
Pengidetifikasian konten AI, Kerangka kerja tata kelola, pengaturan privasi, pengaturan keamanan, pengaturan kepatuhan, pengaturan transparansi dan akuntabilitas
Apa saja cakupan kerangka kerja tata kelola pada protokol AI
Standar teknis, pedoman etus, dan prosedur penanganan data
- Perlindungan HAM dan martabar
- Kerangka kerja aksi kebijakan
- Proporsionalitas dan tidak menyakiti
- keamanan dan keselamatan
- keadilan dan non-diskriminasi
- keberlanjutan
- hak privasi dan perlindungan data
- pengawasan manusia dan penentuan
- Transparansi dan penjelasan
Merupakan etika kecerdasan AI menurut
UNESCO
Sebutkan 3 laws of robotics
- tidak boleh melukai manusia atau membiarkan manusia dalam bahaya
- mematuhi perintah manusia selama tidak bertentangan dengan hukum pertama
- melindungi eksistensinya sendiri selama tidak bertentangan dengan hukup pertama atau kedua
Apa bahasa pemrograman yg sangat popular dikalangan data scientist
Python
Apa bahasa pemrograman yg khusus dirancang untuk statistik dan visualisasi data
R
Bahasa pemrograman Julia adalah
bahasa baru yg dirancang khusus untuk komputasi numerik dan data science
Apa kelebihan dari Python?
- sintaks bersih dan mudah dibaca
- library luas
- komunitas besar
- fleksibilitas
Apa library python yg digunakan untuk manipulasi dataframe
pandas
Apa library python yg digunakan untuk manipulasi array
NumPy
Data primer adalah
Data yg dikumpulkan langsung oleh analis utnutk tujuan spesifik proyek
Kapan biasanya dilakukan pengumpulan data primer?
Ketika data yg ada tidak memadai, tidak relevan, atau tidak tersedia untuk kebutuhan penelitian khusus tersebut
Apa saja metode pengumpulan data primer?
survei dan kuisioner, wawancara, dan observasi
Data yg sudah dikumpulkan dan diproses oleh pihak lain dan tidak dikhususkan untuk analisis saat ini disebut
Data sekunder
Apa saja keuntungan dari data sekunder?
- Hemat waktu dan biaya
- Akses ke data set yg luas
- Studi longitudinal (jangka panjang)
Apa saja keterbatasan data sekunder?
- relevansi dan ketepatan
- Kualitas dan konsistensi
- keterbatasan akses
Contoh web untuk mencari data set public adalah
Kaggle, UCI Machine learning repository, dan Satu Data Indonesia
Langkah CRISP-DM untuk menentukan tujuan bisnis, menilai situasi saat ini, menetapkan tujuan penambangan data dan mengembangkan rencana proyek adalah
Business Understanding
Apa saja tahapan yg digunakan pada tahap Data Preparation
- Check duplikasi data
- Perhitungan nilai
- Pengurangan data
- Menambahkan kolom data baru
- Split data
- Pembersihan data
Untuk memahami tipe data dan informasi tentang data pada python gunakan
perintah .info()
.nunique() pada python digunakan untuk
memeriksa duplikasi data
isnull() pada python digunakan untuk
mengetahui baris yg tidak memiliki nilai
Perintah apa yg digunakan untuk mendapatkan jumlah record yg hilang di setiap kolom pda python
data.isnull().sum()
Suatu pendekatan yg digunakan dalam analisis data untuk mengoptimalkan pengetahuan ke dalam datasetm menemukan struktur dasar dataset, mengekstrak variabel penting, mendeteksi outlier dan anomaly, menguji asumsi yg menjadi dasar dataset, mengembangkan model pasimonius, dan menentukan pengaturan faktor yg normal disebut
Analisis Data Eksplorasi
Analisis Data Eksplorasi dikembangkan oleh ahli statistik bernama
John Tukey
Apa output ringkasan statistik untuk data object?
Count, unique, top, freq
count, mean, standard devation, min, max, 25 percentile,50 percentile, dan 75 percentile merupakan output ringkasan statistik untuk data
Numerik
Apa perintah yg digunakan untuk menghitung ringkasan statistik pada python?
.describe()
Perintah .describe(include=’all’).T digunakan untuk…
Menampilkan semua data termasuk object pada ringkasan statistik
Untuk mengetahui tipe dari masing masing variabel pada ringkasan statistik digunakan perintah
.dtypes
Library Matplotlib dibuat oleh
John D.Hunter
Library python untuk menggambar plot 2D dengan kualitas tinggi adalah
Matplotlib
library python yg ditambahkan agar tampilan chart lebih modern adalah
Seaborn
Library seaborn pertama kali diperkenalkan oleh
Michael Askom
Variabel Kategorikal pada ADE divisualisasikan dengan
Count plot, barchart, dan pie plot
Variabel numerik pada ADE divisualisasikan dengan
Histogram, box plot, dan Density plot
Kapan sejarah data science dimulai?
1962
Tahun 1962 John Tukey menulis “The Future of Data Analysis” yg menggambarkan tentang….
Pergeseran dalam dunia statistik
Kapan dan oleh siapa Buku “The Concise survey of Computer Methods” diterbitkan?
1974, oleh Peter Naur
Peter Naur mendefinisikan data science sebagai….
ilmu yg mengelola data
Apa yg terjadi pada tahun 1977 dalam sejarah data science?
Dibentuknya IASC (International Association for Statistical Computing)
Menghubungkan teknologi komputer modern, metodologi statistik tradisional, serta pengetahuan untuk menghasilkan informasi dan pengetahuan berbasis data merupakan misi dari
IASC
Workshop Knowledge Discovery in Database (KDD) pertama kali diselenggarakan pada tahun 1989 dan dipimpin oleh
Gregory Piatetsky-Shapiro
Apa yg diserukan oleh Prof.C.F.Jeff Wu dalam kuliah di Univ. Michigan pada tahun 1997?
Menyerukan agar statistik diganti nama menjadi data science dan ahli statistik diganti nama menjadi data scientist
Siapa yg mengatakan perlunya alat baru untuk menangani jumlah data yg sangat besar pada tahun 1999
Jacob Zahavi
Apa yg terjadi pada tahun 2001 dalam sejarah data science?
terciptanya software-as-a-service (SAAS) untuk pertama kalinya
Kapan Hadoop 0.1.0 dirilis?
tahun 2006
Pada tahun 2010 Drew Conway membuat The Data Science Venn Diagram yg mencakup keterampilan
meretas, pengetahuan matematika dan statistik, keahlian substantif
Dafta pekerjaan untuk data scientist meningkat 15.000 persen pada tahun
2011
Apa yg terjadi pada tahun 2015 dalam sejaeah data science
- teknik deep learning digunakan untuk google voice
- meningkatnya proyek perangkat lunak di google yg menggunakan AI sebanyak lebih dari 2700 proyek