Data Science - MODULE 1 Flashcards
Data science is where three domains meet?
- Applied mathematics and statistics
- Domain knowledge
- Computer science
Die 4 hoof libraries wat ons gaan gebruik
Numpy
Pandas
Scikit-learn
Matplotlib
When do we use statistical learning?
When the pattern cannot be observed directly
Inputs are commonly referred to as?
Predictors or features
Outputs are also called?
Responses
Three spheres of statistical learning? Which ones will we deal with?
Supervised, unsupervised, semi-supervised.
We will work with the first two
Die doel van unsupervised learning?
NIE om n spesifieke reaponse re predict nie, maar eerder om patrone te soek
Daai hele video oor hoefdings inequality, gaan oor hoeveel observasies jy nodig het om onder n seker error te kom
P|abs(v-u)>e| <=2exp(-2(e^2)N)
Wat is die eerste vraag om te bepaal wat se model gebruik moet word?
Is daar n spesifieke response variable. I dien JA, supervised. Nou kan die Neurale netwerke of tree-based model wees
Groot verskil tussen neurale netwerke en tree-based models
Neurale netwerke is gebou vir akkuraatheid, en dit is n swart boks. So waar jy moet kan bewys hoekom n seker besluit geneem is, is dit nie rerig n opsie nie. Tree-based models is interpretablr, maw ons kan sien hoe daar by n seker model uitgekom is
Hoof verskil tussen k-means en hierarchical clustering?
K-means kies jy die aantal groepe. Hierarchical, word dit self ontwikkel. So waar jy baie data het, is dit soms beter om k-means te gebruik
Hoekom kan k-means clustering partykeer nie akkuraat wees nie?
Prefers spehrical clusters?
Wanneer daar responses is, en dit is diskrete data punte - watse tipe leer sal dit behels
Tree-based classification methods