R notes Flashcards

Question

R code

Answer 1

use family = "binomial" and link = "logit" exp(coef(modelname)) predict(modelname, type = "response") -predicted probabilities NOT predicted odds To get target predictions: ifelse(predict(modelname, type = "response")>0.5,1,0) -0.5 is cutoff that we select to separate the target predictions

Answer 2

library(pROC) target <- target vector probs <- probs vector preds <- preds vector roc <- roc(target, probs) auc(roc) - returns AUC of the roc object plot(roc) - graph of roc curve library(caret) confusionMatrix(factor(preds), factor(target), positive = "1")

Answer 3

poi.mod1 <- glm(target ~ predictors, family = poisson(link = "log"), data = dataset) exp(coeff(poi.mod1)) poi.mod2 <- glm(target ~ predictors - w, family = poisson(link = "log"), offset = log(w), data = dataset) ->w is exposure column predict(poi.mod2, type = "response")

Answer 4

rpart() - key hyperparameters: -minsplit - minimum number of observations in a node -minbucket - minimum number of observations permitted for a terminal node -maxdepth - maximum depth of terminal nodes -cp - complexity parameter (0 most flexible; 1 least flexible) -xval = # of cross validation to perform anova is default for method maxcompete - most # of competitor splits stored for each split maxsurrogate - most # of surrogate splits stored for each split; 0 increases speed usesurrogate - 0 - not used; 1 - used in sequence and left behind if fails; 2 used in sequence, majority if still fails (defualt) library(rpart) set.seed(161) tree.mod1 <- rpart(target ~ predictors, data = dataset, method = "anova" or "poisson", control = rpart.control(minsplit = #, minbucket = #, maxdepth = #, cp = , xval = , maxcompete = , maxsurrogate = , usesurrogate = ) tree.mod1 # provides data on all nodes in the tree summary(tree.mod1) library(rpart.plot) rpart.plot(tree.mod1, digits = #) default digits = 2 predict(tree.mod1) Poisson predict(tree.mod1) -> predicted poisson rates, not counts predict(tree.mod1)*train$w -> obtain predicted poisson counts

Answer 5

rpart already performs cv tree.mod1$cptable #returns cp table columns: cp nsplits rel error (relative error) -> (SSE w n splits/ SSE w 0 splits) xerror (cv error) x std (cv std) CP decreases as nsplits increases As nsplits increase, relative error decreases cp.min <- tree.mod1$cptable[whichmin(tree.mod1$cptable[, "xerror]),"CP") tree.mod1a <- prune.rpart(tree.mod1, cp = cp.min plotcp(tree.mod1) # can select cp with leftmost point below the horizontal dotted line (one standard error rule)

Answer 6

need binary target library(rpart) set.seed(161) tree.mod# <- rpart(target ~ predictors, data = dataset, method = "class", parms = list(split = "gini" or "information")) library(rpart.plot) rpart.plot(tree.mod#, extra = 4) #4 displays probs for each class @ each node predict(tree.mod#, type = "prob" or "class") #prob - explicitly display probs (default), class - explicitly display target predictions Extract only the positive class probabilities - for use in ROC curve predict(tree.mod#, type = "prob)[, 2] or [, "1"] tree.mod# node), split, n, loss (# misclassified observations), yval (prediction), (yprob) (probabilities for each class)

Answer 7

tree.mod#$cptable #complexity parameter table -cp -nsplit -relerror (classification error rate with n split/classification error w 0 splits) -xerror (cverror) -xstd classification error rate = %age of observations with wrong predictions If cv error tied, we favor less flexible model due to parsimony One-standard-error rule -> leftmost point below the horizontal line plotcp(tree.mod#) cp.min <- tree.mod#$cptable[which.min(tree.mod#$cptable[, "xerror"], "CP"] tree.mod#+1 <- prune.rpart(tree.mod#, cp = cp.min) rpart.plot(tree.mod#+1, extra = 4)

Answer 8

library(randomForest) set.seed(161) rf.mod1 <- randomForest( target ~ predictors, data = dataset, importance = T, # whether to examine the importance of features ntree = 101, # number of trees mtry = 2, # number of candidate predictors for each split nodesize = 5, # min number of observations permitted for a terminal node maxnodes = #, # maximum number of terminal nodes keep.forest = T # if want to obtain predictions for all trees later ) rf.mod1$importance #variable importance measure OR library(caret) varImp(rf.mod1) predict(rf.mod1) #predictions on out-of-bag obs ->for all trees where that observation is out of bag and averages. If one is NOT out-of-bag for any tree, then NA predict(rf.mod1, newdata = dataset) # to get predictions for all obs predict(rf.mod1, newdata = dataset, predict.all = T)$individual/aggregate mtry default: Integer and >=1 Factor -> floor(sqrt(ncol(x))) sqrt(predictors) Not Factor -> max(floor(ncol(x)/3),1) predictors / 3

Answer 9

library(gbm) gbm.mod1 <- gbm( target ~ predictors, data = dataset, distribution = "guassian/bernoulli/poisson", # R will guess if empty n.trees = 300, # number of trees interaction.depth = 2, # maximum depth of terminal nodes shrinkage = 0.01, # shrinkage parameter n.minobsinnode = 10 # min number of obs permitted for a terminal node bag.fraction = 1, # portion of observations used for each tree if <1, set seed ) summary(gmb.mod1) #variable importance measure predict(gbm.mod1, n.trees = 1) #default n.trees = all

Answer 10

library(xgboost) *requires new data type for datasets* m.f <- model.frame(target ~ predictors, data = head(dataset) m.m <- model.matrix(attr(m.f., "terms"), data = dataset) d.m <- xgb.DMatrix(m.m, label = dataset$target) xgb.parm1 <- list( booster = "gbtree", #decision trees objective = "reg:squarederror/binary:logistic", #regression/classification eval.metric = "rmse/auc", #regression/classification max.depth = 2, eta = 0.01, # shrinkage parameter gamma = 0, #min reduction of splitting measure subsample = 1, #proportion of data used colsample_bytree = 1, #proportion of predictors used min_child_weight = 10, #min obs in node for regression; purity of node for class. ) xgb.mod1 <- xgb.train(data = d.m, nrounds = 300, params = xgb.parm1) nrounds = xgb.cv1$bestiteration #extracts best nrounds set.seed(161) xgb.cv1 <- xgb.cv(data = d.m, nrounds = 2000, params = xgb.parm1, nfold = 5, prediction = F, print_every_n = 100, early_stopping_rounds = 50, maximize = F ) #last line is optimal value for nrounds xgb.importance(model = xgb.mod1) #column gain = %age of contribution to the boosted model predict(xgb.mod1, newdata = d.m)

Answer 11

OVER in.over <- c(which(train$y == 0), rep(which(train$y == 1), times = k)) train.over <- train[ind.over, ] UNDER set.seed(161) ind.under <- c(which(train$y == 1), sample(which(train$y == 0), size = sum(train$y == 1))) train.under <- train[ind.under, ]

Answer 12

cor(dataset$column, dataset$column) or cor(dataset[,~factors]) table(dataset$column, dataset$column) library(dplyr) dataset %>% group_by(factor) %>% summarise(Means = mean(target), Medians = median(target), Freq = n())

Answer 13

library(ggplot2) ggplot(data = dataset, mapping = aes(x = variable)) + * geom_histogram/bar/boxplot() + labs(x = "label name") * histogram - (bins = ) #bins optional but can adjust bar - (position = "dodge") or (position = "fill") # fill = area of 1 boxplot - (position = "dodge") or (position = "fill") # fill = area of 1

Answer 14

library(ggplot2) ggplot(data = dataset, mapping = aes(x = variable, fill = factor)) + * geom_histogram/bar() + labs(x = "label name") * histogram - (position = "dodge", bins = ) #bins optional but can adjust bar - (position = "dodge") or (position = "fill") # fill = area of 1 Consider density instead of fill -> add "y = ..density.." after fill statement on line 1

Answer 15

library(ggplot2) ggplot(data = dataset, mapping = aes(x = variable, y = target)) + geom_point/count/boxplot() + labs(x = "label name", y = "label name") ggplot(data = dataset, mapping = aes(x = variable, y = target)) + geom_point() + labs(x = "label name", y = "label name") + * facet_wrap(~factor) * scales = "free" - if don't want same scaling