Prova Flashcards

Question

Como calcular a Curva ROC?

Answer 1

Calcular o True Positive Ratio e Negative Positive Ratio para diferentes valores do limiar t. Assim obtemos a matriz de confusão

Answer 2

p(C | x) = p(x|C)p(C)/p(x)

Answer 3

Inferir p(x|C) e p(C) para cada classe. Use os para encontrar p(x). Usar o teorema de Bayes para encontrar p(C|x)

Answer 4

Inferir p(C|x) diretamente

Answer 5

Aprenda uma função f(x), que mapeia a cada entrada x diretamente em um rótulo de classe -> Não há probabilidade

Answer 6

Determina a identidade de um ponto usando pontos próximos do conjunto de treinamento

Answer 7

1) Ecolha k>0 2) Indentifique K pontos vizinhos 3) Para cada classe j calcular a fração de pontos com rótulo j 4) Classifique como aquele com maior fração

Answer 8

Construa p(x) usando dados do do comportamento "normal" do sistema. Quando uma nova entrada calcula sua probabilidade sob o modelo, se for muito baixa é uma anomalia

Answer 9

- Definimos a forma da dstribuição - Aprendemos os parâmetros

Answer 10

- Evita definir distribuições específicas - Existem parâmetros, mas eles apenas controlam a complexidade do modelo

Answer 11

Por hipótese assumimos que seguem uma normal independente. Econtramos como parâmetros da nossa distribuição a média amostral de x e a variância viesada de x

Answer 12

Cada densidade Gaussiana pe um componente da mistura e tem sua prórpira média e covariância

Answer 13

1) E-Step: Calcule as probabilidades posteriores dado o nosso modelo atual 2) Passo M: Altere os parâmetros de cada gaussiana para maximizar a probabilidade de que ele gere os dados plos quai é responsável

Answer 14

1) particionar x em compartimentos distintos 2) Calculcar o numero de observações em cada bin 3) Divida pelo numero total de observações 4) A probabilidade é dada pelo número de pontos na região dividido pelo volume e número totald e observações

Answer 15

Obtemos um estimador de K-nearest-eighbor

Answer 16

Supões que os valores atribidos são condicionalmente independentes dados os valores de destino. Logo, p(x|c_i) = \prod p(x_j |c_i) p(x_j |c_i) -> pode ser modelado com uma distribuição paramétrica

Answer 17

Dados N observações {x_n} onde n = 1,...N juntamente com os valores de destino correspondentes, o objetivo é prever o valor t para um novo valor de x

Answer 18

(Φ'Φ)^(-1) Φ't

Answer 19

OS datapoints são considerados um de cada vez e os parâmetros do modelo são atualizados após cada apresentação

Answer 20

w_(t+1) = w_(t) - η∇E_n

Answer 21

Adicionar um termo de regularização a uma função de erro para controlar o ajuste excessivo

Answer 22

Aplicar uma trasnformação

Answer 23

USar a forma funcional do modelo linear generalizadao e determinar seus parâmetros diretamente usando a máxima verossimilhança.

Answer 24

Não há formula fehcada desta vez. Para aprender w pode-se usar um procedimento sequencial onde os datapoints são apresentados um de cada vez

Answer 25

- Σ|t_n ln y_n +(1-t_n) ln(1-y_n))

Answer 26

Fazer com que as funções de base ϕ*x) dependam de parâmetros sejam ajustadas durante o treinamento

Answer 27

1) Construa M combinnações lineares das variáveis x: a = Σw_1x + w_0 2) Cada combinação é transformada usando uma função de ativação: z = h(a) 3) Esses valores são combinados lienarmente de novo 4) E assim por diante, até a última função de ativação

Answer 28

Sempre podemos encontrar uma rede equivalente sem unidades ocultas

Answer 29

Uma rede de duas camadas com saídas lineares pode aproximar uniformemente qualquer função contínua em um domínio de entrada compacto com precisão arbitrária, desde que a rede tenha um número suficiente grande de unidades ocultas

Answer 30

1) Calcular as derivadas da função error em relação aos pesos (backpropagation) 2) Usar as derivadas para calcular os ajustes dos pesos

Answer 31

(y_i-t_i)z_i

Answer 32

δ_j= h'(a_j)Σw_k δ_k A derivada é dada por δ_j z_j

Answer 33

1) Aplique um vetor de entrada x_n à rede e avance a propagação através da rede 2) Avalie δ_k para todas as unidades de saída 3) Use a formula de retropropagação para retropropagar os δ e obter δ_j para cada unidade oculta 4) As derivadas são dadas por δ_jz_j

Answer 34

1) Segmente o espaçõ de entrada em regiões 2) Para prever um novo datapoint: use a média ou o rótulo majoritário

Answer 35

1) A cada passo seleiconamos a feature X_j e o ponto de corte s 2) Definimos o par de semiplanos: R1 = {X | Xj s} 3) Escolhemos j e s que minimizam Σ(y_i-hat{y_i}_R1)^2 + Σ(y_i-hat{y_i}_R2)^2 4) Continuamos o processos até atingir o critério de parada

Answer 36

Uma arvore grande irá sobreajustar os dados

Answer 37

Consideramos uma sequência de árvores indexadas por um parâmetro de ajuste não negativo Calculamos ΣΣ(y_i-hat{y_i}_Rm)^2 + α|T|

Answer 38

Como, para uma região, pretendemos prever a classe mais comum naquela região, precisamos "quantificar" com que frequência os pontos não pertencem a essa classe

Answer 39

1) Todos os pares de nós folha vizinhos (ligados a um nó antecedennte comum) são considerados para eliminação 2) Qualquer cuja eliminação produz um aumento satisfatório no desempenho no conjunto de validação cruzada é eliminado e o nó antecedente considerado uma folha

Answer 40

1) Usar o bootstrap para obter mais conjuntos de treinamento 2) Construir um modelo de previsão separado para cada conjunto de treinamento 3) Tirar a média das previsões

Answer 41

Ou-of-bag: Aqueles que não são usados para o aprendizado do modelo

Answer 42

Se uma feature é um preditor forte, a maioria das árvores será semelhante. Isso leva a previsões semelhantes e o bagging não é eficaz

Answer 43

1) Construímos uma série de árvores de decisão em amostras de treinamento bootstrap 2) Em cada divisão, uma amostra aleatória de me features é escolhida como candidata a divisão de conjunto completo de p features

Answer 44

1) Criamos vários conjuntos de dados 2) Combinamos as saídas

Answer 45

Bagging: Cada modelo é construído em um conjunto de dados bootstrap, independente dos outros modelos Boosting: Cada aprendiz é construído sobre um conjunto de dados cuja composição depende do desemplenho dosmodelos que foram construídos anteriormente

Answer 46

Usar o subconjunto de dados de treinamento que são "mais informativos" a cada passo

Prova Flashcards

(72 cards)