Feedforward Networks Flashcards
Por que elas são chamadas de feedforward?
Porque o output de um layer será input do outro em sequência.
O que é a profundidade (depth) da rede?
É o tamanho da cadeia (número de layers)
O que faz uma camada ser oculta?
Não existe um y especificado para elas ao contrário da camada de output.
Explique o funcionamento das units
Cada camada consiste de várias units que atuam em paralelo. Cada uma representa uma função vetor para escalar. Retornam um valor de ativação (activation value).
Explique o básico sobre o Teorema da Aproximação Central.
- Uma linear output layer + ao menos uma hidden layer podem aproximar qualquer função Borel mensurável com quase 0 de erro desde que tenhamos hidden units o suficiente.
- Podemos conseguir qualquer grau de acurácia que quisermos desde que tenhamos uma rede grande o suficiente.
- É possível representar um grande número de funções em uma rede profunda composta somente por ReLU.
- Um MLP grande vai conseguir fazer essa representação, mas não necessariamente irá aprender a função.
Descreva o passo-a-passo básico de cálculos da rede no sentido direto.
- Multiplicar inputs pelos pesos
- Somar o resultado
- Aplicar a Função de Ativação e obter o Valor de Ativação
- Atualiza os pesos com base no cálculo de erro (MSE ou RMSE)
Descreva brevemente learning rate e nomeie seus principais impactos
Determina a magnitude das atualizações dos pesos durante o treinamento, ou seja, o quanto os pesos são ajustados a cada passo do algoritmo de otimização.
Sua importância está relacionada ao seu impacto na velocidade de convergência e na qualidade do modelo treinado.
Descreva os efeitos da learning rate sobre a velocidade de convergência
Uma taxa de aprendizado bem ajustada permite que o modelo alcance uma solução ótima ou quase ótima em um tempo razoável.
Se a taxa for muito alta, o modelo pode divergir ou oscilar ao redor do mínimo, nunca alcançando uma solução estável.
Se a taxa for muito baixa, o modelo pode levar muito tempo para convergir ou ficar preso em um mínimo local ou em um platô.
Descreva os efeitos da learning rate sobre a qualidade do modelo treinado
Uma taxa de aprendizado bem ajustada permite que o modelo alcance um bom equilíbrio entre underfitting e overfitting, além disso, pode ajudar o modelo a escapar de mínimos locais subótimos e encontrar soluções melhores.
Cite estratégias para encontrar uma learning rate adequada
- Experimentação: testar diferentes valores e escolher aquele que resulta no melhor desempenho do modelo, com base em métricas de validação
- Grid search ou Random search: exploram sistematicamente o espaço de hiperparâmetros e encontram a combinação que resulta no melhor desempenho do modelo
- Taxa de aprendizado adaptativa: algumas variantes do Gradiente Descendente, como Adam, RMSprop e Adagrad ajustam automaticamente a taxa de aprendizado ao longo do treinamento, o que facilita a escolha de um valor inicial
Explique dropout
É uma técnica de regularização usada em Deep Learning para reduzir o problema de overfitting.
A ideia é “desligar” aleatoriamente certos neurônios durante o treinamento, o que ajuda a prevenir a dependência excessiva de qualquer neurônio específico e, consequentemente, evita a coadaptação entre eles.
É como se estivéssemos treinando uma “bag” (coleção) de sub-redes diferentes, cada uma com uma arquitetura ligeiramente diferente, pois alguns neurônios estão desligados. Costuma levar a um modelo mais robusto e com melhor capacidade de generalização.
Explique teoricamente Batch Normalization
Ténica usada em Deep Learning para estabilizar e acelerar o aprendizado das redes neurais. Ela padroniza as entradas de modo que tenham média 0 e variância unitária. Isso é feito ao calcular a média e a variância do batch de dados que passam por uma camada e, em seguida, normalizar os dados com esses valores. A normalização é seguida por uma operação de escalonamento e deslocamento, que permite que a camada aprenda a melhor distribuição dos dados.
Cite os benefícios do Batch Normalization
- Acelera o treinamento: ajuda a mitigar o problema do desaparecimento do gradiente, que pode retardar o treinamento de redes neurais profundas
- Permite uma maior taxa de aprendizado: sem batch normalization, as redes neurais podem ser sensíveis à escolha da taxa de aprendizado. Uma taxa de aprendizado muito alta pode levar a explodir gradientes, enquanto que uma muito baixa pode levar a um treinamento muito lento.
- Atua como uma forma de regularização: adiciona um pouco de ruído aos dados de entrada de cada camada. Pode ter efeito de regularização similar ao de dropout.