Aula 4 Flashcards
O que é MLP?
O perceptron de múltiplas camadas (Multilayer Perceptron – MLP)
O MLP surge como uma alternativa
O perceptron de múltiplas camadas (Multilayer Perceptron – MLP) surge como uma alternativa que pode ser generalizada para uma ampla gama de problemas de classificação. A adoção de uma RNA que contenha camadas
ocultas, além das camadas de entrada e saída, amplia consideravelmente o número de pesos, o que por sua vez permite uma aprendizagem capaz de contemplar também a classificação em conjuntos de forma não linear.
Cite as 3 caracterísitcas do MLP:
As três características distintivas de um MLP sobre outras RNA são destacadas a seguir (Haykin, 2001, p. 184):
1. Uso de função de ativação não linear: a diferença com a forma de ativação vista no modelo do perceptron de camada única é a mudança
suave proporcionada pela ativação dos neurônios. A função sinal no algoritmo LMS causava uma mudança abrupta na ativação. Uma das funções mais utilizadas para se conseguir este efeito no MLP é a função logística ou função sigmóide (figura 2):
𝑦𝑖 =1/(1 + exp (−𝑣𝑗))
2. Existência de camadas ocultas, que não fazem parte nem da entrada e nem da saída.
3. Alto grau de conectividade do MLP, em função de sua arquitetura e da população de pesos sinápticos.
Como funciona a propagação de sinais do MLP
A propagação de sinais do MLP envolve o processamento de dois tipos de sinais (Figura 3), que se propagam pela rede (Haykin, 2004, p. 186-187):
* Sinal funcional: é o sinal apresentado à camada de entrada referente aos
atributos do vetor de amostras, que se propaga para a frente na rede, nó por nó, ativando os neurônios até a camada de saída.
* Sinal de erro: tem origem em um neurônio da camada de saída, porém se propaga para trás na rede, ajustando os valores dos pesos ou sinapses.
Qual processo está envolvido no algoritmo de retropropagação no MLP?
O algoritmo de retropropagação para o MLP envolve o processo chamado de descida de gradiente, que visa apresentar o cálculo do gradiente local do
erro (direção para onde tende a crescer o valor do erro médio calculado),utilizando-o para corrigir os pesos sinápticos na direção contrária ao gradiente,
em busca do erro mínimo local.
O que o processo de aprendizagem do MLP busca garantir?
O menor erro global
Em que consiste o treinamento do MLP?
Consiste na construção de um modelo que visa diminuir gradativamente o erro de classificação das amostras do conjunto de entrada, também chamadas de instâncias.
O que é caracterizado o processo de aprendizagem do MLP?
Dessa forma, fica bem caracterizado
como um processo de aprendizagem por tentativa e erro.
Como se chama uma execução do algoritmo de retropropagação ?
Iteração.
Como termina o MLP?
Após um critério de parada, que
pode ser definido pelo número máximo de iterações ou pelo alcance de um valor de erro mínimo, o algoritmo termina e o MLP apresenta os valores dos pesos que demonstram o seu aprendizado.
Ao longo das iterações, as instâncias são apresentadas. O que acontece após a retropropagação do sinal de erro para trás na MLP?
Os sinais são alimentados para
frente novamente, de maneira que as instâncias que eram classificadas de forma
errônea começam a ser gradativamente classificadas da forma esperada.De acordo com as iterações, o MLP vai executando a tarefa, passando a acertar mais e a errar menos. Assim, curva de aprendizagem tende a mostrar um valor de erro global diminuindo.
Uma vez que o modelo é gerado, é necessário avaliar o seu desempenho,
principalmente com relação a amostras ou instâncias que não fizeram parte do
conjunto utilizado para o treinamento, nesta fase como eles são conhecidos?
Os dados são conhecidos como
dados de teste ou dados de validação.
Em geral, quando se utiliza um conjuntode dados (ou dataset, como normalmente é chamado), é conveniente dividi-lo em duas partes,quais?
Uma será utilizada na fase do treinamento e outra na fase de teste.
O que é generalização?
A generalização é a habilidade do modelo construído de responder corretamente a dados não utilizados no treinamento.
Quando uma rede generaliza bem?
Diz-se que uma rede generaliza bem quando o mapeamento entradasaída computado pela rede for correto (ou aproximadamente correto)
para dados de teste não-utilizados para a criação ou treinamento darede; o termo “generalização” é tomado emprestado da psicologia. Aqui
assume-se que os dados de teste são retirados da mesma população usada para gerar os dados de treinamento. (Haykin, 2001, p. 232)