Visualizando o gradiente descendente

Daniel

Achei muito legais as aulas (com os grafos de computação) sobre como se combinam as derivadas das funções para se chegar ao gradiente da função de perda (ou simplesmente função do erro: yi – yi_hat). Parabéns!! Valeu!! Um ponto que não tinha ficado claro pra mim é porque temos vários valores de wi e tiramos a média. Dai tentei visualizar a função: L(w) = -2 xi ( yi - (w.xi) -b) usando o desmos.com (vocês conhecem ? É muito massa !! o Grant Sanderson do 3blue1brow usa nas aulas ao vivo que está fazendo!).

Nesse gráfico o x é o w (o peso que queremos ajustar) e a derivada composta em relação a w:

Esse gráfico foi feito para xi = -0.5 e yi=-2.5. Essa função então mostra o que aconteceria com o erro (yi – yi_hat) para cada escolha do w (eixo x). Assim se o w = 5 o erro seria zero.

Também é fácil ver que se começamos com um w qualquer, por exemplo 11, o L(w) = 3. Assim se tivéssemos lr=0,5 ( learning rate ) o -lr * L(x), iria resultar em um novo peso w = -1*.5*11 = 5.5 mais próximo do ideal 5. Assim essa função indica como as escolhas de w afetam o erro e qual direção devemos atualizar o w para caminhar para o erro a zero. Fica claro também que como cada par de xi e yi em princípio são únicos, cada um precisa de um ajuste unico de w. Em um bach vemos o que cada par solicita e tiramos a média para tentar agradar todos!. Acho que aqui está essência do que é a aprendizagem das redes !!

Fiz uma planilha com três exemplos e os componentes da fórmula:

L(w) = -2 xi ( yi - (w.xi) -b) xi yi b w yi - xi yi_hat - xi
0 -0.5 -2.5 0 5 -2 0
-0.0096 -1.2 -2.5 0 2.08 -1.3 -0.004
0 -0.5 -0.5 0 1 0 0

Valeu !! Parabéns ao grupo do curso-r.
O curso está muito bom!!

1 Curtida