Guia de Deep Learning: Activacions, Training i Atenció
Enviado por Chuletator online y clasificado en Psicología y Sociología
Escrito el en
con un tamaño de 3,7 KB
Activacions i Funcions de Pèrdua
- Unitats mortes: neurones no actives ni actualitzades durant l'entrenament (training). En ReLU són els valors negatius; les neurones estan actives segons el signe de z.
- MSE: penalitza errors grans. MAE: és més sensible als outliers.
- BGD (Batch Gradient Descent): l'ordre no importa, calcula el gradient amb totes les dades.
- SGD (Stochastic Gradient Descent): escapa de mínims locals perquè el gradient dóna variabilitat en el camí d'optimització. Importa l'ordre, els pesos s'actualitzen parcialment i el camí depèn dels batches vistos; en minibatches funciona igual. No es paral·lelitza.
- Batch training: actualitza els pesos una vegada per epoch; no funciona millor amb grans conjunts de dades. Cal fer Shuffle per època per evitar un aprenentatge esbiaixat.
- Connexions residuals: eviten el vanishing gradient creant camins directes.
- Matriu jacobiana: conté les derivades parcials de la sortida respecte a l'entrada (m*n). Si la derivada d'una neurona és igual a 0, no contribueix a l'actualització (update).
- One-hot: té una sola posició a 1. Multi-hot: en pot tenir diverses.
Entrenament de Xarxes Profundes
- SGD: optimitza i actualitza els pesos per cada subconjunt petit.
- Inicialització de pesos: afecta la velocitat de convergència (vanishing i exploding). El vanishing gradient implica un gradient petit i aprenentatge lent; l'exploding gradient implica un gradient gran i un entrenament inestable.
- Overfitting: es combat amb regularització, data augmentation, early stopping i reduint la complexitat. Dropout: desactiva neurones aleatòries. Learning curves: mostren la pèrdua (loss) i la mètrica durant l'entrenament. Early stopping: atura l'entrenament quan la validació empitjora.
- AdaGrad: adapta el Learning Rate (LR) per paràmetres. RMSProp i Adadelta són millores d'aquesta adaptació.
- Nesterov Momentum: calcula el gradient després de la velocitat actual. El Momentum normal el calcula en la posició actual.
- Adam: combina momentum i informació de la magnitud dels gradients. Posa a 0 els gradients després de l'actualització.
- Batch Normalization: estabilitza la distribució de les activacions z.
- Epoch: consisteix a veure tot el conjunt de dades una vegada.
Mecanismes d'Atenció
- Attention: q (busquen), k (indica on mirar) i v (aporten informació agregada) són embeddings diferents. L'objectiu és mantenir millor l'alineació entre els elements d'entrada i sortida.
- Attention weight: s'obté mitjançant Softmax. En el self-attention, es genera a partir d'un mateix input (q/k/v també) i té un ordre explícit.
- S2S (Seq2Seq): indicat per a textos curts. Positional encoding: introdueix informació sobre l'ordre. Masked softmax: ignora les posicions no influents.