Guia de Deep Learning: Activacions, Training i Atenció

Enviado por Chuletator online y clasificado en Psicología y Sociología

Escrito el en con un tamaño de 3,7 KB

Activacions i Funcions de Pèrdua

  • Unitats mortes: neurones no actives ni actualitzades durant l'entrenament (training). En ReLU són els valors negatius; les neurones estan actives segons el signe de z.
  • MSE: penalitza errors grans. MAE: és més sensible als outliers.
  • BGD (Batch Gradient Descent): l'ordre no importa, calcula el gradient amb totes les dades.
  • SGD (Stochastic Gradient Descent): escapa de mínims locals perquè el gradient dóna variabilitat en el camí d'optimització. Importa l'ordre, els pesos s'actualitzen parcialment i el camí depèn dels batches vistos; en minibatches funciona igual. No es paral·lelitza.
  • Batch training: actualitza els pesos una vegada per epoch; no funciona millor amb grans conjunts de dades. Cal fer Shuffle per època per evitar un aprenentatge esbiaixat.
  • Connexions residuals: eviten el vanishing gradient creant camins directes.
  • Matriu jacobiana: conté les derivades parcials de la sortida respecte a l'entrada (m*n). Si la derivada d'una neurona és igual a 0, no contribueix a l'actualització (update).
  • One-hot: té una sola posició a 1. Multi-hot: en pot tenir diverses.

Entrenament de Xarxes Profundes

  • SGD: optimitza i actualitza els pesos per cada subconjunt petit.
  • Inicialització de pesos: afecta la velocitat de convergència (vanishing i exploding). El vanishing gradient implica un gradient petit i aprenentatge lent; l'exploding gradient implica un gradient gran i un entrenament inestable.
  • Overfitting: es combat amb regularització, data augmentation, early stopping i reduint la complexitat. Dropout: desactiva neurones aleatòries. Learning curves: mostren la pèrdua (loss) i la mètrica durant l'entrenament. Early stopping: atura l'entrenament quan la validació empitjora.
  • AdaGrad: adapta el Learning Rate (LR) per paràmetres. RMSProp i Adadelta són millores d'aquesta adaptació.
  • Nesterov Momentum: calcula el gradient després de la velocitat actual. El Momentum normal el calcula en la posició actual.
  • Adam: combina momentum i informació de la magnitud dels gradients. Posa a 0 els gradients després de l'actualització.
  • Batch Normalization: estabilitza la distribució de les activacions z.
  • Epoch: consisteix a veure tot el conjunt de dades una vegada.

Mecanismes d'Atenció

  • Attention: q (busquen), k (indica on mirar) i v (aporten informació agregada) són embeddings diferents. L'objectiu és mantenir millor l'alineació entre els elements d'entrada i sortida.
  • Attention weight: s'obté mitjançant Softmax. En el self-attention, es genera a partir d'un mateix input (q/k/v també) i té un ordre explícit.
  • S2S (Seq2Seq): indicat per a textos curts. Positional encoding: introdueix informació sobre l'ordre. Masked softmax: ignora les posicions no influents.

Entradas relacionadas: