Guia de Deep Learning: Activacions, Training i Atenció

Escrito el 7 de Mayo de 2026 en con un tamaño de 3,7 KB

Activacions i Funcions de Pèrdua

Unitats mortes: neurones no actives ni actualitzades durant l'entrenament (training). En ReLU són els valors negatius; les neurones estan actives segons el signe de z.
MSE: penalitza errors grans. MAE: és més sensible als outliers.
BGD (Batch Gradient Descent): l'ordre no importa, calcula el gradient amb totes les dades.
SGD (Stochastic Gradient Descent): escapa de mínims locals perquè el gradient dóna variabilitat en el camí d'optimització. Importa l'ordre, els pesos s'actualitzen parcialment i el camí depèn dels batches vistos; en minibatches funciona igual. No es paral·lelitza.
Batch training: actualitza els pesos una vegada per epoch; no funciona millor amb grans conjunts de dades. Cal fer Shuffle per època per evitar un aprenentatge esbiaixat.
Connexions residuals: eviten el vanishing gradient creant camins directes.
Matriu jacobiana: conté les derivades parcials de la sortida respecte a l'entrada (m*n). Si la derivada d'una neurona és igual a 0, no contribueix a l'actualització (update).
One-hot: té una sola posició a 1. Multi-hot: en pot tenir diverses.

SGD: optimitza i actualitza els pesos per cada subconjunt petit.
Inicialització de pesos: afecta la velocitat de convergència (vanishing i exploding). El vanishing gradient implica un gradient petit i aprenentatge lent; l'exploding gradient implica un gradient gran i un entrenament inestable.
Overfitting: es combat amb regularització, data augmentation, early stopping i reduint la complexitat. Dropout: desactiva neurones aleatòries. Learning curves: mostren la pèrdua (loss) i la mètrica durant l'entrenament. Early stopping: atura l'entrenament quan la validació empitjora.
AdaGrad: adapta el Learning Rate (LR) per paràmetres. RMSProp i Adadelta són millores d'aquesta adaptació.
Nesterov Momentum: calcula el gradient després de la velocitat actual. El Momentum normal el calcula en la posició actual.
Adam: combina momentum i informació de la magnitud dels gradients. Posa a 0 els gradients després de l'actualització.
Batch Normalization: estabilitza la distribució de les activacions z.
Epoch: consisteix a veure tot el conjunt de dades una vegada.

Attention: q (busquen), k (indica on mirar) i v (aporten informació agregada) són embeddings diferents. L'objectiu és mantenir millor l'alineació entre els elements d'entrada i sortida.
Attention weight: s'obté mitjançant Softmax. En el self-attention, es genera a partir d'un mateix input (q/k/v també) i té un ordre explícit.
S2S (Seq2Seq): indicat per a textos curts. Positional encoding: introdueix informació sobre l'ordre. Masked softmax: ignora les posicions no influents.

Etiquetas: