Ikaskuntza Automatikoa: Oinarriak, Ereduak, eta Optimizazio Teknikak

Enviado por Chuletator online y clasificado en Psicología y Sociología

Escrito el en vasco con un tamaño de 58,73 KB

Oinarrizko Ikaskuntza Automatikoa

X espazioa: Sarrera aldagaiek (predictive variables) osatzen dute. Ereduak entrenatzeko erabiltzen dira.

Y espazioa: Irteerako iragarpenek (predictions) osatzen dute. Ereduak eraiki duen ezagutza erabilita egindako iragarpenak dira.

Eredua: Magiarik ez, eredua funtzio matematiko bat baino ez da. (h): X espaziotik Y espaziora mapaketa egiten du. h: X → Y

Eredu Motak

Bi mota:

1. Eredu probabilistikoak: Egiten duten iragarpena probabilitate bat da. P(Katua|f) edo P(txakurra|f). Erabilgarriak izan daitezke datuak erregresioan, sailkapenean eta sortzean. Adibidea: sare bayesiarrak. Sare bayesiarrak probabilitate-eredu grafikoak dira, eta grafo gidatu azikliko baten bidez aldagaien arteko mendekotasuna adierazten dute. Grafoko nodo bakoitzak zorizko aldagai bat irudikatzen du, eta ertzek aldagaien arteko baldintzazko mendekotasunak adierazten dituzte.

2. Eredu diskriminanteak: Egiten duten iragarpena klase bat da. Problemak definitzen duen espazio geometrikoa zatikatzen dute. Eredu diskriminatzaileak bereziki erabilgarriak dira sailkapen-problemetan. Adibidea: erregresio logistikoa. Erregresio logistikoan, instantzia bat klase jakin batekoa izateko probabilitatea modelatzen da. Hori egiteko, funtzio logistiko bat erabiltzen da eredu lineal baten irteera 0 eta 1 arteko balio bihurtzeko; balio horrek klase positiboko kide izateko probabilitatea adierazten du.

Eredu moten arteko desberdintasunak honakoak dira:

  • Eredu probabilistikoak emaitza ulergarriak sortzen dituzte, probabilitateen erregletan oinarritzen direlako.
  • Ezaugarriek ereduan duten eragina neurtzea errazagoa da probabilistikoetan.
  • Normalean eredu probabilistikoak diskriminanteak baino sinpleagoak dira.
  • Ikasteko datuak gutxi daudenean diskriminanteak baino eraginkorragoak dira probabilistikoak.
  • Zaila da aurretik esatea zein motak egingo duen hobeto, ataza motaren, datu kopuruaren eta zailtasunaren menpe baitago erantzuna.

Ataza Motak

Ikasketa ez-gainbegiratua: Datuak ez daude anotatuta, ezin da iragarpenik egin. Unlabelled data: 1. Erraza lortzeko (crawl, etab.). 2. Merkea lortzeko, etiketatzea garestia delako. Datuak multzokatzeko aukera bakarrik.

Ikasketa gainbegiratua: Datuek iragartzen ikasi behar den balio kualitatibo bat dute (target).

1. Sailkapena: Helburua balio kualitatibo baten iragarpena egitea da. Adibideak: Binary, Multiple, Ordered eta Hierarchical/Structured. 2. Erregresioa: Helburua balio kuantitatibo baten iragarpena egitea da.

Galera Funtzioak

Adibideak: MSE, MAE, Binary Cross Entropy, Categorical Cross Entropy, Hinge Loss

Galera-funtzio bat (loss function ingelesez) eredu batek aurresandako balioaren eta datuen balio errealaren arteko desadostasuna neurtzen duen funtzio matematikoa da. Funtsezko osagaia da ikaskuntza automatikoko eta optimizazioko algoritmo askotan, neurri kuantitatibo bat ematen baitu ereduaren eraginkortasuna neurtzeko.

Galera-funtzioak hainbat testuingurutan erabiltzen dira ikaskuntza automatikoan, hala nola erregresioan, sailkapenean eta errefortzu bidezko ikaskuntzan. Galera-funtzio bat aukeratzea aztertzen ari garen problema motaren eta ereduaren ezaugarri espezifikoen araberakoa da.

Helburu Funtzioak (Motibazioa)

Motibazioa: Univariate Linear Regression -> Demagun sarrera parametro bat duen erregresio linealeko eredu bat sortu nahi dugula. Gure eredu lineala, h(x), jarraian dagoen ekuazioaren bitartez definituta egongo litzateke eta 2D espazioko lerro bat irudikatuko luke. h(x) = xw1 + w0.

Pisuak lortzeko metodoren bat? Aljebra: Ax = b -> x = A^-1*b. Baina ez dugu hori egin nahi IAA-n. X matrizearen alderantzizkoa ez dago beti definitua eta matrize handien kasuan alderantzizkoa kalkulatzea oso eragiketa garestia da.

Helburu Funtzioak (Jarraipena)

Helburu funtzio leunak:

  1. Ereduen entrenamenduan pilatzen den errorea neurtzen dute eta pisuen balio egokiak aurkitu behar dituzte.
  2. Ereduaren pisuen menpe (w) daude, ez entrenatzeko datuen menpe.
  3. Normalean optimizazio eraginkorra ahalbidetuko duten kurba deribagarriak definitzen dituzte espazioan.
  4. Iteraziotan oinarritutako prozedura inkremental batekin optimizatu daitezke (optimizatzeko estrategia, e.g.: SGD).
  5. Hala eta guztiz ere, helburu funtzio egokia aukeratu behar da ataza eta datuak kontuan hartuz.
  6. Erregresio eta sailkapenean helburu funtzio deribagarriak behar ditugu. Beraz, ikaskuntza automatikoa matematikako problema geometrikoa da.

Erregresioa egiteko loss funtzioak:

MAE=sum( | yi-yi^P| ) / n -> Mean Absolute Error

Iragarpena eta benetako balioaren arteko kenketaren balio absolutua kalkulatu. Pilatutako errorearen magnitudea erregistratzen du errorearen norabideari jaramon egin gabe.

Alde Onak: Errorearen karraturik egiten ez duenez, outlayerrak dauden kasuetarako MSE baino sendotasun handiagoa dauka. MSEk outlayerrei garrantzia handia emateko joera du.

Alde Txarrak: MAEren kontra esan daiteke ez dela oso funtzio leuna, eta horregatik, errore handietarako zein txikietarako gradiente altua dauka. Hau ez da ona MLko eredu askorentzat (adb: sare neuronalak).

J(wow1) = 1/2 * sum( h(x')-y')^2 ) -> Mean Squared Error

  • MAEren berdina da, baina karratua eginez balio absolutuaren ordez.
  • Outlayerrak dauden kasuetan hauei garrantzia handia emateko joera dauka, helburu funtzioan diferentziak karratu egitean oso balio handiak bihurtzen direlako.
  • Positibotzat bere leuntasuna da, diferentziak handiak direnean gradiente handiak lortzen dira, eta diferentziak txikiak direnean gradiente txikiak.

MSE erabilera ohikoa -> Multivariate Linear Regression:

Erregresioa honela idatziko da.

w^T*xj = sum ( wi*xj,i )

Gradientea: dE/dwj = sum ( 2*(yi - w^T*xj)*(-xij) ) = 0

MSE gradientea eta ML eredua: Gradientetik ikusi daiteke pisu aldaketaren eragina 2 faktoretan agertzen dela: 1. Errorearen diferentzia (Iragarpena vs. benetakoa) eta 2. Pisuarekin biderkatzen den inputaren magnitudea.

MSE eta Maximum Likelihood Estimation (MLE) arteko erlazioa: Datuen distribuzio gaussiar bat onartzen badugu (iid), distribuzio honen PDFa jarraian dagoen ekuazioarekin lortu dezakegu: p(x) = 1 / erro(2*pi*sigma^2) * exp (-0.5 * (x- mu)/sigma^2)

mu eta sigma parametroak falta dira, baina entrenamendu datuak erabili daitezke hauek estimatzeko.

mu = 1/N*sum(xi) eta sigma = erro( [ sum(x^2) - (sum(x)^2) ] / N - 1 )

Honekin ya MLE helburu funtzioa definitu daiteke:

bider(p(xi)) = bider(1 / erro(2*pi*sigma^2) * exp (-0.5 * (xi- mu)/sigma^2))

MLE funtzioak X sarrerako instantzia bakoitzari dagokion PDF probabilitate masa estimazio zuzena egiten saiatzen da, honi, likelihood maximizatzea deritzo.

Hortaz, MLE handia izatea nahi dugu. Honek PDF estimazio zuzenak egiten gabiltzala esan nahi baitu. Eta funtzio hori maximizatzeko: Kasu honetan log(MLE) deribatzen da mu-rekiko, matematika sinplifikatzen baita. Eta ondoren bere deribatua honela geratuz: Sum(1/sigma^2 * (xi - mu) )

Konstanteak garbituta eta deribatua = 0 eginda (maximizatzeko) hasierako ekuazioa lortzen dugu.

Ondorioak

log(MLE) maximizatzean eta MSE minimizatzean gauza bera egiten ari gara. SSE (residualak edo delta errorea) txikitzen, eta honekin: Estimazio onena emango digun distribuzioa aurkitzen! MSE edo log(MLE).

Sailkapena egiteko loss funtzioak.

Binary Cross-Entropy: L=−N/ 1 * ∑ [yi*log(pi)+(1−yi)log(1−pi)]. Loss funtzio horrek Bernoulliren distribuzioan du jatorria. Sailkapen bitarra egiteko loss funtzio bat da. Hemendik MLE estimatu daiteke: L= p(xi) =   mu^xi ( 1 - mu )^(1-xi)

Logaritmoak matematikoki erraztu: l = log L = ∑ { xi*log mu + (1 - xi)*log(1 - mu)}

Funtzioa maximizatzeko MLE deribatua eta 0 eginda. dL/dmu =  ∑ (xI / mu - 1-xi / 1 - mu)

MLE-rekin erlazioa: Normalean Negative log-likelihood minimizatzen da, likelihood maximizatu beharrean. Horregatik  - log L jartzen zaio. Eta ikusi daiteken moduan, negative log-likelihood eta binary cross-entropy gauza bera dira!

Ondorioak: Binary Cross-Entropy probabilitatean oinarritzen den helburu funtzioa da. Likelihood iragarpenak maximizatzen saiatzen den estimazioa baino ez da. Formula: -[y*log(p) + (1-y)*log(1-p)] eta egia taula

Klasea->Predikzioa->BC-E: 0,0,0 / 0,1,+inf / 1,0,+inf/1,1,0

Categorical Cross-entropy:   p(x) =   mu_k ^1(x=k). Ataza bitarra ez denerako, Bernoulliren distribuzioak ez digu balio. Kategoriatan oinarritutako PMF bat erabili behar da.  Gogoratu Probability Mass Function (PMF) balio diskretuekin erabiltzen dela eta Probability Density Function (PDF) balio jarraituekin.

Ondoren LikeliHood funtzioa idazkeraz aldatu eta logaritmoa aplikatu lortutakoan eta

Ekuazioa txukun jarrita one-hot encoding bektoreen bitartez Categorical Negative Cross-Entropy funtzioa lortzen dugu:

-   yik * log yik_txapela, Framework askok Sparse Categorical Cross-Entropy inplementatzen dute, one-hot encoding bektoreen ordez zuzenean 1D anotazioak erabiltzen dituztenak klaseentzat.

Ikusten duzun modura, Binary Cross-Entropyaren orokorpena da.

Helburu funtzio leunak optimizatzen.

Optimizatzailea martxan jartzen da pisuen eguneraketa egiteko. Gogoratu optimizatzailearen helburua ahalik eta pisu egokienak topatzea dela, eta optimoenak helburu funtzioa minimizatzen dutenak izango direla. Optimizatzaileak deribatuaren norabidean pauso txikiak ematen eguneratzen ditu pisuak.

Stochastic Gradient Descent (SGD): Pisuen eguneraketa egikaritzeko oinarrizko algoritmoa.

w

loop until convergence do

for each wi in w do

wi

Algoritmoak 4 zati nagusi ditu

  1. Aurrerantz egitea propagazioa eta iragarpenak lortzea.
  2. Helburu funtzioaren balioa lortzea eta akumulatzea.
  3. Helburu funtzioaren parametroekiko gradienteak lortzea.
  4. Pisuak eguneratzea.

Prozesu iteratibo honen bitartez pisuak pixkanaka-pixkanaka doitzen doaz. Optimizatzaileak, hortaz, laugarren puntuan dauka eragin zuzena.

Hau da, zehazki, pisu eguneraketa nola egiten den zehazten du. SGDren kasuan oso modu primitiboan egiten dena: w = random value // for i in range(num_epochs): // w = w - n∇L(w)

SGD + momentum n = learning rate

SGD baino optimizatzaile konplexuagoa da, Inertzia kontzeptua gehitzen duena.

Momentum gabe: Ot

Momentum gehituz: Vt

Adagrad

Parametro bakoitzak learning rate espezifiko bat, ikasten ari den kopuruaren arabera. Historia (Cache) bat mantentzen da.

cache = cache + grad ^2 eta O ∇ J / erro(cache + Epsilon)

Adagrad leundua = RMSProp

Lan batzuetan Adagrad agresibotzat jotzen da, eta ikasketa parametroaren balioak azkarregi txikitzen dituela ondorioztatu.

Honela RMSProp optimizatzailea definitzen da, Adagrad-en eboluzio leundu modura.

cache = decay * cache + (1 - decay) * gradient^2

param = param - learn_rate * grad / sqrt (cache + epsilon)

Adam

Ikusi dugun guztia batera jarrita Adam lortzen da. Gaur egun defektuzko optimizatzailea dena, framework askotan.

  1. Adagraden learning rate indibidualizatuak erabiltzen ditu (v).
  2. RMSPropen katxe leunduaren mekanismoa integratzen du (m).

mt_txapela = mt / 1-beta1^t eta vt_txapela = vt / 1-beta2^t eta Ot+1

SVM Support Vector Machine

Neurona-sareekin dute erlazioa, erregresio logistikoaren antzekoak baitira.

Zein da neurona-sareekiko desberdintasuna orduan? SVM ereduak, neurona-sarretan oinarritzen diren ereduak ez bezala, MMC motako ereduak dira.

Maximum Margin Classifiers deritzen ereduak programazio kuadratikoko kontzeptuak erabiliz doitzen dira SGDrekin doitu ordez.

Hau da, SVM ereduetan Convex optimazation egiten da.

“In machine learning, a margin classifier is a classifier which is able to give an associated distance from the decision boundary for each example”. La linea que separa a las dos clases. Convex Optimizazion: “Convex optimization is a subfield of mathematical optimization that studies the problem of minimizing convex functions over convex sets”

Quadratic Programming: “Quadratic programming is the process of solving certain mathematical optimization problems involving quadratic functions. The aim is to optimize a multivariate quadratic function subject to linear constraints on the variables.”

SVM ereduak eredu diskriminanteak dira, linealak eta ez-linealak.

Oinarrizko Kontu Geometrikoak

Bektore ortogonala -> w^T*X + b = 0 -> 2Dimentsio

eta horri ez-linealtasuna gehituta, erregresio logistikoa lortzen dugu.

Bi klase aukeratzeko, erregresio logistikoan berdin dio zein lerro horizontal edo bertikal, betiere klaseak ondo banatzen baditu, eta Cross Entropyaren Loss-a = 0 den. MMCtan ez dio berdin. MMC-ak lerro diskriminante hoberena aukeratzen du, non onenak esan nahi du puntu guztiekiko distantzia minimoa maximizatu nahi dugula.

Zergatik gehitzen da erregularizazioa LogisticRegression sailkatzailean? Ereduak konfiantza maila maximizatu nahi duelako! W handiak XW balio handia eragiten duelako (pr handia). W edo Kte x W baliokidea da sailkapena egiteko.

Marjinak

Maximum Margin Classification: min_dist = min dist(i) eta objective: max min_dist

Nola lortzen da lerro diskriminante hau? (Functional margin). Erregresio linealetik bidea egingo dugu!

w^T*xi + b > 0, yi = +1 eta w^T*xi + b i(wTXi+b) = γ _txapela

Maximum Margin Classification berridatzi daiteke:

γ _txapela = min γ_txapela^(i)

Kontuz! Marjin funtzionala ez da norma bat. Horregatik, intuizioa ondo jasotzen badu ere ezin da distantziak kalkulatzeko erabili. Beste modu batera esanda, lerroa osatzen duten W balioen eskalaren menpekoa da eta ez dago normalizatua.

Gure helburua, diskriminante lerroarekiko ortogonalak diren bektore normalizatuak aurkitzea da.

Horiei Marjin Geometriko deritze. Nola deribatu marjin geometrikoa? (erantzuna aljebra da)

(Formula batzuk...) 2 Kontzeptu garrantzitsu ditugu:

Functional margin: sailkapen konfiantza (intuizioa)
Geometric margin: Puntutik diskriminanterako norma

Bien arteko erlazioa: γ_i = γ_txapela_i / ||w||

Beraz, SVM helburu funtzioa honela berridatzi daiteke:

max yraro

s.t. yi*(w^T*xi + b) >= yraro

Ojo! Erlazioa ez dago balore zehatz baten menpe, normaren menpe baino. Beraz: yraro = 1 / ||w|| eta Honek esan nahi du: Marjin funtzionala optimizatzeko… marjin geometrikoa optimizatuko dugula … eta hori pisuen normaren menpe dagoela. SVM-ren helburu funtzioa honela utziz:

max 1 / ||w||  -> min 1/2*||w||^2

s.t. yi*(w^T*xi + b) >= 1

Hau programazio kuadratikoaren bitartez ebatzi daiteke.

Programazio Koadratikoa

Bizitza errealean ez da beti posiblea problema horrela ebaztea, ez baitago lerrorik diskriminazio egokia egin dezakeena. Outlayerrekin, diskriminazio lerroek ondo sailkatzea overfitting egin dezake. Erregularizazioa egin behar da.

Nola? Soft Margin SVM. Marjin geometrikoen baldintzak datu instantziekin betetzen ez badira, terminoa handiagoa izango da. Formula: min 1/2* || w || ^2 + C ∑ epsilon_raro

s.t. yi * (w^T*xi + b ) >= 1- epsilon_raro

C parametroa:

C Altua -> Asmatze tasa altua, overfitting altua, complex decision boundary, support vector asko

C baxua -> Asmatze tasa baxua, overfitting baxua, simple decision boundary, support vector gutxi.

Hinge Helburu Funtzioa

SVM + erregularizazioa kontuan hartzen duen loss-a Hinge da. Loss horrekin SGD erabili daiteke.

epsilon_raro_i = yi(w^T*xi + b)

L = 1/ 2 w^T*w + C  ∑ max(0,1- yi(w^T*xi + b)

Galera funtzio honen deribatua honakoa izango da:

∇wL = w - C ∑  yi*xi eta dL/db = - C ∑ yi

Ondo sailkatuentzat ez dago gradienterik!

Dualitatea

Problema nagusia P* izango da eta duala D* izango da. D*-ren soluzio duala D da.

Gure helburua: P* = D* espazioa existitzen bada, orduan, P ebatzi beharrean D ebatziko da. Horretarako Ikerketa Operatiboa erabiliko da: max f(x,y) eta s.t. g(x,y) = 0

SVM helburu funtzioa kontuan hartuz, honela idatzi dezakegu aurrekoa:

f(w,b) = 1/2 *  ||w||^2

gi(w,b) = 1 - yi*(w^T*xi + b)

Zertarako egiten dugu hau?

Lagrange Dualitatearen ekuazioa idatzita… Duala ebaztean alfa asko 0 dira eragiketak sinplifikatuz. Eta dualaren helburuan ez dago marjin geometrikoaren norma eragiketak sinplifikatuz. Eta dualaren helburuan inputak (x) bere horretan azaltzen dira. Honek kernel ez-linealak erabiltzeko aukera ematen du.

SVM-Nonlinear SVM

Hortaz…. forma duala idatzita

SVM baten ikasketa eta iragarpen prozesua sinplifikatzen da. Eta gainera, eragiketa eskalarren bitartez egin daitezke operazioak

Horrenbestez, aldagaien X espazioan aldaketak egin daitezke:

x -> φ(x), fit (φ(x),y), predict(φ(x) )

Biderketa eskalarrak bakarrik egin ordez “beste” eragiketa bat egin genezake ->

Kernela: K(x,x') = φ^T*(x)*φ*(x)' !!!!!!!!!!!!!

Ikasketa eta iragazpenak egiteko, biformulazioa egingo da.

max  ∑ αi - 0.5  ∑  ∑ αi*αi*yi*yi*K(xi,xj) -> Train

y_txapela = sign ( ∑ αi*yi*K(xi,x) + b ) -> Predict

Kernel ezagunenak hauek dira:

Linear Kernel (No kernel!), Polynomial Kernel, Gaussian Kernel, Sigmoid Kernel, String Kernel.

Kernel sinple baten bitartez ezaugarrien dimentsionalitatea areagotu dugu! Baina benetan feature horiek esplizituki kalkulatu gabe!

Kernel Trikimailua -> x,y (not separable) -> Kernels -> x1,x2,x3,x4 (separable) solution -> non linear separation  x,y (not separable)

Kernel Gaussiarra:

Distribuzio gaussiarraren forma berdina, baina balio desnormalizatuekin.

K(x,x') = exp(-γ || x-x' || ^2) eta γ = 1 / 2*σ2), non γ is like precision (inverse variance) eta σ2 is like variance. high variance = low precision = fat. low variance = high precision = skinny

Kernel gaussiarra antzekotasunak neurtzeko erabiltzen da
X == X’ bada, balio maximoa lortzen da: 1
X eta X’ urrundu ahala 0ra hurbiltzen da balioa

Kernel Gaussiarrak puntu batekiko bal

ore konzentrikoak kalkulatzen ditu (countours)
Erradio horietan aurrera edo atzera egiteak aldatzen ditu kernelaren balioak
Gamma parametroarekin kanpaiaren estutasuna kontrolatu daiteke
Kernel hau RBF modura ezagutzen da
Radial Basis Function

Kernel gausiarra desnormalizatua dagoenez, erabili aurretik sarrerak normalizatzea komeni da

Kernel Gaussiarra - Gamma parametroa

Gamma funtzio gausiarra modelatzen duen parametroa da
Honen arabera instantzia eta soporte bektoreen distantzia neurtzen da
Gamma altua bada distantzia zehaztasun altuak eskatzen dira eta lerro diskriminante fina lortzen da

Gamma bajua bada distantzia zehaztasunak malguak dira eta lerro diskriminante erlaxatuagoa lortzen da

Beraz, High gamma: High trainning accuracy, Overfit, Complex Decision Boundary.

Low Gmma: Low tranning accuracy, Underfit, Simple Decision Boundary.


IKASKETA AHULA:

Mundu errealako aplikazioentzat, etiketatzeko KOSTUA oso GARESTIA izan daiteke. Etiketak ere zarata izan dezakete, subjektibitatea, erroreak edo informazio txarra erabili delako etiketatzeko. Zer egin daiteke egoera horietan?

Arazoa kategorizatu (3 dimentsio): Instantzia eta etiketa lotura motak aztertu, Training prozesua aztertu,Iragarpen prozesua aztertu

Instantzia eta etiketa lotura (1 dimentsioa)

4 lotura mota

Single-Instance Single-Label (SISL):  3 karratu -> borobil bat (morea) eta hiru karratu -> borobil bat (horia)

Single-Instance Multi-Label (SIML): 3karratu bi flecha -> borobil (morea) /triangelu (horie) eta hiru karratu -> bi flecha eta borobil (horie) /triangelu (horie) 

Multiple-instances single-label (MISL): hiru karratu bi aldiz -> borobil bat morea

Multiple-instance multi-label (MIML): hiru karratu bi aldiz baino baten sartuta -> borobil (morea) /triangelu (horie)

Training prozesua. (2 dimentsioa)

Full / Strong Supervision-> Instantzia guztiak daude etiketatuak.

Unsupervision -> Instantziak ez daude etiketatuak

Semi or Weak Supervision ->Instantzia batzuk daude etiketatuak:

1. Osatugabea -> Soilik datu zati bat dago etiketatua. Entrenamenduko datubaseak ez du ikasketa prozesurako beharrezkoa den informazio guztia.

2. Ez-zehatza -> Etiketak ez dira zehatzak.

3. Ez-zuzena -> Entrenamendurako datuak okerrak dira edo erroreak dituzte.

1.1Osatugabea:

Datu etiketatu gutxi ematen zaizkigu, ez dena nahikoa ondo entrenatzeko, eta datu etiketatu gabeko asko ditugu. Kasu desberdinak ditugu:


1.Positive - negative - unlabeled: Etiketak +/- eta etiketa gabeko datuak.

2.Positive - unlabeled: Soilik datu positibo eta ez sailkatuak.

3. Positive-confidence: Sailkapen bitarra instantzia positibo eta konfiantzarekin (Zenbat konfiantza dago ondo etiketatua egoteko)

Etiketatu gabeko datuak sailkapeneko asmatze tasa hobetzen laguntzen du. Problema domeinuari buruzko informazioa eman dezake. Hala ere, ez du beti laguntzen, asumizio batzuk hori lan egiteko behar dira.

Asumizioak honakoak dira:

1.Oinarrizko marginal data banaketa p(x) sarrera espaziokoa posteriori banaketaren informazioa eduki behar du. Honakoa betetzen ez bada, EZINEZKOA da iragarpenen, Asmatze tasa hobetzea, etiketatu gabeko datuetan.

2. Smoothness -> Bi instantzia x eta x' hurbil badaude espazioan, bere etiketak berdinak izan behar dira.

3. Low-density -> Decision boundary delakoa ez da dentsitate altuko tarteetatik pasa behar.

4. Manifold -> Dimentsio baxuko kolektoreko berdineko instantziak etiketa berdina dute.

2.1 EZ zehatza:

Datu etiketatu batzuk daude, baina ez zehatzak. Honako kasuak eman daitezke:

1.Candidates labels -> Instatntzia bakoitzeko, klase MULTZO bat ematen da. Multzo honetan, instantziaren etiketa erreala sortzen da.

2.Complementary labels -> Instantzia bakoitzeko, etiketa klase bat erreala ez dena ematen zaio. Honakoa, candidate label kasu bezala uler daiteke, non klase guztiak ematen diren bat kenduta.

3. Probabilistic labels -> Instantzia bakoitzeko, klase bakoitzekoa izateko probabilitatea ematen da. Probabilitate banaketa honek probabilitate altua eman behar dire klase errealari.


4. Ground learning -> Adibide bakoitzarentzako, anotatzaile askok bere kategorizazioa egingo dute, ondoren, dena batuko da. Obserbazioak oso desberdinak izan daitezke.

5.Mutual label constraints -> Adibide talde bakoitzerako, erlazio esplizitua klase etiketen artean ematen da. (adibide guztiak kategorizazio berdina.)

6.Candidate labeling vectors -> Adibide multzo bakoitzerako, etiketa-bektore multzoa ematen da (erreala bertan dago). Bektore etiketak etiketa bat ematen dio multzoko instantzia bakoitzari.

7. Label proportions -> Adibide talde bakoitzerako, klase bakoitzeko instantzia proportzioa ematen da. Proportzioak matrize bidez errepresenta daitezke.

3.1 EZ zuzena:

Etiketatze informazioak erroreak izan ditzake. Gainbegiratze informazioa ez da beti erreala.

Noisy labels -> Etiketatze inperfekzio edo korrupzioak. Honakoa obserbazio bariantza dela eta edo etiketatzean adituek egindako erroreengatik.

Zarata motak -> Nosy completely at random (NCAR), Noisy at random (NAR), Noisy at not random (NNAR).

Zarataren ondorioak -> Sailkapen eraginkortasun okertzea, Ikasketa baldintza eta eredu konplexutasunean eragina, Klaseenn maiztasunetan distortsioa eta zereginetan eragina.

Gainbegiraketa ikaskuntza eta predizkioan

1. Learning stage -> Gainbegiraketa inplementatzen da ikaskuntzan instantzia batzuk edo instantzia-multzo batzuk etiketatuak daudenean.

2. Prediction stage -> Kasu batzuetan, iragarpenak egitean inplementa daiteke. Adibidez, test datuentzat etiketa kandidatoak ematen direnean.

Characterization of wsc problems

Karakterizazioa hiru elementutan oinarritzen da:

1.Instance-label erlazioa, 2. Gainbegiraketa ereduak entrenamenduan, 3.Gainbegiraketa ereduak ikasketan. BAITA KASU KONBINAKETAK DAUDE.


Iragarpen prozesua. (3 dimentsioa)  Hainbat modu daude honi aurre egiteko.

Disagreement-based methods:

Ezaugarriak: -Hainbat eredu sortu haien artean kolaboratzen dutenak etiketatu gabeko datuekin lan egiteko. -Ereduen arteko desadostasuna kruziala da ikasketa prozesua jarraitzeko.

Metodoak: -Methods based on multiple learners and ensembling classifiers:  N sailkatzailek beti emaitza hobea lortuko dute k

-Self-trainning: Eredu bat entrenatzen du etiketatutako multzo batean eta etiketatu gabeko beste multzo batean. Ereduaren etiketatu gabeko datuen gaineko iragarpenak erabiltzen dituzte informazio gehigarria lortzeko entrenamenduan erabiliko dena.

ALGORITMOA: Ereduak klasearen probabilitatea iragartzen du etiketa gabeko datu guztientzako U multzoan. Eta, probableena den klasea r baino altuagoa bada, x datua gehituko da, pseudo-label bezala arg max(prob) izanda.

Eredu honek ezin ditu bere akats propioak zuzendu eta erroreak handiagoak egiten dira. Auto bias arazoak.

-Co-trainning: Bi eredu entrenatzean datza, bi ezaugarri multzo desberdin erabiliz. Eredu bakoitza konfiantza altuko iragarpenak hartzen dituzte eta iragarpenak pseudo-etiketa bezala ezartzen dira, entrenamenduan erabiliko dena. Honakoa ereduak konbinatuz hobetu daiteke.

-(esambles) Tri-trainning -> Lehenik, hiru eredu etiketadun datu multzoko banaketekin entrenatzen da. Etiketatu gabeko datu bat gehituko da m_i eredu multzoan, besti bi ereduek bere etiketan ados egiten badute.

Garrantzitsua da hiru ereduak desberdinak izatea.

ALGORITMOA: Metodo honetan, mj eta mk ereduak bat ezarri behar dute etiketatu gabeko datu batean, baina mj ereduak ez. Azken bi eredu hauek eredu bakoitzerako iragarpenak egin behar dira etiketatu gabeko datu guztietan. Horregatik garestiak izan daitezke datu multzo handietan.


Generative parametric methods

Modelo probabilistikoak erabili anotatu gabeko etiketak sortzeko

Scikit-lern-eko predict_proba funtzioa

Modelo probabilistikoak behartuta daude probabilitate masak sortzeko eta horregatik beti ahalko dugu label probableena esleitu

Low-density separation methods

Decision boundary-ari constraint batzuk ezarri

1. Smoothness -> Bi instantzia x eta x' hurbil badaude espazioan, bere etiketak berdinak izan behar dira. Diapo 42

2.Low-density -> Decision boundary delakoa ez da dentsitate altuko tarteetatik pasa behar. 

3.Manifold -> Dimentsio baxuko kolektoreko berdineko instantziak etiketa berdina dute.

4.P-Confidence: Confidence indicates how strong is the certainty about the sampled being assigned the given label. DIAP 44.

Noise reducing methods (5/5) 

1.Neighborhood methods based on generative AI / graphs / entropy: Try to fix labels using bayesian priors on the mislabeled, Try to fix labels using neighborhood data.

2.Kernel based methods or space transformation methods (PCA edo SVD)

3.Clustering methods: Detect and correct inconsistencies based on agglutinative clustering


GRAPH BASED METHODS
Ezaugarriak:

Grafo bat sortu, non nodoak entrenamendu instantziak diren eta ertzak instantzien arteko erlazioak.
Ertzak normalen parekitasuna eta distantzia errepresentatu.
Etiketa informazioa grafoan propagatzen da kriterio baten arabera.


Bi etapa daudegrafoetan oinarritutako metodoek egiteko:

Grafoa Sortu: Parekotasun grafoak datu guztietan oinarrituta sortzen da, etiketatu eta etiketa gabeko instantziekin sortuta.
Etiketa inferentzia: Etiketatze informazioa etiketatu gabekoetara propagatzen da.


Bi hurbilketak eman daitezke:

Transduktiboa: Soilik etiketatu gabeko nodoen etiketa inferitu.
Induktiboa: M ereduak ikusi gabeko edozein etiketa iragarri.


Grafoak erregularizatzeko funtzio bat aurkitu behar da, grafoan baldintza hauek betetzen dituena:

-Emandako etiketetako ixia izan beharko da.
-Leuna izan beharko da grafo osoan zehar.


Grafoan embedding-ak ateratzeko, grafoak behe mailako espazio batean errepresentatzeko alegia, honako bi pausoak eman behar dira:

1.Encoder Eredu batek nodo bakoitza dimentsio txikiko espazioan mapeatu.
2.Decoder Eredu bat diseinatu embedding-ak sarrera bezela hartzeko eta informazioa berreraikitzeko.


Metrika sinpleak:

Positive: Klasea 1 balio du. ETA Negative: -1 balioa. GRAFIKO!

-True Positive: Class 1 correctly predicted as 1

-True Negative: Class -1 correctly predicted as -1

-False Positive: Class -1 INcorrectly predicted as 1

-False Negative: Class 1 INcorrectly predicted as -1

Asmatze tasa: TP + TN / TP+FP+FN+TN

Precision measures the proportion of correctly predicted positive observations to the total predicted positives.

Abantailak: Erabilgarria da positibo faltsuen kostua handia denean, zuzenak diren iragarpen positiboen proportzioan oinarritzen baita. Ereduaren aurreikuspen positiboen kalitateari buruzko informazioa ematen du.

Desabantailak: Ez ditu aintzat hartzen gezurrezko negatiboak; beraz, engainagarria izan daiteke ereduak instantzia positiboak atzemateko tasa txikia duenean.

Precision = TP / TP +FP -> Precision measures the proportion of correctly predicted positive observations to the total predicted positives.

Abantailak: Erabilgarria da positibo faltsuen kostua handia denean, zuzenak diren iragarpen positiboen proportzioan oinarritzen baita. Ereduaren aurreikuspen positiboen kalitateari buruzko informazioa ematen du.

Desabantailak: Ez ditu aintzat hartzen gezurrezko negatiboak; beraz, engainagarria izan daiteke ereduak instantzia positiboak atzemateko tasa txikia duenean.

RECALL : TPR = TP / TP + FN -> Sensitivity or TPR-> Recall mesaures the proportion of correctly predicted positive observations to all observations in actual class - yes.

Abantailak: Erabilgarria da negatibo faltsuen kostua handia denean, ereduak egoki hauteman ditzakeen instantzia positiboen proportzioari erreparatzen baitio. Ereduak instantzia positiboak hartzeko duen gaitasunari buruzko informazioa ematen du. Desabantailak: Ez ditu aintzat hartzen positibo faltsuak; beraz, engainagarria izan daiteke ereduak positibo faltsuen tasa handia duenean.


Baino hobeto -> Balanced Accuracy= (TP/P + TN/N) / 2

Errore-tasa: FP+FN / TP+FP+FN+TN

False Negative Rate: FNR = FN/TP+FN

False Positive Rate: FPR = FP/FP+TN -> The FPR measures the proportion of incorrectly predicted positive observations out of all actual negatives.
Abantailak: Erabilgarria da eskaera negatiboen sailkapenean ereduaren errendimendua ebaluatzeko. Positibotzat gaizki sailkatutako instantzia negatiboen proportzioari buruzko informazio zehatza ematen du. Desabantailak: Ez du ereduaren errendimenduaren irudi osoa ematen, sailkapenaren alderdi batean baino ez baitu arreta jartzen. Zehaztasunaren eta indarberritzearen arteko oreka positibo faltsuen tasa baino kritikoagoa den problemetan, garrantzi gutxiago izan dezake.

True Negative Rate: TNR = TN/FP+TN -> Specificity

F1 Score = 2 x (Precision * Recall) / (Precision + Recall) -> F1 Score = 2TP / 2TP + FP +FN ->  The F1 Score is the harmonic mean of Precision and Recall, providing a balance between them. It is particularly useful when the class distribution is imbalanced.

Abantailak: Zehaztasuna eta indarberritzea hartzen ditu kontuan, bi metriken arteko oreka emanez. Neurgailu orokor gisa erabil daiteke, datu-multzo desorekatuetako sailkatzaileen errendimendua ebaluatzeko. Desabantailak: Nekez interpreta daiteke, bi metrikoren konbinazioa baita. Egoera guztietan ez da egokia izango, batez ere zehaztasunari edo indarberritzeari lehentasun desberdina eman behar zaionean.

SCORING OHIKOENAK: AUC: ROC kurbaren azpiko azalera

Klaseak modu egokian aurresateko ereduaren gaitasuna adierazten du. AUC balioak 0 eta 1 artean daude, 1 perfektua izanik eta 0.5 random bezain ona dela.

AUC balioa hobetzeko: 1.Ezaugarri gehiago gehitu dataset-ean helburuaren informazio gehiago ematen dutenak. 2.Eredua hobetu parametroak doituz eta eredu mota aldatuz. 3.Probabilitate atalasae aldatu, klaseak aukeratzerako orduan. HACER IMAGEN diapo 22:


EZOHIKO IA -> MultiDimensionalClassification

1.CLUSTERING: K-MEANS. 

Arazoak? Sensitive to initialization eta Local minima

Hobekuntzak ? SOFT K MEANS

Diferencias Clave entre k-means y Soft k-means
Esleipen gogorra vs leuna:

k-means: Puntu bakoitza cluster bakarrekoa da, modu deterministan.
Soft k-means: Puntu bakoitza hainbat clusterretakoa da, eta partaidetza-maila desberdinak ditu. Probabilitate batekin.
Zentroideak:

k-means: Zentroideak cluster bakoitzari esleitutako puntuen batezbestekoa erabiliz eguneratzen dira.
Soft k-means: Zentroideak puntuen partaidetza-maila haztatuak erabiliz eguneratzen dira.

Gaussian Mixture Models ~ Soft K-Means

Bi ereduak  oso antzekoak dira!

Gogoratu GMMa ponderatutako Distribuzio Gaussiarren Agregazioa dela

Datuak multimodalak direnean erabiltzen dira

Training a GMM: Soft K-means bezala! -> Compute responsibilities eta Update model parameters.

Formulak tema 4.0 diapo 33. 

GMM-a Soft K-means en generalizazio bat da!

2.Agglutinative methods

Metodo aglomeratzaileak taldekatze hierarkikoko algoritmo mota bat dira, klusterren hierarkia bat (taldekatzeak) eraikitzen duena. Datu-puntu bakoitzarekin cluster bereizi gisa hasten dira, eta, urrats bakoitzean, hurbilen dauden bi clusterrak fusionatzen dituzte, harik eta datu-puntu guztiak dituen cluster bakarra eratu arte. Zein fusionatu erabakitzeko klusterren arteko distantzia neurtzeko modua "linkage" (lotura) da. Single (bi klusterretako puntuen arteko distantziarik laburrena da), complete (bi klusterreko puntuen arteko distantziarik luzeena da),


mean (bi klusterreko puntuen arteko batez besteko distantzia hartzen du kontuan), ward linkage (Ward-en loturak ez du zuzenean neurtzen puntu edo klusterren arteko distantzia, baizik eta kontuan hartzen du klusterraren barruko karratuen baturaren gehikuntza bi kluster batzen direnean)

3.Zein da sailkapen hierarkikoaren muina? Nola gauzatzen da sailkapen hierarkikoa eta zein metodo ezagutzen dituzu?

Sailkapen hierarkikoa datuak zuhaitz-egitura batean antolatzeari dagokio, non barne-nodo bakoitzak instantzia-talde edo -cluster bat irudikatzen baitu, eta orri nodoek azken klaseak edo sailkapen-etiketak adierazten baitituzte.

Hona hemen sailkapen hierarkikoa nola gauzatzen den:

Flat Classification Approach: instantziak zuzenean sailkatzen dira zuhaitzaren hostoek ordezkatzen dituzten azken kategorietan, zuhaitzaren egitura hierarkikoa kontuan hartu gabe.

Local classifier per node approach:  sailkatzaile independente bat entrenatzen da zuhaitzaren barne-nodo bakoitzerako (nodoak ez dira orriak). Sailkatzaile bakoitza bere subarbolako instantziak bakarrik erabiliz entrenatzen da (nodo horren ondorengo instantziak). Instantzia berri bat sailkatu behar denean, instantziaren ezaugarriak erabiliz jaisten da zuhaitzetik, nodo orri batera iritsi arte, eta, gero, orri horrekin lotutako sailkatzailea erabiltzen da azken iragarpena egiteko.

Local classifier per level approach: zuhaitzaren maila bakoitzerako sailkatzaile bat entrenatzen da. Sailkatzaile bakoitza zuhaitzaren maila horretan dauden instantzia guztiak erabiliz entrenatzen da. Beste instantzia bat sailkatu behar denean, instantziaren ezaugarriak erabiliz jaisten da zuhaitzetik, nahi den mailara iritsi arte, eta, gero, maila horri lotutako sailkatzailea erabiltzen da azken aurresana egiteko.

Metodoak: decision-trees


IKASKETA AHULA-METRIKAK

(Extreme) Multiclass arazo baten aurrean metrika arruntak ez dira adierazgarriak.

Arazo nagusiak:

1.Klaseen arteko balantza eza, 2.Klaseen arteko garrantzia ez da uniformea, 3.Metrika egokia aukeratzeko zailtasuna, 4.Atazaren berezitasunak: weak classification

Metrika bitarra orokortu: Negative desagertu.

Metrika guztien ekuazioak aldatzen dira

Klase balantza kontutan hartuko duten metrika berriak : Mikro eta makro metrikak.

Multiclass metrika ohikoenak:

Accuracy = ∑  aii/ ∑∑ aij, solo hay 1

Precision: Pi = aii / ∑ aki, zutabe

Recall/Sensitive/TPR: Recall_i= aii/ ∑ aik, errenkada 

FPR = ∑ j=1,j!=i, aji / ∑ j=1, j!=i ∑ k=1, ajk

F_B,i = ( 1+B^2) * Precision_i * Recall_i / (B^2*Precision_i) + Recall_i

Metrikak taldekatzeko 2 aukera: (N klase kop)

1.Klasearen tamaina kontuan ez hartzea: Makro metrikak, Klase guztiak berdin balio dute.

Makro metrikak edozein metrika baten batazbesteko arrunta egiten du

Precision_macro = 1/N ∑  Precision_i

2.Klasearen tamaina kontuan hartzea: Mikro metrikak, Klaseak ponderatu tamainaren arabera. Mikro metrikak edozein metrika baten batazbesteko ponderatua egiten du.

Weighted Precision =  ∑ (Precision_i * Class Proportion_i)


METRIKA BERRI BATZUK

Label proportions (lab. gehigarria Weak Classification with keras)

Weak Classification testuinguruan Bag loss erabili badugu

Bag-level empirical loss is defined to compare the real label proportions of a dataset with those aggregated from the predictions of a classifier:

F(D,h_txapela) =  1/m   | F(B_i,h_txapela) |  -> DIAPO 22

Nola ebaluatuko dugu sistema?

Estimazioak egiten konfusio matrizean:

Random Binomial: TP_i = m 


TP estimatu ondoren Konfusio Matrizea lortu ahal da

Reconstruction of the confusion matrix using estimated TP relies on the availability of

Actual and the predicted label proportions for each bag


ERREGRESIOA

Erregresioan, zenbakizko balio jarraitu bat aurresatea da helburua.

Adibidea: Etxe baten prezioa aurresatea haren ezaugarrien arabera, hala nola tamaina, gela-kopurua, etab.

Galera-funtzioaren adibidea: errore koadratiko ertaina (MSE).

Galera kalkulatzeko, ereduko aurresanen arteko karratuaren diferentzia hartzen da kontuan  eta balio errealen arteko diferentzia. Galera-funtzioak diferentzia hori minimizatu nahi du, eta horrek esan nahi du eredua balio errealetatik ahalik eta hurbilen dauden balioak aurresaten saiatzen ari dela.

SAILKAPENA

Sailkapenean, instantzia baten klasea edo kategoria aurresatea da helburua.

Adibidez: Mezu elektronikoak spam edo spam gisa sailkatzea.

Galera-funtzioaren adibidea: Entropia gurutzatua Kategorikoa

Galera kalkulatzeko, klase bakoitzaren probabilitateak benetako etiketekin konparatzen dira. Galera-funtzioak zigortu egiten ditu iragarpen okerrak, eta ereduaren iragarpenen eta etiketa errealen arteko desadostasuna minimizatzen saiatzen da.

DIFERENTZIAK

Erregresioan, helburua zenbakizko balio jarraituak aurresatea da; sailkapenean, berriz, instantzia baten klasea aurresatea da helburua.

Erregresiorako eta sailkapenerako galera-funtzioak desberdinak dira, arazoen izaera dela eta. Erregresioan, Erdiko Errore Koadratikoa (MSE) bezalako metrikak erabiltzen dira iragarpenen eta balio errealen arteko desadostasuna neurtzeko; sailkapenean, berriz, galera-funtzioak erabiltzen dira, hala nola Kategoriaren Entropia Gurutzatua, probabilitate predixoen eta egiazko etiketen arteko desadostasuna neurtzeko.


ENTROPIA: Entropia sistema bateko ziurgabetasunaren edo desordenaren neurri bat da. Ikaskuntza automatikoaren eta informazioaren teoriaren testuinguruan, datu-multzo baten ezpurutasuna edo probabilitate-banaketa bateko ziurgabetasuna kuantifikatzeko erabiltzen da entropia.

Entropia batez ere sailkapen-ereduetan erabiltzen da, hala nola erabaki-zuhaitzetan eta random forest-etan, datu-multzoak nola zatitu edo zatitu erabakitzeko. Helburua entropia minimizatzen duten zatiketak aurkitzea da; horrek esan nahi du ziurgabetasuna murrizten dutela instantzien sailkapenean.

H(S) = - sum(p_i*log2(p_i) -> Entropia maximoa lortzen da klase guztiek probabilitate bera dutenean (ziurgabetasun handiagoa), eta minimoa lortzen du klase batek 1 probabilitatea duenean (ziurgabetasunik gabe, klase hutsa).


Marjinak: Marjinak banatzen den hiperplanotik bi klaseetako datu-puntu hurbilenetara dagoen distantzia perpendikularrari egiten dio erreferentzia. Marjinak garrantzitsuak dira, izan ere, zenbat eta marjina handiagoa izan, orduan eta hobeto orokortuko da eredua datu berrietara. +1: yi(W^T*xi+b)=1, -1:yi(W^T*xi+b)=-1 eta diskriminatzailea w^T*x+b=0 

Distantzia funtzionala: Distantzia funtzionalak neurtzen du erabaki-funtzioaren arabera nola sailkatzen duen bereizte-hiperplano bat datu-puntu jakin batera. Distantzia funtzionalak adierazten du ereduak zenbat "konfiantza" duen datu-puntu baten sailkapenean: γ_i_txapela= y_i(w^T*x + b). Ezin da kalkulatu.
Distantzia geometrikoa: Marjina geometrikoa datu-puntu batetik erabaki-hiperplanora dagoen distantzia perpendikularra da. Espazio euklidiano batean puntutik bereizte-lerroraino dagoen distantzia erreala adierazten du. w pisuen bektorearen arauak normalizatutako tarte funtzionalaren arabera definitzen da. γ_i  = γ_i_txapela  / ||w||= y_i(w^T*x + b)  / ||w||
Bien arteko erlazioa: Distantzia geometrikoa pisu-bektorearen arauak normalizatutako distantzia funtzionala besterik ez da. Normalizazio horren ondorioz, erabaki-funtzioaren irteera distantzia errealeko neurri bihurtzen da ezaugarrien espazioan.
SVM-rako loss funtzioa: HINGE LOSS
Hinge Loss SVM bateko sailkapen-errorea neurtzeko erabiltzen da. Gaizki sailkatuta dauden puntuak eta marjinaren barruan daudenak zigortzea da asmoa. (xi,yi) datu-puntu baterako banda-galeraren funtzioa hau da: L(w,b;xi,yi) = max(0,1 - yi(w^T*xi + b)
Baldin 𝑦𝑖(𝑤𝑇𝑥𝑖+𝑏)≥1:
puntua behar bezala sailkatuta eta marjinatik kanpo dagoenez, galera 0 da.
Baldin 𝑦𝑖(𝑤𝑇𝑥𝑖+𝑏)puntua gaizki sailkatuta edo marjinaren barruan badago, 1−𝑦𝑖(𝑤𝑇𝑥𝑖+𝑏)rekiko galera proportzionala izango da.
n puntu dituen entrenamendu-datu multzo baterako, galera osoa kalkulatzeko, bisagraren galera datu-puntu guztiei batzen zaie: L(w,b) = ∑ max(0,1 - yi(w^T*xi + b) 

La función de optimización combinada que el SVM intenta minimizar es: min 1/2||w||^2 + ∑ max(0,1 - yi(w^T*xi + b)  


Zein da SVM lineal baten eta sare neuronal baten helburu funtzioaren alde nagusiena?

SVM ereduek erregresio lineal/logistikoaren izaera berdina dute. Hala ere, neurona sareetan oinarritzen diren beste eredu batzuk ez bezala, SVMak MMC motako ereduak dira.
Maximum Margin Classifiers deritzen ereduak programazio koadratikoko kontzeptuak erabiliz doitzen dira, SGDren bitartez doitu ordez.
Hau da, SVM ereduetan Convex optimization egiten da. Neurona sare baten helburu funtzioa optimizazio ez konbexu batekin optimizatuko da (SGD eta bere barianteekin) eta aldiz, SVMak optimizazio konbexuaren eskutik (programazio koadratikoko metodoak).

C parametroa: SOFT margin SVM: min 1/2 * ||w||  + C  εi s.t. yi (w^T*xi + b) >= 1-εi ->  C parametroa, Support Vector Machine (SVM) linealean, hiperparametro erabakigarria da, eta marjina maximizatzearen eta okerreko sailkapena minimizatzearen arteko oreka kontrolatzen du. Termino sinpleetan, C ereduak sailkapen-erroreekiko duen tolerantzia erregulatzen du.

Xede-funtzioaren bigarren zatian du eragina, hau da, hinge loss-ean: termino horrek zigortzen ditu sailkapen-akatsak eta marjinaren barruan dauden puntuak.

C Altua -> Ahalik eta puntu gehien behar bezala sailkatzen saiatzen da eredua. Asmatze tasa altua, overfiting altua, complex decision boundary, support vector asko

C baxua -> Ereduak garrantzi handiagoa ematen dio marjina maximizatzeari, eta horrek sailkapen-akats batzuk egin ditzake. Asmatze tasa baxua, overfitting baxua, simple decision boundary, support vector gutxi.

Nola neurtzen da errorea SVM batean?  Marjina leuneko SVM baten testuinguruan dagoen errorea 𝜉𝑖 lasaiera-aldagaiak erabiliz neurtzen da. Aldagai horiei esker, zenbait datu-puntu marjinaren barruan egon daitezke edo gaizki sailkatu. SVMren xede-funtzioa C parametroaren bidez orekatutako pisuen bektorearen araua minimizatzeko doitzen da (marjina maximizatuz), bai eta 𝜉𝑖 lasaiera-aldagaien batura ere, marjinaren bortxaketak minimizatuz. FORMULAS ARRIBA


Nolakoa da C eta overfitting-aren arazoa SVM batean? C altua denean, ereduak gogor zigortzen ditu entrenamendu-multzoko sailkapen okerrak. Horren ondorioz, SVM entrenamendu-datuetara gehiegi egokitzen da, eta puntu bakoitza behar bezala sailkatzen saiatzen da.
Hala, bada, eredu hori sentikorra izan daiteke entrenamendu-datuen zaratarekiko eta ezaugarri ez-garrantzitsuekiko, eta horrek handitu egiten du gaindoitze-probabilitatea. Laburbilduz, C altu batek gaindoikuntza-arriskua areagotu dezake, bereziki datu-multzo txiki edo zaratatsuetan. 

Zer dira soporte bektoreak? Nola kalkulatzen dira? 

Soporte-bektoreak bereizte-hiperplanotik hurbilen dauden datu-puntuak dira SVM batean (Support Vector Machine). Hiperplanoaren kokapena eta orientazioa zehazten duten puntu kritikoak dira. Laburbilduz, ezaugarrien espazioan ereduak "jasaten" dituen puntuak dira.

SVMren entrenamenduan, klaseen arteko tartea maximizatzen duen banantzeko hiperplano optimoa bilatzen du algoritmoak.
Banantzeko hiperplano optimoa aurkitzen denean, banantzeko hiperplanotik hurbilen dauden eta marjina zehazten duten datu-puntuak dira euskarri-bektoreak.

Soporte-bektoreak zehaztu ondoren, haiei lotutako Lagrangeren koefizienteak (𝛼𝑖) zero ez dira. Lagrangeren koefizienteak (𝛼𝑖) SVMaren optimizazio-prozesuan lortzen dira.
Koefiziente ez-nulu horiek erabiliz kalkulatzen dira euskarri-bektoreak.i x soporte-bektore bakoitza dagokion Lagrangeren koefizienteaz (𝛼𝑖) biderkatzen da. SivT221erpWHETFLn7EiH5uvVCFJXI3wfN-qKFgv_zr3BgE2LWkKjm0ptht5BbcgfCqyBxuX8puqwfQdUKN6BTbaVOcU4YPc0XgF8KnTOXenEXUfG4dewg-XyDU1p_wPqOsVL0jSITjUyZc0zlBbuo8 

Zein da overfitting arazoaren eta soporte bektoreen arteko erlazioa SVM batean? Euskarri-bektore gehiegi egoteak entrenamendu-datuetara gehiegi egokitu den eredua adieraz dezake.
Ereduak euskarri-bektore asko dituenean, konplexuegia eta entrenamendu-datuetan zaratarekiko sentikorregia izan daiteke. Horrek gaindoitze bat eragin dezake, non eredua gehiegi egokitzen baita entrenamendu-datuen ezaugarri espezifikoetara eta ez baitu ongi orokortzen datu berrietan.


Zer dira kernelak? Zer kernel ezagutzen dituzu? Idatzi ekuazioak Kernel-ak funtsezko tresna dira ikaskuntza automatikoan, bereziki Support Vector Machines (SVM) metodoetan. Metodo horiei esker, kalkuluak egin daitezke ezaugarri handiagoko espazio batean, espazio horretako puntu bakoitzaren koordenatuak esplizituki kalkulatu beharrik gabe. Kernel-ak ezaugarri eraldatuko espazio batean bi bektoreren arteko barne-biderkadura kalkulatzen duten funtzioak dira.

Kernel lineala kernel sinpleena da, eta datuak jatorrizko espazioan linealki bereiz daitezkeenean erabiltzen da. K(xi,xj) = xi^T*xj

Kernel polinomiala datuak ezaugarri handiagoko espazio bihurtzen ditu funtzio polinomial bat erabiliz. K(xi,xj) = (xi^T*xj   + c)^d

Kernel erradialak (kernel gaussiarra ere deitzen zaio) ezaugarri infinituki dimentsionaleko espazio bihurtzen ditu datuak, funtzio gaussiarra erabiliz. K(xi,xj) = exp (-𝛾 || xi - xj||^2)

Azaldu RBF kernela. Zer da precision parametroa? Zer da bariantza parametroa? RBF kernela funtzio gaussiarra da, eta bi datu-punturen arteko antzekotasuna neurtzen du, dimentsio-ezaugarri infinituko espazio batean.
RBF kerneleko precision-parametroak (𝛾) funtzio gaussiarraren "zabalera" kontrolatzen du. 𝛾-ren balio altuagoak funtzio gaussiar estuagoa esan nahi du, eta hori datuen aldaketa txikiekiko sentikorragoa da. 𝛾-ren balio baxuagoak funtzio gaussiar zabalagoa adierazten du, eta, beraz, eredu leunagoa da, eta ez da hain sentikorra datuen aldaketa txikiekiko.

RBF kernelaren testuinguruan, bariantza funtzio gaussiarraren "zabalerarekin" lotuta dago. Zenbat eta txikiagoa izan funtzio gaussiarraren bariantza (hau da, zenbat eta estuagoa izan banaketa), orduan eta eragin handiagoa izango du datu-puntu bakoitzak puntuen arteko antzekotasunaren kalkuluan. Beraz, bariantza RBF kerneleko (𝛾 ) doitasun-parametroarekin lotuta dago. 𝛾 -ren balio altuagoa funtzio gaussiar estuagoari dagokio, eta, beraz, bariantza txikiagoari, eta alderantziz.


Nola aldatzen da RBF kernelaren jarrera precision edo bariantza aldatzean? Nola eragiten dio honek overfitting-ari? 𝛾-ren balio altu batek gehiegizko doikuntza eragin dezake ereduan, bereziki entrenamendu-datuek zarata badute edo oso konplexuak badira. Eredua gehiegi egokitu daiteke entrenamendu-datuen ezaugarri espezifikoetara, eta, beraz, errendimendu eskasa du behatu gabeko datuetan.
𝛾-ren balio baxu batek ere gaindoitzera eraman dezake, baldin eta eredua leunegia bada eta datuen azpiko erlazioak behar bezala atzematen ez baditu. Kasu horretan, eredua arrazoitu egin daiteke, eta ez datu berrietara ondo orokortu.


Zein aukera daude multilabel arazo bat erasotzeko?

SKLearn taxonomian oinarrituz, etiketa bakoitzeko sailkatzaile bat entrenatu daiteke (MultiOutputClassifier) edo bestela, hainbat sailkatzaile konkatenatu daitezke, sailkatzaile bakoitzak aurreko sailkatzaileen predikzioak erabiliz, ezaugarri gehigarri bezala (ClassifierChain).

Entradas relacionadas: