Se dodajanje naključnega hrupa skritim slojem šteje za regularizacijo? Kakšna je razlika med tem in dodajanjem osipa in normalizacije serije?


Odgovor 1:

Da, dodajanje naključnega hrupa skritim slojem je regularizacija na popolnoma enak način, kot je osip. Ključna intuicija pri tem je, da če je nevronski odziv na vsaki plasti bučen, potem mora trening prilagoditi uteži ločenim kategorijam z zavojem, ki je večji od hrupa. Tako bi morala biti v času preskusa, ko hrup odsoten, klasifikacija stabilnejša. To je zelo podobno delovanju klasifikacije najvišjih marž in vsi vemo, kako uspešne so bile tehnike najvišjih marž (npr. Podporni vektorski stroji). Paziti morate, da hrup ne preplavi signala.

Izpadanje velja za metodo regularizacije, ker izvaja povprečno model. To pomeni, da je med treningom model v določenem trenutku dejansko porazdelitev verjetnosti na razred modelov nevronskih mrež, v katerih so uteži določene, vendar kateri od nevronov v modelu lahko manjka. Celotna verjetnost vsake nevronske mreže je določena s posamezno verjetnostjo, da je določen nevron prisoten ali odsoten. To je regularizacija, saj povprečno presega pristranskost posameznih primerov in zgladi stroškovno funkcijo.

Dodajanje naključnega hrupa skritemu sloju deluje na enak način, vendar z drugačno porazdelitvijo verjetnosti. Namesto da imate določene uteži, imate fiksno topologijo in verjetnostna porazdelitev uteži izbere naključno glede na Gaussovo porazdelitev, ki je osredotočena na "prave" uteži, tj. Uteži, ki jih hranite na trdem disku. Ponovno je to povprečje modela in mora imeti regulacionarni vpliv, pri čemer opozarja, da hrup (variance) ne sme preplaviti signala. Na primer, če prvič uporabite BatchNorm, boste imeli približno standardni normalen izhodni profil (enote, centrirane na nič z odstopanjem ena), nato pa lahko uporabite hrup z odstopanjem, recimo 0,1. Z različico se lahko igrate, če želite videti, kaj deluje.

EDIT: Ker je omenjeno vprašanje BatchNorm, sem želel opozoriti, da BatchNorm v resnici ne uporablja za regularizacijo. To pomeni, da BatchNorm stroškov ne zgladi. Namesto tega je dodan BatchNorm, da bi izboljšali učinkovitost povratne širitve. V bistvu preprečuje, da bi se naklon širine hrbta preveč povečal ali postal majhen s spreminjanjem in ponovnim ocenjevanjem; kot tehnika ima globlje povezave z metodami optimizacije drugega reda, ki poskušajo modelirati ukrivljenost stroškovne površine. Kot sem že omenil, lahko BatchNorm uporabimo tudi za zagotovitev, da je relativno skaliranje pravilno, če boste nevronskim aktivnostim dodali naključni hrup.


Odgovor 2:

To bi bil optimistični trik bolj kot regularizacija.

Učinek mora biti enakovreden učinku stohastičnosti v SGD.

SGD in njegove metode navdiha Monte Carlo preprečujejo, da bi se zataknili v slabih lokalnih minimah, tako da vsakič naključno korakajo, namesto da bi strogo upoštevali smer najbolj strmega spuščanja; ali narediti nekaj enakovrednega v svojih različnih inkarnacijah, npr. dodajanje naključne komponente vsakemu koraku, namesto da občasno naredite naključni korak.

Če z utežmi dodamo šibek naključni hrup, bomo dosegli natanko enako. [Namig: Gradient spust prav tako doda nekaj uteži v vsaki ponovitvi!]


Odgovor 3:

UREDI:

Dodajanje naključnega hrupa, ki je naključno razporejen z vhodnimi podatki, v vhodne podatke vsake plasti lahko naredi vaš model bolj trden do majhnih sprememb podatkov, ki vašemu omrežju omogočajo boljše razlikovanje hrupa od signala. Kot je dejal Zeeshan Zia, bi bil to v bistvu stohasti gradient spodoben. Te ureditve še vedno ne bi upošteval. Bolj kot tehnika, ki vam pomaga, da se vaš model nauči vzorcev za ločevanje hrupa od signala.

Izpadanje naključno onemogoči določen delež vozlišč v skriti plasti na vsakem prehodu. To izboljša omrežje, saj ga prisili, da se nauči prepoznati iste vzorce na več načinov, kar vodi k boljšemu modelu.

Normiranje šarže je, če vnesete vnose v plast in poskrbite, da so vsi normalizirani med 0 in 1. To pomaga omrežju, da se bolje uči, ker ohranja gradient spodoben bolj dosleden in gladek. Na ta način se izognete skakanju minima, ker je vaš naklon prevelik.