Try   HackMD

VAE, Látens változós modellek, Motiváció

Mi a cél?

A probléma, amire a VAE megoldast probal adni az unsupervised learning. Feltételezzük, hogy megfigyeleseink

x1,,xN valamilyen nem ismert eloszlasból,
pD(x)
, származnak, és egymástól függetlenül keletkeztek. (i.i.d. independent and identically distributed). A célunk az, hogy az adatok eloszlását a megfigyelések alapján megközelítsük, vagy leírjuk egy modellel,
pθ(x)
.
pθ(x)
egy valoszinusegi eloszlas a megfigyelesek tereben, amit valamilyen parameterek
θ
irnak le.

Ennek egyik módja hogy a modell likelihood-jat maximalizaljuk, azaz olyan parametereket kerestunk, ami alatt a megfigyések valószínūsége maximális:

θML=argmaxθn=1Nlogpθ(xn)

Ezt azonban általában nehéz, mivel

pθ(xn) kiértékelése csak nagyon egyszerū eloszlások esetén lehetséges, bonyolultabb terekben bonyolultabb modellekre a maximum likelihood becslés nehéz.

Mi az a látens változós modell

a látens változós modell egy olyan modellje

pθ() a megfigyelhetõ változóknak (
x
), amit egy magasabb dimenziós eloszlás margináklisaként definiálunk:

pθ(x)=pθ(x,z)dz,

ahol

z az úgy nevezett látens vagy rejtett változó, vagy azokból alkotott vektor. Mint a neve is sejteti,
z
-t közvetlenül nem figyeljük meg. Például, ha a megfigyelt változók
xn
képek macskákról, a hozzájuk tartozó rejtett változók
zn
leírhatják a macska fajtáját, színét, korát, stb.

Miért jó egy látens változós modell

  1. generative modeling: mert intuitív látens változókkal leírni a világot. Ha mondjuk egy videójátékot játszunk, nagy valószínüséggel van a vilagnak egy kompakt leirasa a szamitogep memoriajaban: hany ellenseg van, hol vannak, merre mennek, stb. A játékos szempontjából a donteshozashoz ezeknek a meg nem figyelheto valtozoknak az ertekei relevansak. Helyette amit megfigyelunk az egy a latens valtozok alapjan renderelt kep. Celszeru ezert ezt a kepet ugy leirni egy modellel, hogy megprobaljuk az alacsony dimenzios latens valtozokat kitalalni belole.
  2. representation/transfer learning: mert egy latens valtozos modellben utana aztan hasznalhatjuk a nyers adatok helyett az egyes megfigyelesekhez tarsitott latens valtozokat, azaz
    xn
    helyett
    zn
    -t, egy kesobbi tanulasi feladatban (representation learning/transfer learning). Itt azt remeljuk hogy a a megtanult latens reprezentacio valamilyen szempontbol hasznos leirasa az adatonak.
  3. manifold learning/dimensionality reduction: mert azt feltételezzük, hogy az adataink, bár magas dimenzióban figyeljük meg õket, valójában egy alacsonyabb dimenziós manifoldon élnek, és effektive sokkal kisebb dimenziójú vektorral is jól leírhatók. Ilyen szempontból gondolhatunk ugy egy latens valtozos modellre, mint egy nemlinearis koordinata-transzformaciora.
  4. flexible models: mert ilyen modon konnyu egyszeru modellekbol komplex modellt kombinalni. Egy rejtett valtozos modellben lehet mind
    pθ(z)
    es
    pθ(x|z)
    nagyon egyszeru, pl. normal eloszlas, ami analitikailag konnyen kezelheto. Viszont amikor kombinaljuk oket,
    pθ(x,z)=pθ(x|z)pθ(z)
    , akkor a megfigyelheto valtozokon szinte tetszolegesen komplex
    pθ(x)
    eloszlast tudunk definialni. Ez tortenik a VAE modellben is.
  5. variational learning:: mert használhatunk ELBO-t arra hogy egy ilyen modelt tanit sunk.