EM-algoritmi

EM-algoritmi (EM on Malline:Lyhenne eli odotusarvon maksimointi) on tilastotieteessä käytetty iteratiivinen menetelmä suurimman uskottavuuden estimaattien löytämiseksi tilastollisten mallien parametreille tilanteessa, jossa osa tiedosta puuttuu. Puuttuva tieto voi olla esimerkiksi piilevä luokkamuuttuja, josta ei saatu lainkaan havaintoja.

Vanhan uskollisen purkautumisiin liittyvän aineiston EM-klusterointi. Jokin aloitusmalli sovitetaan havaittuun aineistoon. (Akseleiden erilaisten mitta-asteikoiden vuoksi jakauma näyttää kahdelta hyvin litteältä ja leveältä soikiolta.) Ensimmäiset iteraatiot muuttavat mallia huomattavasti, minkä jälkeen malli konvergoi kohti geysirin purkausten tyypillisimpiä arvoyhdistelmiä. Visualisointi tehty ELKI:llä.

Kuvaus

Olkoon $θ = (θ_{1}, θ_{2}, . . ., θ_{k})$ aineiston $Y$ jakaumaan liittyvien tuntemattomien parametrien muodostama vektori. Täydelliselle aineistolle uskottavuusfunktio voidaan kirjoittaa muodossa

L (Y | θ) = \prod_{i = 1}^{n} f (y_{i}, θ)

.

Hyvin usein osa oleellisista tiedosta jää kuitenkin havaitsematta. Täydellinen data voidaan jakaa kahteen osaan: havaittuun aineistoon $X$ ja puuttuvaan aineistoon $Z$ . Tällöin täydellisen aineiston uskottavuus saadaan kirjoitettua muotoon

L (X, Z | θ) = L (X | θ) L (Z | X, θ)

.

Ottamalla logaritmi puolittain lauseke saadaan muotoon

\log L (X | θ) = \log L (X, Z | θ) - \log L (Z | X, θ)

.

Oletetaan mallin parametreille tunnettu arvo $θ = θ^{(t)}$ iteraatiolla $t$ . Tällöin edellä esitetyn lausekkeen odotusarvo puuttuvien havaintojen suhteen on

E_{Z | X, θ = θ^{(t)}} [\log L (X | θ)] = E_{Z | X, θ = θ^{(t)}} [\log L (X, Z | θ) - \log L (Z | X, θ)]

.

Merkitään nyt täydellisen aineiston logaritmista uskottavuutta seuraavasti:

\begin{matrix} Q (θ | θ^{(t)}) & = E_{Z | X, θ = θ^{(t)}} [\log L (X, Z | θ)] \\ = \int \log L (X, Z | θ) L (Z | X, θ^{(t)}) d Z \end{matrix}

Algoritmissa toistetaan vuorotellen kahta askelta:

E-askel: Johda termin

Q (θ | θ^{(t)})

lauseke.

M-askel: Etsi parametrille

θ

sellainen arvo

θ^{(t + 1)}

, että uskottavuus maksimoituu.

Aluksi tuntemattomille parametreille asetetaan alkuarvot $θ^{(0)}$ . Ensimmäinen iteraatio aloitetaan siis laskemalla $Q (θ | θ^{(0)})$ .

Varsinainen iteratiivinen algoritmi joudutaan johtamaan erikseen kullekin tilanteelle. ^[1]^[2]

Ominaisuuksia

Käytettäessä EM-algoritmia uskottavuusfunktion arvo kasvaa jokaisella iteraatiolla ja parametrin estimaatti lähestyy monotonisesti suurimman uskottavuuden estimaattia.^[3]^[2]

EM-algoritmi on hyödyllinen uskottavuuden tullessa eksponenttisesta perheestä: E-askel sievenee tyhjentävien tunnuslukujen odotusarvojen summaksi ja M-askeleessa maksimoidaan lineaarista funktiota. Tällaisessa tapauksessa voidaan usein johtaa suljettu muoto askelten päivittämiseksi Sundbergin kaavalla (Rolf Sundberg julkaisi kaavan, mutta hän hyödynsi Per Martin-Löfin ja Anders Martin-Löfin julkaisemattomia tuloksia). ^[4]^[5]^[6]^[7]^[8]^[9]^[10]

Esimerkkejä

Gaussinen sekoitus

Olkoon $𝐱 = (𝐱_{1}, 𝐱_{2}, \dots, 𝐱_{n})$ $n$ -kokoinen otos riippumattomia havaintoja kahdesta moniulotteisesta normaalijakaumasta, ulottuvuuksien määrä $d > 1$ . Olkoot $𝐳 = (z_{1}, z_{2}, \dots, z_{n})$ latentteja muuttujia, jotka kertovat kummasta ryhmästä kyseinen havainto on peräisin.^[2]

X_{i} | (Z_{i} = 1) \sim 𝒩_{d} (μ_{1}, Σ_{1})

\, ja \,

X_{i} | (Z_{i} = 2) \sim 𝒩_{d} (μ_{2}, Σ_{2})

,

missä

P (Z_{i} = 1) = τ_{1}

ja

P (Z_{i} = 2) = τ_{2} = 1 - τ_{1}

.

Tavoite on estimoida jakaumien tuntemattomat keskiarvot ja kovarianssit, sekä jakaumien sekoittumista kuvaava arvo $τ$ :

θ = (τ, μ_{1}, μ_{2}, Σ_{1}, Σ_{2})

,

missä uskottavuusfunktio on:

L (θ; 𝐱, 𝐳) = P (𝐱, 𝐳 | θ) = \prod_{i = 1}^{n} \sum_{j = 1}^{2} 𝕀 (z_{i} = j) τ_{j} f (𝐱_{i}; μ_{j}, Σ_{j})

,

missä $𝕀$ on indikaattorifunktio ja $f$ on moniulotteisen normaalijakauman tiheysfunktio. Tämä voidaan kirjoittaa uudelleen eksponenttisen perheen muotoon:

L (θ; 𝐱, 𝐳) = \exp {\sum_{i = 1}^{n} \sum_{j = 1}^{2} 𝕀 (z_{i} = j) [\log τ_{j} - \frac{1}{2} \log | Σ_{j} | - \frac{1}{2} (𝐱_{i} - μ_{j})^{⊤} Σ_{j}^{- 1} (𝐱_{i} - μ_{j}) - \frac{d}{2} \log (2 π)]} .

Voidaan huomata, että kullekin i indikaattori $𝕀 (z_{i} = j)$ saa arvon yksi vain yhdellä j, ja toisella j indikaattorin arvo on nolla. Sisempi summa siis supistuu yhdeksi lausekkeeksi eikä summausta tarvita.

E-askel

Oletetaan, että meillä on parametrien estimaatit θ^(t). Tällöin Z_i:n ehdollinen jakauma voidaan kirjoittaa todennäköisyytenä Bayesin kaavan mukaisesti:

T_{j, i}^{(t)} : = P (Z_{i} = j | X_{i} = 𝐱_{i}; θ^{(t)}) = \frac{τ_{j}^{(t)} f (𝐱_{i}; μ_{j}^{(t)}, Σ_{j}^{(t)})}{τ_{1}^{(t)} f (𝐱_{i}; μ_{1}^{(t)}, Σ_{1}^{(t)}) + τ_{2}^{(t)} f (𝐱_{i}; μ_{2}^{(t)}, Σ_{2}^{(t)})}

.

Siten E-askel johtaa seuraavaan funktioon:

\begin{matrix} Q (θ | θ^{(t)}) & = E [\log L (θ; 𝐱, 𝐳)] \\ = E [\log \prod_{i = 1}^{n} L (θ; 𝐱_{i}, 𝐳_{i})] \\ = E [\sum_{i = 1}^{n} \log L (θ; 𝐱_{i}, 𝐳_{i})] \\ = \sum_{i = 1}^{n} E [\log L (θ; 𝐱_{i}, 𝐳_{i})] \\ = \sum_{i = 1}^{n} \sum_{j = 1}^{2} T_{j, i}^{(t)} [\log τ_{j} - \frac{1}{2} \log | Σ_{j} | - \frac{1}{2} (𝐱_{i} - μ_{j})^{⊤} Σ_{j}^{- 1} (𝐱_{i} - μ_{j}) - \frac{d}{2} \log (2 π)] \end{matrix}

M-askel

Huomataan, että $τ, (μ_{1}, Σ_{1})$ ja $(μ_{2}, Σ_{2})$ voidaan kukin maksimoida toisistaan riippumatta, sillä ne ovat edellä esitetyssä lausekkeessa eri termeissä.

Tarkastellaan aluksi parametria τ, jolla on rajoite τ₁ + τ₂=1:

\begin{matrix} τ^{(t + 1)} & = \underset{τ}{a r g m a x} Q (θ | θ^{(t)}) \\ = \underset{τ}{a r g m a x} {[\sum_{i = 1}^{n} T_{1, i}^{(t)}] \log τ_{1} + [\sum_{i = 1}^{n} T_{2, i}^{(t)}] \log τ_{2}} \end{matrix}

Tämä on samaa muotoa kuin binomijakauman suurimman uskottavuuden estimaatti. Siten

τ_{j}^{(t + 1)} = \frac{\sum_{i = 1}^{n} T_{j, i}^{(t)}}{\sum_{i = 1}^{n} (T_{1, i}^{(t)} + T_{2, i}^{(t)})} = \frac{1}{n} \sum_{i = 1}^{n} T_{j, i}^{(t)}

.

Tarkastellaan seuraavaksi parametrien $(μ_{1}, Σ_{1})$ estimaatteja:

\begin{matrix} (μ_{1}^{(t + 1)}, Σ_{1}^{(t + 1)}) & = \underset{μ_{1}, Σ_{1}}{a r g m a x} Q (θ | θ^{(t)}) \\ = \underset{μ_{1}, Σ_{1}}{a r g m a x} \sum_{i = 1}^{n} T_{1, i}^{(t)} {- \frac{1}{2} \log | Σ_{1} | - \frac{1}{2} (𝐱_{i} - μ_{1})^{⊤} Σ_{1}^{- 1} (𝐱_{i} - μ_{1})} \end{matrix}

Tämä on samaa muotoa normaalijakauman painotetun SU-estimaatin kanssa, joten

μ_{1}^{(t + 1)} = \frac{\sum_{i = 1}^{n} T_{1, i}^{(t)} 𝐱_{i}}{\sum_{i = 1}^{n} T_{1, i}^{(t)}}

ja

Σ_{1}^{(t + 1)} = \frac{\sum_{i = 1}^{n} T_{1, i}^{(t)} (𝐱_{i} - μ_{1}^{(t + 1)}) (𝐱_{i} - μ_{1}^{(t + 1)})^{⊤}}{\sum_{i = 1}^{n} T_{1, i}^{(t)}}

.

Vastaavasti

μ_{2}^{(t + 1)} = \frac{\sum_{i = 1}^{n} T_{2, i}^{(t)} 𝐱_{i}}{\sum_{i = 1}^{n} T_{2, i}^{(t)}}

ja

Σ_{2}^{(t + 1)} = \frac{\sum_{i = 1}^{n} T_{2, i}^{(t)} (𝐱_{i} - μ_{2}^{(t + 1)}) (𝐱_{i} - μ_{2}^{(t + 1)})^{⊤}}{\sum_{i = 1}^{n} T_{2, i}^{(t)}}

.

Lopettaminen

Lopeta iterointi, jos $\log L (θ^{t}; 𝐱, 𝐳)$ ja $\log L (θ^{(t - 1)}; 𝐱, 𝐳)$ ovat riittävän lähellä toisiaan (erotus alle jonkin ennalta asetetun kynnysarvon).

Yleistäminen

Yllä esitetty algoritmi voidaan yleistää useampien kuin kahden monimuuttujaisen normaalijakauman sekoituksille.

Historiaa

EM-algoritmin historia jaetaan usein kirjoittajien Dempster, Laird ja Rubin vuonna 1977 ilmestynyttä artikkelia^[11] edeltävään ja sitä seuraavaan aikaan. Kyseisessä artikkelissa annettiin runsaasti esimerkkejä algoritmin sovelluksista, ja kuvailtiin sen konvergenssiä ja muita perusominaisuuksia. Tätä artikkelia kutsutaan usein DLR-artikkeliksi. ^[1]

Ennen DLR-artikkelia

Kirjallisuudessa ensimmäinen maininta liittyen EM-tyyppiseen algoritmiin esiintyy Newcombin vuoden 1886 artikkelissa ^[12] kahden yksiulotteisen normaalijakauman sekoituksesta.

Vuonna 1960 Buck ^[13] esitteli p-ulotteisen populaation keskiarvovektorin ja kovarianssimatriisin estimointia tilanteessa, jossa osa aineistosta puuttui. Hän käytti regressiota ja puuttuvien havaintojen selittämistä havaitulla aineistolla. Hänen menetelmässään tarvitut regressiokertoimet ja kovarianssimatriisin kerrointen korjaukset saadaan yhdellä täydellisten havaintojen informaatiomatriisin kääntämisellä ja sopivilla matriisilaskuilla. EM-algoritmin peruselementit esiintyvät Buckin menetelmässä.

EM-algoritmin soveltamista Markov-malleille käsiteltiin sarjassa artikkeleita: Baum ja Petrie (1966), Baum ja Eagon (1967) ja Baum, Petrie, Soules ja Weiss (1970). Nämä artikkelit sisältävät helposti yleistettävissä olevia konvergenssituloksia. Näissä artikkeleissa kehitetty algoritmi toimii myös perustana nykyään käytetyille piilo-Markov-mallien EM-algoritmeille.^[14]^[15]^[16]

Vuonna 1972 Orchard ja Woodbury esittelivät täydellisen ja ei-täydellisen aineiston logaritmisten uskottavuusfunktioiden välisen suhteen.^[17]

DLR-artikkelin jälkeen

Rajapyykkinä toimivan artikkelin jälkeen EM-algoritmia on sovellettu muun muassa neuroverkkoihin, koneoppimisessa, psykometriikassa ja lääketieteellisessä kuvantamisessa (esimerkiksi PET-kuvauksissa).^[1]

Lähteet

Malline:Viitteet

↑ ^1,0 ^1,1 ^1,2 Viittausvirhe: Virheellinen <ref>-elementti; viitettä mclachlan ei löytynyt
↑ ^2,0 ^2,1 ^2,2 Viittausvirhe: Virheellinen <ref>-elementti; viitettä hastie2001 ei löytynyt
↑ Viittausvirhe: Virheellinen <ref>-elementti; viitettä Navidi ei löytynyt
↑ Viittausvirhe: Virheellinen <ref>-elementti; viitettä Sundberg1971 ei löytynyt
↑ Viittausvirhe: Virheellinen <ref>-elementti; viitettä Sundberg1976 ei löytynyt
↑ Viittausvirhe: Virheellinen <ref>-elementti; viitettä Martin-Löf1963 ei löytynyt
↑ Viittausvirhe: Virheellinen <ref>-elementti; viitettä Martin-Löf1966 ei löytynyt
↑ Viittausvirhe: Virheellinen <ref>-elementti; viitettä Martin-Löf1970 ei löytynyt
↑ Viittausvirhe: Virheellinen <ref>-elementti; viitettä Martin-Löf1974a ei löytynyt
↑ Viittausvirhe: Virheellinen <ref>-elementti; viitettä Martin-Löf1974b ei löytynyt
↑ Viittausvirhe: Virheellinen <ref>-elementti; viitettä Dempster1977 ei löytynyt
↑ Viittausvirhe: Virheellinen <ref>-elementti; viitettä newcomb ei löytynyt
↑ Viittausvirhe: Virheellinen <ref>-elementti; viitettä buck ei löytynyt
↑ Viittausvirhe: Virheellinen <ref>-elementti; viitettä baum1 ei löytynyt
↑ Viittausvirhe: Virheellinen <ref>-elementti; viitettä baum2 ei löytynyt
↑ Viittausvirhe: Virheellinen <ref>-elementti; viitettä baum3 ei löytynyt
↑ Viittausvirhe: Virheellinen <ref>-elementti; viitettä orchard ei löytynyt

[mclachlan-1] 1,0 ^1,1 ^1,2 Viittausvirhe: Virheellinen <ref>-elementti; viitettä mclachlan ei löytynyt

[hastie2001-2] 2,0 ^2,1 ^2,2 Viittausvirhe: Virheellinen <ref>-elementti; viitettä hastie2001 ei löytynyt

[Navidi-3] Viittausvirhe: Virheellinen <ref>-elementti; viitettä Navidi ei löytynyt

[Sundberg1971-4] Viittausvirhe: Virheellinen <ref>-elementti; viitettä Sundberg1971 ei löytynyt

[Sundberg1976-5] Viittausvirhe: Virheellinen <ref>-elementti; viitettä Sundberg1976 ei löytynyt

[Martin-Löf1963-6] Viittausvirhe: Virheellinen <ref>-elementti; viitettä Martin-Löf1963 ei löytynyt

[Martin-Löf1966-7] Viittausvirhe: Virheellinen <ref>-elementti; viitettä Martin-Löf1966 ei löytynyt

[Martin-Löf1970-8] Viittausvirhe: Virheellinen <ref>-elementti; viitettä Martin-Löf1970 ei löytynyt

[Martin-Löf1974a-9] Viittausvirhe: Virheellinen <ref>-elementti; viitettä Martin-Löf1974a ei löytynyt

[Martin-Löf1974b-10] Viittausvirhe: Virheellinen <ref>-elementti; viitettä Martin-Löf1974b ei löytynyt

[Dempster1977-11] Viittausvirhe: Virheellinen <ref>-elementti; viitettä Dempster1977 ei löytynyt

[newcomb-12] Viittausvirhe: Virheellinen <ref>-elementti; viitettä newcomb ei löytynyt

[buck-13] Viittausvirhe: Virheellinen <ref>-elementti; viitettä buck ei löytynyt

[baum1-14] Viittausvirhe: Virheellinen <ref>-elementti; viitettä baum1 ei löytynyt

[baum2-15] Viittausvirhe: Virheellinen <ref>-elementti; viitettä baum2 ei löytynyt

[baum3-16] Viittausvirhe: Virheellinen <ref>-elementti; viitettä baum3 ei löytynyt

[orchard-17] Viittausvirhe: Virheellinen <ref>-elementti; viitettä orchard ei löytynyt

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

EM-algoritmi

Sisällys

Kuvaus

Ominaisuuksia

Esimerkkejä

Gaussinen sekoitus

E-askel

M-askel

Lopettaminen

Yleistäminen

Historiaa

Ennen DLR-artikkelia

DLR-artikkelin jälkeen

Lähteet

Navigointivalikko

EM-algoritmi

Kuvaus

Ominaisuuksia

Esimerkkejä

Gaussinen sekoitus

E-askel

M-askel

Lopettaminen

Yleistäminen

Historiaa

Ennen DLR-artikkelia

DLR-artikkelin jälkeen

Lähteet

Navigointivalikko

Haku