Poisson-regressio

testwikistä
Siirry navigaatioon Siirry hakuun

Poisson-regressio on yleistettyjen lineaaristen mallien erikoistapaus. Poisson-regressiota käytetään lukumääräaineistojen mallintamiseen. Kuten yleensäkin yleistettyjen lineaaristen mallien kohdalla, tässäkin tapauksessa oletetaan havaintojen riippumattomuus. (Pitkittäisaineistojen kohdalla riippuvuus huomioidaan käyttämällä marginaalimalleja, yleistettyjä lineaarisia sekamalleja tai transitiomalleja.)

Yleistettyjen lineaaristen mallien toinen oletus riippumattomuuden lisäksi on, että Yi:den jakauma kuuluu eksponentiaaliseen perheeseen. Yleistettyjen lineaaristen mallien tapauksessa jakauma kuuluu eksponentiaalisen perheeseen, jos jakauma voidaan kirjoittaa muodossa

fY(yi;θi,ϕ)=exp(yiθia(θi)ϕ+b(yi,ϕ)) ,jossa Ф on skaalaparametri, θ on kanooninen lokaatio ja a() , b() ovat jakaumaspesifejä funktioita.

Poisson-jakauma voidaan kirjoittaa muodossa

fY(yi;μi)=exp(μi)μiyiyi!=exp((yi)log(μi)exp(log(μi))log(yi!))

Nyt

θi=log(μi),ϕ=1,a(θi)=exp(θi).

Viimeisintä voidaan käyttää poisson-jakauman odotusarvon ja varianssin määrittämiseen. (Odotusarvo sekä varianssi ovat µi.) Poisson-jakauma siis kuuluu eksponentiaaliseen perheeseen.

Systemaattiseksi osaksi yleistetyissä lineaarisissa malleissa sanotaan osaa

η𝒊=β1xi1+...+βpxip.

Linkkifunktio linkittää systemaattisen osan vasteen odotusarvoon

g(μ𝒊)=η𝒊=β1xi1+...+βpxip.

Poisson-regressiossa linkkifunktio on gi) = log(µi). Tämän vuoksi estimoitua regressio-kerrointa βi voidaan tulkita poisson-regressiossa seuraavasti. (Olettaen, että interaktioita ei ole.) Verrattaessa kahta yksilöä, jotka poikkeavat vain tarkasteltavan muuttujan suhteen yhdellä yksiköllä, odotettu vasteen lukumäärä muuttuu exp(βi)-kertaiseksi.

Poisson-regressio ja altistus

Monesti ollaan kiinnostuneita tapahtumien intensiteetistä, esimerkiksi liikennekuolemista miljoonaa asukasta kohden. Tällaisissa tapauksissa kirjoitetaan µi = miλi. λi on intensiteetti ja mi on altistuneiden tai altistuksen määrä useimmiten tiettynä aikana (esim. kuukaudessa) tai tietyssä paikassa (esim. Suomessa). Yleistetyissä lineaarisissa malleissa altistuksen logaritmista käytetään nimitystä offset. Intensiteetin logaritmi riippuu lineaarisesti prediktoreista

log(μi)=log(λi)+log(mi)=β1xi1+...+βpxip+log(mi)

Jos intensiteettiä ei tarvitse huomioida, niin offset prediktori log(mi) asetetaan nollaksi eli mi ykköseksi.

Uskottavuusfunktio ja estimointi

Kun käytetään edellisiä merkintöjä (μi = miλi) ja merkitään β1xi1 + ... + βpxip = xiβ, niin uskottavuus voidaan kirjoittaa muodossa

L(β)=i=1nmiexp(x𝒊'β)yiyi!exp(miexp(x𝒊'β))
L(β)=exp(i=1nyix𝒊'βmiexp(x𝒊'β)+yilog(mi)log(yi!))

Suurimman uskottavuuden estimaatit saadaan, kun maksimoidaan uskottavuusfunktion logaritmi. Ratkaisu löytyy asettamalla osittaisderivaatat nolliksi. Kun oletetaan, että selittäjien matriisi X, ykkössarakkeella täydennettynä, on täysiasteinen, niin pätee, että mikäli uskottavuusyhtälöllä logL(β)/∂β = 0 on äärellinen ratkaisu, niin se on yksikäsitteinen suurimman uskottavuuden estimaatti.

Uskottavuusyhtälöt ovat

i=1nyi𝒙𝒊=i=1nmiexp(x𝒊'β)𝒙𝒊

Uskottavuusyhtälöt ratkaistaan numeerisesti IWLS-menetelmällä. Samaa menetelmää käytetään myös logistisen regression tapauksessa. Jos β(0) on alkuarvo, niin seuraava arvo on β(1) = β(0) + δ(1), missä

δ(1)=(𝑿'𝑾(0)𝑿)1𝑿'𝑾(0)𝑼(0)
𝑾(0)=diag[m1exp(𝒙1'β(0)),...,mnexp(𝒙n'β(0))]
𝑼(0)=(y1m1exp(x1'β(0))m1exp(x1'β(0)),,ynmnexp(x𝒏'β(0))mnexp(x𝒏'β(0)))

Suurilla otoksilla pätee likimäärin tulos

βN(β,(𝑿'𝑾(β)𝑿)1),

missä W(β) on kuten W^((0)), mutta β^((0)):n paikalla on (tuntematon) oikea arvo β. Kovarianssimatriisi on Fisherin informaatiomatriisin käänteismatriisi. Fisherin informaatiomatriisi lasketaan derivoimalla uskottavuusfunktio kahdesti ja vaihtamalla etumerkki

𝑰(β)=d2log(L)d2βd2β'=𝑿'𝑾(β)𝑿

Keskivirheet saadaan kun käyetetään matriisia

𝑾^=𝑾(β^)

Devianssi

Devianssin avulla voidaan verrata tiettyä poisson-regressiomallia kyllästettyyn l. saturoituun malliin. Eli siis devianssin avulla voidaan sovittaa sopiva malli. Tässä tapauksessa kyllästetty malli on sellainen, että intensiteetit λ_i saavat arvonsa riippumatta selittäjien arvoista. On osoitettu, että λ_i:n suurimman uskottavuuden estimaatti on

y^i=yimi,i=1,,n

Kyllästetyn mallin ja Poisson-regressiomallin uskottavuudet ovat

L^sat=i=1n(miy^i)yiyi!exp(miy^i)
L^=i=1nmiexp(x𝒊'β^)yiyi!exp(miexp(x𝒊'β^))

Merkitään

λ^i=exp(x𝒊'β^)

Devianssiksi D saadaan tällöin (viimeinen yhtäsuuruus pätee, kun mallissa on vakio)

D=2log(L^satL^)=2i=1nyilog(yimiθ^i)

Devianssi noudattaa likimäärin χ^2(n-p-1)-jakaumaa. Approksimaatio voi olla huono, jos odotetut frekvenssit ovat pieniä. Devianssia voidaan käyttää yhteensopivuustestinä hypoteeseille

H0:log(μi)=log(mi)+x𝒊'β,i=1,,n

Vastahypoteesina on, että odotusarvot µi ovat mielivaltaisia.

Kun oletetaan, että tietty p:n selittäjän poisson-regressiomalli on oikea malli, voidaan testata kertoimien osajoukkoon liittyvää nollahypoteesia

H0:βq+1==βp=0

Vastahypoteesina on, että ainakin jokin βj on erisuurta kuin nolla, j = q+1, ... , p. Testi konstruoidaan maksimoimalla sekä p:n selittäjän (oletettu oikea) malli että suppeampi q:n selittäjän malli, joita merkitään Lp ja Lq. Kun H0 on tosi

2log(L^pL^q)=DqDpχ2(pq) likimäärin. Dp ja Dq ovat laajemman ja suppeamman mallin devianssit.

Tätä sanotaan myös uskottavuusosamäärän testiksi. Toisin sanoen uskottavuusosamäärän testiä voi kuvata niin, että sillä vertaillaan sisäkkäisiä malleja.

AIC ja BIC

Kun uskottavuusosamäärän testillä vertaillaan sisäkkäisiä malleja, niin AIC:n (Akaiken informaatiokriteerin) ja BIC:n (Bayesilaisen informaatiokriteerin) avulla voidaan vertailla muita kilpailevia malleja. Jos mallin valinta tehtäisiin vain informaatiokriteerin perusteella, niin valittaisiin se malli, jolla on pienin AIC (tai BIC).

Jäännökset

Jäännösten avulla voidaan tutkia, onko Poisson-malli oikea ja tarvitseeko selittäjille tehdä muunnoksia. Jäännöskuvioissa ei pitäisi näkyä mitään selkeää kuviota (esim. hevosenkenkää), jotta malli olisi jokseenkin kunnossa. Kun malli on sovitettu ja saatu : log(μ^i)=x𝒊'β^ , niin voidaan laskea standardoidut jäännökset

ri=yimiexp(μi^)miexp(μi^)

Mikäli Poisson-malli on oikea, niin jäännösten pitäisi olla likimäärin riippumattomia, ja niiden odotusarvon pitäisi olla 0 ja keskihajonnan 1. Mallin sopivuutta voidaan testata laskemalla neliösumma Q=i=1nri2, jota verrataan χ2(np1)-jakaumaan. Jäännökset kannattaa piirtää sovitteen ja prediktoreiden suhteen.

Lähteet