Logistinen regressio

testwikistä
Siirry navigaatioon Siirry hakuun

Logistinen regressio (engl. logistic regression) on tilastollinen malli, joka on erityistyyppi tavanomaisesta regressiomallista. Logistisessa regressiomallissa selitettävä muuttuja on dikotominen eli kaksiluokkainen muuttuja. Selitettävä muuttuja saa arvon 0 tai 1 siten, että se muuttujan luokka, jota halutaan ennustaa, saa arvon 1. Logistinen regressiomalli on siis yleistetty lineaarinen malli, jonka linkkifunktio on g(μi)=ln(μi1μi). Selittävät muuttujat voivat olla suhdeasteikollisia, järjestysasteikollisia tai luokiteltuja.

Logistisella regressioanalyysillä mallinnetaan vastemuuttujan ja selittävien muuttujien suhdetta. Toisin kuin tavanomaisessa regressiomallissa, vasteen odotusarvo on riski (eng. odds). Riski on todennäköisyys, että jokin tapahtuma tapahtuu suhteessa siihen, että se ei tapahdu;
P(Y=1|x)P(Y=0|x) [1]

Malli

Oletetaan, että käytössä on p kappaletta selittäviä muuttujia. Merkitään vasteen odotusarvoa E(Y|x)=π(x). Tehdään vasteen odotusarvolle logistinen muunnos

logit(π(x))=lnπ(x)1π(x) , missä


π(x)1π(x)=P(Y=1|x)P(Y=0|x) .


Silloin logistinen regressiomalli on logit(π(x))=β0+β1x1+...+βpxp [2] , josta ratkaisemalla π(xi) saadaan


lnπ(x)1π(x)=β0+β1x1+...+βpxp

π(x)1π(x)=eβ0+β1x1+...+βpxp


π(x)=eβ0+β1x1+...+βpxp1+eβ0+β1x1+...+βpxp.


Mallin sovittaminen

Yleiselle lineaariselle mallille, jolle vastemuuttuja on jatkuva, mallin sovitus voidaan tehdä pienimmän neliösumman menetelmällä (PNS). Koska logistisella regressiomallilla on dikotominen vaste, menetelmällä estimoitavilla parametreillä β0^+β1^x1+...+βp^xp ei ole tiettyjä ominaisuuksia. Mallin sovitus tehdään Suurimman uskottavuuden menetelmällä (SU), joka on yleistys PNS-menetelmästä.[2] Sitä varten muodostetaan mallille uskottavuusfunktio: oletetaan, että käytössä on usean selittäjän malli. Oletetaan myös, että yksittäinen yij noudattaa Bernoulli-jakaumaa B(π(xi)) ja että vasteet ovat riippumattomia. Silloin niiden summa j=1niyij noudattaa jakaumaa Bin(ni,π(𝒙i)). Uskottavuusfunktio on

𝐋(β)=i=1n(niyi)π(𝒙𝒊)yi[1π(𝒙𝒊)]niyi

Logaritminen uskottavuusfunktio on
L(β)=ln(L(β))=exp[i=1n{yiln[π(𝒙𝒊)]+(niyi)ln[1π(𝒙𝒊)]ln(niyi)}].

Sijoitetaan kaavaan lnπ(𝒙1)1π(xi)=𝒙iβ, derivoidaan 𝑙(β)β ja asetetaan derivaatta nollaksi. Saadaan

yixi=nie𝒙iβ1+exiβ𝒙i josta ratkaistaan β^ numeerisesti.[3]

Devianssi

Devianssin avulla voidaan tutkia, kuinka hyviä valitun mallin ennusteet ovat. Devianssi määritellään

D=2lnsovitetun mallin uskottavuussaturoidun mallin uskottavuus

jossa saturoitu malli tarkoittaa mallia, joka sisältää yhtä monta parametria, kuin havaintoja on, ja sopii siten aineistoon täydellisesti (virhetemit ovat nollia). Devianssilla verrataan siis, kuinka hyvin sovitetun mallin arvot eroavat saturoidusta mallista (verrattavissa lineaarisen regressiomallin jäännösneliösummien vertailuun). Mitä pienempi devianssi on, sitä paremmin malli sopii aineistoon. Devianssin avulla voidaan laskea uskottavuusosamäärän testi, jolla selvitetään, ovatko mallin parametrit β0+β1x1+...+βpxp merkitseviä, eli selittävätkö ne todella vasteen vaihtelua. [4]


Esimerkki

Halutaan tutkia, miten ikä vaikuttaa riskiin sairastua sepelvaltimotautiin. Aineisto sisältää muuttujat
ID= koehenkilön tunniste (koehenkilölle i)
AGE= koehenkilön ikä
CHD= tieto siitä, onko henkilö sairastunut sepelvaltimotautiin vai ei. Jos henkilö on sairastunut, CHD=1 ja jos henkilö ei ole sairastunut, CHD=0.

Malli on

logit(P(CHDi=1))=β0+β1*AGEi


eli P(CHDi=1)=eβ0+β1*AGEi1+eβ0+β1*AGEi


Aineisto
ID AGE CHD
1 20 0
2 23 0
3 24 0
4 25 0
5 25 1
6 26 0
7 26 0
8 28 0
9 28 0
10 29 0
... ... ...
99 65 1
100 69 1


Suurimman uskottavuuden estimoinnilla saadaan β0^=5.309, joka on mallin vakiotermi ja β1^=0.111, joka on kulmakerroin muuttujalle AGE.
[2]
Malli on siis P(CHDi=1)=e5.309+0.111*AGEi1+e5.309+0.111*AGEi.

Tulkinta: Kun verrataan kahta henkilöä, joista toinen on vuoden verran vanhempi, kuin toinen, vanhemmalla henkilöllä on e0.111=1.117395-kertainen todennäköisyys sairastua sepelvaltimotautiin (suhteessa siihen, että ei sairastu), kuin nuoremmalla henkilöllä.


Lähteet

Malline:Viitteet

  1. Yan, X.: Linear Regression Analysis : Theory and Computing (2009).
  2. 2,0 2,1 2,2 Hosmer, D. W., Lemeshow, S. Sturdivant, R. X.: Wiley Series in Probability and Statistics : Applied Logistic Regression (3rd Edition) (2013).
  3. Nyblom, J.: Yleiset lineaariset mallit (2014). Luentomoniste. Lähde kuollut, vuoden 2015 versio täällä.
  4. Larose, D: Data minig and methods and models (2006).