Statikstik II 2. Lektion Lidt sandsynlighedsregning

Slides:



Advertisements
Lignende præsentationer
Repetition Goodness of Fit Uafhængighed i Kontingenstabeller
Advertisements

Hypotese test – kapitel 6 (Signifikans test)
Anvendt Statistik Lektion 3
Dummyvariabler 13. oktober 2006
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Statistik Lektion 18 Multipel Linear Regression
Anvendt Statistik Lektion 4
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 2
Statistik Lektion 3 Simultan fordelte stokastiske variable
Anvendt Statistik Lektion 9
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
Statistik og sandsynlighedsregning
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Anvendt Statistik Lektion 2
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Statistik II 5. Lektion Log-lineære modeller.
Statistik Lektion 3 Bernoulli og binomial fordelingerne
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik II Lektion 4 Generelle Lineære Modeller
Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statistik Lektion 16 Multipel Lineær Regression
Bernoulli og binomial fordelingerne
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri – lektion 8 Multipel Lineær Regression
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Statistik Lektion 8 Test for ens varians.
Kvantitative metoder 2: F31 Kvantitative metoder 2 Beskrivende statistik og analyse af kvalitatitive data 12. februar 2007.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Lineær og logistisk regression - fortsat
Logistisk regression - fortsat
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Logistisk regression –Odds/Odds ratio Probit model Fortolkning udfra latent variabel.
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 4
Anvendt Statistik Lektion 6
Præsentationens transcript:

Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Lidt sandsynlighedsregning Lad A være en hændelse (et eller flere mulige udfald af et ”eksperiment”) Fx A = ”Det regner i morgen” P(A) = Sandsynligheden for hændelsen A. 0 ≤ P(A) ≤ 1 P(Det modsatte af A) = 1- P(A)

Stokastisk variabel X stokastisk variabel (SV) = ”tilfældigt tal” X R (de reelle tal) X er en diskret SV, hvis X kan tage tælleligt mange værdier. Fx. X = antal spil på rouletten inden succes X er en kontinuert SV, hvis X kan tage alle værdier i et interval. Fx. X = Højden på en tilfældigt valgt person.

Tæthedsfunktion Antag X kontinuert SV. Fordelingen af X kan angives ved sandsynlighedstæthedsfunktion (probability density function (PDF)) f(x). Egenskaber for PDF f(x) for SV X:

Tegning

Middelværdi og varians Lad X være en kontinuert SV med PDF f. Middelværdien aka den forventede værdi af X er Variansen af X er

Eksempel: Normalfordelingen Antag X er normalfordelt SV med middelværdi m = E[X] varians s2 Notation: X~N(m, s2) PDF:

Eksempel: Normalfordelingen Antag X~N(m, s2) Da gælder P(-1.96s ≤ X ≤ +1.96s) = 0.95 s = = “Standard-afvigelsen” = “Standard error” = ”Standard fejl” Areal = 95%  -1.96s  +1.96s

Signifikanstest – side 1 0) Opstil statistisk model 1) Opstil Nul-hypotese (H0, arbejds-hypotese) - den ”simple” hypotese Alternativ-hypotesen (H1) – den modsatte hypotese af H0. 2) Vælg teststørrelse Talstørrelse, der beskriver hvordan data passer til nul-hypotesen. Noter hvilke værdier af teststørrelsen der er ufordelagtige for H0.

Signifikanstest – side 2 Bestemt fordelingen af teststørrelsen under antagelse af, at H0 er sand. Vælg signifikansniveau α – typisk α=0.05 eller α=0.01. Beregn P-værdien – sandsynligheden for at observere en mere ufordelagtig teststørrelse ved næste ”eksperiment”, under antagelse af, at H0 er sand. Beslutning: Hvis p-værdi < α : Afvis H0 og accepter H1. Hvis p-værid ≥ α : Vi kan ikke afvise H0.

Eksempel - repetition To kategoriske variable X og Y. X har c kategorier Y har r kategorier Oij er antallet af observationer, hvor X er i i’te kategori Y er i j’te kategori Hypoteser: H0: X og Y er uafhængige H1: X og Y er afhængige

Eksempel - fortsat Teststørrelse Hvor Ci = Antal observationer med X=i. Rj = Antal observationer med Y=j. N = Total antal observationer

Eksempel - fortsat Tegning: Jo større X2 jo mere ufordelagtig for H0. Hvis H0 er sand gælder ”X2 følger en chi-i-anden fordeling med (r-1)(c-1) frihedsgrader”. Tegning:

Bemærkninger til c2-test c2-testet kan generelt bruges i situationer, hvor man kan sammenligne observerede antal observationer med det forventede antal under en H0-hypotese. - det kan dog være tricky at finde det korrekte antal frihedsgrader For en 2x2 tabel (r = c = 2) Kontinuitets korrektion – så passer X2’s fordeling bedre med c2(1)-fordelingen. c2-testet er et ikke-parametrisk test.

Logistisk regression: Motivation Sammenhængen ml. køn og selvvurdering Er der en sammenhæng? Er de 13.6% signifikant forskellige fra de 9.0%? Er du en god læser Nej Ja Total Køn Dreng 106 13.6% 672 86.4% 778 100.0% Pige 77 9.0% 776 91.0% 853 100.0% 183 11.2% 1448 88.8% 1631 100.0%

Omkodning Vi omkoder de dikotome variable til binære variable: Køn = Dreng => X = 0 Køn = Pige => X = 1 God læser = Nej => Y = 0 God læser = Ja => Y = 1

Generel 2x2 tabel Generel tabel: To binære variable X og Y: Er der en sammenhæng? Hvis p0 = p1 er X og Y uafhængige. Y 1 X 1-p0 = P(Y=0|X=0) p0 = P(Y=1|X=0) 1-p1 = P(Y=0|X=0) p1 = P(Y=1|X=0)

Odds og logit Lad X være binær variabel med P(X=1)=p. Definition odds: Hvor Fortolkning: Odds(X=1)=2 betyder at X=1 er dobbelt så sandsynligt som X=0 Definition logit:

Odds og odds-ratio De to betingede odds: Odds-ratio: Hvis X og Y uafhængige har vi og

Logit og logit-forskelle De to betingede logits: Logit-forskel: Hvis X og Y uafhængige har vi og

Lidt regneri Lad og Logit-forskellen er da De to betingede sandsynligheder er da Igen: Hvis β=0 har vi p0=p1, dvs. uafhængighed.

Fortolkning af ea og eb Vi har Dvs. Oddset for Y=1 ændres med en faktor eb , når X går fra 0 til 1.

Statistisk model Definer βx for x=0,1: β0 = 0 β1 = β. Model:

Statistisk model – alternativ formulering Bemærk: logit(Y=1|X=x) = α + βx.

Estimation Lad og betegne estimaterne af de sande, men ukendte parametere a og b. Parametrene a og b estimeres ved maximum-likelihood metoden: Definer funktion L( , ; data), der siger, hvor ”troelig” (likely) data under vores model for givne og . Vi vælger og så L er størst mulig (ordnes af SPSS)

Konfidens-interval for logit-forskel Generelt har vi Et 95% konfidens-interval for logit-forskel β: Husk: Logit-forskel = ln(Odds-ratio), dvs. Odds-ratio = logit-forskel. Et 95% konfidens-interval for odds-ratio:

Signifikanstest Hypoteser Teststørrelse: (Wald teststør.) H0: β = 0 (uafhængighed) H1: β = 0 (afhængighed) Teststørrelse: (Wald teststør.) Under H0 gælder: Store værdier af Z2 er ufordelagtige for H0.

SPSS Analyzy→ Regression → Binary Logistic

SPSS Output Model: Model: b SE(b) Z2 p-værdi a eb 95% konf-int. for b

Kategorisk forklarende variabel Indtil nu har X fungeret som en binær forklarende variabel. Antag at den forklarende variabel er kategorisk med k kategorier. Som før kan en kategorisk variabel omkodes til heltal. Antag at X er en diskret variabel der kan tage værdierne 1,…,k. Hva’ nu?

Eksempel: k=3 Sammenhængen ml. læsehastighed og selvvurdering Er der en sammenhæng? Er du en god læser Nej Ja Total Sætnings-læsning Hurtig 80 6.3% 1199 93.7% 1279 100.0% Langsom 80 28.1% 205 71.9% 285 100.0% Usikker 11 35.5% 20 64.5% 31 100.0% 171 11.2% 1424 88.8% 1595 100.0%

Uafhængighed Hvis der er uafhængighed skal de tre mulige Odds i tabellen være ens: Odds(God = Ja|Hastighed = Hurtig) Odds(God = Ja|Hastighed = Langsom) Odds(God = Ja|Hastighed = Usikker) Ved to Odds sammenligner vi de to Odds ved et Odds-ratio. Her?

Sammenligning af mange Odds Vi vælger en reference kategori, fx. Læsehastighed = Hurtig. Vi sammenligner nu Odds for hver kategori med Odds for reference-kategorien, vha. et Odds-ratio. På den måde får vi (k-1) Odds-ratios. Hvis alle (k-1) Odds-ratios er 1 er alle Odds ens og vi har uafhængighed. Tilsvarende er alle logit-forskelle = 0.