Statistik Lektion 20 Ikke-parametriske metoder

Slides:

Advertisements

Lignende præsentationer

Case: Tekst på Call-To-Action link

Advertisements

Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Hypotese test – kapitel 6 (Signifikans test)

Repræsentativitet Opsamling fra sidst Repræsentativitet (χ2-test)

Anvendt Statistik Lektion 3

Repræsentativitet Sandsynligheden for at få krone ved kast med en mønt

Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori

Anvendt Statistik Lektion 4

Akademi Merkonomer Statistik Aften 5

Statistik og sandsynlighedsregning

Statistik Lektion 17 Multipel Lineær Regression

Program Informationer χ2-test (chi-i-anden) Projekt 3

Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen

Anvendt Statistik Lektion 6

Anvendt Statistik Lektion 2

Statistik Lektion 3 Simultan fordelte stokastiske variable

Anvendt Statistik Lektion 9

Anvendt Statistik Lektion 5

Sammenligning af to grupper

Sammenligning af to grupper – kapitel 7

Variansanalyse Modelkontrol

Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen

Anvendt Statistik Lektion 3

Anvendt Statistik Lektion 6

Anvendt Statistik Lektion 8

Statistik Lektion 5 Log-lineære modeller.

Anvendt Statistik Lektion 8

Statistik II Lektion 5 Modelkontrol

Anvendt Statistik Lektion 2

Statistik Lektion 6 Konfidensinterval for andele og varians

Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Signifikanstest ved (en eller) to stikprøver

Learning Objectives 5 Steps of a Significance Test Assumptions

Dagens program Test of Independence (chi-i-anden) Videre med projekt 3

Statistik II 5. Lektion Log-lineære modeller.

Statistik Lektion 3 Bernoulli og binomial fordelingerne

Statistisk inferens Dagens program Grupper, opgave 1

Learning Objectives 5 Steps of a Significance Test Assumptions

Program 1.Påmindelser Pivottabeller og pivotgrafer Omkodning af data (sortering, søg-erstat) Bevar de originale data og lav kontroller 2.Hvem er målgruppen.

Statistik Lektion 7 Hypotesetest og kritiske værdier

Statistik Lektion 7 Hypotesetest og kritiske værdier

Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen

Anvendt Statistik Lektion 7

Anvendt Statistik Lektion 9

Statikstik II 2. Lektion Lidt sandsynlighedsregning

Simpel Lineær Regression

Opsamling Simpel/Multipel Lineær Regression Logistisk Regression

Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl

Multipel Lineær Regression

Repetition Fortolkning af odds Test i logistisk regression

Statikstik II 2. Lektion Lidt sandsynlighedsregning

Statistik Lektion 7 Hypotesetest og kritiske værdier

Økonometri – lektion 7 Multipel Lineær Regression

Økonometri – lektion 5 Multipel Lineær Regression

Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.

Økonometri – lektion 8 Multipel Lineær Regression

Simpel Lineær Regression

Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.

Simpel Lineær Regression

Grundlæggende teoretisk statistik

Statistik Lektion 8 Test for ens varians.

Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Sammenhænge ml. variabler, styrke og signifikans Tirsdag den 20. marts, kl.

Statistik II 4. Lektion Logistisk regression.

Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.

Anvendt Statistik Lektion 8

Niveau 2: Hypotesetestning

Anvendt Statistik Lektion 4

Program – dag 2 (11. april 2011) Dag 2:

Anvendt Statistik Lektion 6

Præsentationens transcript:

Statistik Lektion 20 Ikke-parametriske metoder Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Run Test Er sekvensen PPPKKKPPPKKKPPKKKPPP opstået tilfældigt? Et ”run” er en sekvens af ens elementer, der kommer efter og før en anden slags (eller ingen) elementer. PKPKPKPKPK 10 runs 10 elementer PPPPPKKKKK 2 runs 10 elementer PPKKKPKPPP 5 runs 10 elementer n1=antal P’er n2=antal K’er n=n1+n2 Højt eller lavt antal runs taler mod en tilfældig sekvens.

Run Test af Residualer Husk: Residualer bør være uafhængige. En måde at tjekke dette på er at betragte sekvensen af residualer. Et run test betragter runs af positive og negative residualer. Residual Fortegn -8,15254 - 6,38790 + -8,61210 - 5,15812 + -14,49721 - -11,46320 - -8,26743 - -7,41633 - -10,18655 - 20,23901 + -17,95677 - -10,80787 - -15,03765 - . .

Run Test af Residualer i SPSS I SPSS: Analyze→Nonparametric Tests→Run ’Cut Point’ deler data i to grupper. En gruppe består af data med værdier under ’Cut Point’ og en anden med værdier over ’Cut Point’. Vi vælger 0 som Cut Point. Da n=2586 benytter vi normal fordelings approksimationen. Med Z=1,941 accepterer vi H0.

Sammenligning af to populationer Eksempel: Er der forskel på fordelingen af hhv alder og højde mellem mænd og kvinder? To ikke-parametriske test: Wald-Wolfowitz Test (Baseret på runs) Mann-Whitney U Test (Baseret på ranks) SPSS: Analyze→Nonparametric Tests→2 Independent Samples

Wald-Wolfowitz Test De to stikprøver tildeles ranks som om de kom fra én stikprøve. En gennemgang a ranks opstår runs. Kun kritisk med få runs. Med n>2500 kan vi bruge normalfordelings approksmationen. Konklusion: Forskellen i fordelingen af alder er ikke signifikant (P-værdi=0.413) Forskellen i fordelingen af højde er signifikant (P-værdi=0.000) Den store forskel i største og mindste antal runs skyldes mange ”ties” i data.

Mann-Whitney U Test De to stikprøver tildeles ranks som om de kom fra én stikprøve. R1 = Sum af ranks for første gruppe. Stort eller lille R1 taler imod nul-hypotesen om at de to fordelinger er ens. Med n>2500 kan vi bruge normalfordelings approksmationen. Konklusion: Forskellen i fordelingen af alder er ikke signifikant (P-værdi=0.413) Forskellen i fordelingen af højde er signifikant (P-værdi=0.000)

Wilcoxon Signed-rank Test Bruges ved sammenligning af to populationer med parrede observationer. Et alternativ til parret t-test eller sign-test. H0: Medianen af differenser mellem pop1 og pop2 er forskellig fra nul. H1: Nix Antagelser: Fordeling af differenser er symmetrisk. Differenserne er indbyrdes uafhængige Observationerne er mindst intervalskaleret Di = X1,i – X2,i differensen for i’te par.

Wilcoxon Signed-rank Test Beregning: Udregn alle differenser, Di = X1,i – X2,i. Find ranks for |Di| (den absolutte værdi af Di). Find sum af ranks af |Di| hvor Di>0 og sum af ranks af |Di| hvor Di<0 og I bogens notation: Σ(+) og Σ(-) Wilcoxon signed-rank test: T = min[ Σ(+) , Σ(-) ] SPSS: Analyze → Nonparametric Tests → 2 Related Samples

Kruskal-Wallis Test Et alternativt test til F-testet i en ensidet variansanalyse af k populationer. I variansanalysen antages at alle k populationer er normalfordelte med samme varians. I Kruskal-Wallis testes: H0: Alle k populationer har samme fordeling H1: Ikke alle k populationer har samme fordeling Bemærk: Ingen antagelser om, hvordan den fælles fordeling i H0 ser ud, fx. at den er normalfordelt.

Kruskal-Wallis Test I praksis er Kruskal-Wallis testet mest følsomt overfor forskelle i middelværdi. Dvs. forskelle i ”faconen” er mindre betydende. Forudsætninger: De k stikprøver at trukket uafhængigt fra de enkelte populationer.

Kruskal-Wallis Test: Fremgangsmåde Lad nj være størrelsen af stikprøven fra den j’te population. Lad n=n1+n2 +…+nk være den totale stikprøvestørrelse. Alle observationer, på tværs af de k populationer, rankes efter størrelse. Lad Rj være summen af ranks for j’te population.

Kruskal-Wallis Test: Teststørrelsen Kruskal-Wallis teststørrelsen Hvis nj ≥ 5 for alle populationer, så følger H approksimativt en chi-i-anden fordeling med k-1 frihedsgrader. Store værdier af H er kritiske for H0-hypotesen.

Kruskals-Wallis Test: Eksempel Hvor lang tid tager det at lære at bruge et nyt program? Software Tid Rank 1 45 14 1 38 10 1 56 16 1 60 17 1 47 15 1 65 18 2 30 8 2 40 11 2 28 7 2 44 13 2 25 5 2 42 12 3 22 4 3 19 3 3 15 1 3 31 9 3 27 6 3 17 2 Gruppe RankSum 1 90 2 56 3 25 Gruppe Mean 1 51.83 2 34.83 3 21.83 Kritisk værdi: 2(2,0.005) = 10.5966 Da 12,3625 > 10,5966 afvises H0.

Kruskal-Wallis Test i SPSS SPSS: Analyse→Nonparametric Tests→K Independent Samples Med en P-værdi = 0,002 afviser vi H0 hypotesen om k identiske fordelinger.

Kruskal-Wallis Test – Videre Analyse Hvis H0-hypotesen om identiske fordelinger afvises, kan man spørge, hvilke fordelinger der er forskellige. Svarer til Tukey testet i variansanalysen. Hvis vi vil sammenligne i’te og j’te population udregner vi først dvs. gennemsnitsranking for de to stikprøver.

Kruskal-Wallis Test – Videre Analyse Teststørrelse Store værdier af D er kritisk for hypotesen om at i’te og j’te population er ens. Den kritiske værdi på signifikansniveau a er

Kruskal-Wallis Test – Videre Analyse Kritisk værdi for eksemplet: Gennemsnitsranks: Signifikant forskel Teststørrelser

Friedman Test Ikke-parametrisk test svarende to to-sidet variansanalyse, med én observation pr celle. En udvidelse af Wilcoxon sign test. Vi vil teste følgende hypoteser H0: Fordelingen i k behandlings populationer er identiske. H1: Ikke alle k populationer er identiske.

Friedman Test Data arrangeres som følger Behandl 1 Behandl 2 Behandl 3 … Behandl k Person 1 Person 2 Person 3 Person n Sum af ranks R1 R2 R3 Rk For hver person rankes hver behandling.

Friedman Test: Teststørrelse Hvis behandlingerne er lige gode, vil vi forvente at summen af ranks er ca. lige stor for alle behandlinger. Teststørrelse: Store værdier af X2 er kritiske for H0.

Friedman Test: Eksempel 10 tilfældigt udvalgte personer har ranket tre chefer. Person Chef 1 Chef 2 Chef 3 1 3 2 4 5 6 7 8 9 10 R1= 29 R2= 17 R3= 14 Kritisk værdi: 2(2,0.05) = 5,9915 Da 12,6 > 5,9915 afvises H0. Fordelingen af ranks er signifikant forskellig ml. chefer.

Spearman Rank Korrelationkoefficient Kan bruges når X og Y ikke er på intervalskala. Data består af n observationer af par X og Y, (xi,yi), i=1,…,n, hvor X og Y er på ordinal skala. Lad R(xi) være xi’s ranking blandt xj’erne. Lad di= R(xi)-R(yi) være forskel i ranking mellem xi og yi Spearman Rank Korrelationskoefficient er Som sædvanligt korrelation gælder -1 ≤ rs ≤ 1.

Spearman Rank Korrelationkoefficient Vi ønsker at teste hypotesen H0: ρs = 0 H1: ρs ≠ 0 Hvis stikprøvestørrelsen n er mindre end 30 bruges Tabel 11 i appendiks C. Hvis n > 30 anvendes teststørrelsen der er approksimativt normalfordelt. Numerisk store værdier er kritiske for H0.

Spearman Rank KorrKoef: Eksempel MMI S&P100 R-MMI R-S&P Diff Diff2 220 151 7 6 1 1 218 150 5 5 0 0 216 148 3 3 0 0 217 149 4 4 0 0 215 147 2 2 0 0 213 146 1 1 0 0 219 152 6 7 -1 1 236 165 9 10 -1 1 237 162 10 9 1 1 235 161 8 8 0 0 Sum: 4 Table 11: =0.05 n . 7 ------ 8 0.881 9 0.833 10 0.794 11 0.818 Beslutning: Da 0.9758 > 0.795 kan vi afvise H0.

Chi-i-anden Test for Goodness of Fit Chi-i-anden test omhandler data, der har form af antal eller frekvenser. Antag, at n observationer kan inddeles i k kategorier. Lad Oi være faktiske antal observationer, der falder i den i’te kategori. Lad Ei være det forventede antal observationer i i’te kategori under antagelse af, at en given H0 hypotese er sand.

Trin i et Chi-i-anden Test Vi specificerer H0 og H1 hypoteser for populationen. Vi beregner de forventede frekvenser under antagelse af H0 – dvs. det antal observationer vi forventer at se i en given kategori, hvis H0 er sand. Vi noterer hvor mange observationer, der faktisk er falder i de enkelte kategorier. Vi betragter forskellen mellem det forventede og faktisk observerede antal. Dette fører til en Chi-i-anden teststørrelsen. Vi sammenligner teststørrelsen med en kritisk værdi – og koknluderer på den baggrund.

Chi-i-anden Teststørrelse Oi er faktiske antal observationer i i’te kategori og Ei er det forventede antal observationer under H0. Chi-i-anden teststørrelsen er givet ved Når stikprøvestørrelsen vokser og k fastholder, så nærmer X2 sig en Chi-i-anden fordeling. Bemærk: Når antal af observationer vokser, så vil antal observationer, Oi , nærme sig en normalfordeling.

Goodness of Fit Et goodness of fit test er et test for godt data understøtter en bestemt fordelingsantagelse om en population eller en stokastisk variabel.

Eksempel: Multinomial fordelingen Multinomial fordelingen er en udvidelse af binomial fordelingen. For multinomial fordelingen gælder at en observation kan falde i en af k forskellig kategorier. sandsynligheden for at en observation falder i den i’te kategori er pi. summen af pi’erne er 1. Konsekvens: Har vi n observationer, så er det forventede antal observationer i den i’te kategori Ei=npi.

Goodness of Fit: Eksempel The null and alternative hypotheses: H0: The probabilities of occurrence of events E1, E2...,Ek are given by p1,p2,...,pk H1: The probabilities of the k events are not as specified in the null hypothesis H0: Antag ens sandsynligheder, p1= p2 = p3 = p4 =0.25 og n=80 Preference Tan Brown Maroon Black Total Observed 12 40 8 20 80 Expected(np) 20 20 20 20 80 (O-E) -8 20 -12 0 0 H0 afvises på signifikansniveau 0.01.