Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Sammenhænge ml. variabler, styrke og signifikans Tirsdag den 20. marts, kl.

Slides:

Advertisements

Lignende præsentationer

Case: Tekst på Call-To-Action link

Advertisements

Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Hypotese test – kapitel 6 (Signifikans test)

Repræsentativitet Opsamling fra sidst Repræsentativitet (χ2-test)

Dummyvariabler 13. oktober 2006

Repræsentativitet Sandsynligheden for at få krone ved kast med en mønt

Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori

Anvendt Statistik Lektion 4

Stratificering, vægtning, statistiske test og elaborering af sammenhænge Plan & Miljø, forår 2009 Onsdag den 21. april.

Program Informationer χ2-test (chi-i-anden) Projekt 3

Anvendt Statistik Lektion 6

Sammenligning af to grupper

Sammenligning af to grupper – kapitel 7

Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Population, stikprøve og signifikans Mandag den 19. marts, kl ved.

Anvendt Statistik Lektion 6

Deskriptiv analyse af enkelt variable

KM2: F171 Kvantitative metoder 2 Dummyvariabler 2. april 2007.

Statistik og kvantitativ metode Politik & Administration og Samfundsfag 3. semester 2007 Lektion 5, tirsdag den 23. oktober Punkt- og intervalestimering.

Kvantitativ metode del 2 MAP efterår 2006 Lørdag den 8

Statistik 1 – Lektion 5 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen.

Anvendt Statistik Lektion 8

Statistik Lektion 6 Konfidensinterval for andele og varians

Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Økonometri 1: Dummy variable

Signifikanstest ved (en eller) to stikprøver

Learning Objectives 5 Steps of a Significance Test Assumptions

Dagens program Test of Independence (chi-i-anden) Videre med projekt 3

Learning Objectives 5 Steps of a Significance Test Assumptions

Program 1.Påmindelser Pivottabeller og pivotgrafer Omkodning af data (sortering, søg-erstat) Bevar de originale data og lav kontroller 2.Hvem er målgruppen.

Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.

Forudsigelse i markedsanalyse Burns & Bush ch. 19 Carsten Stig Poulsen Mandag d. 6. april 2009.

Simpel Lineær Regression

Opsamling Simpel/Multipel Lineær Regression Logistisk Regression

Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl

Multipel Lineær Regression

Statikstik II 2. Lektion Lidt sandsynlighedsregning

Økonometri – lektion 7 Multipel Lineær Regression

Økonometri – lektion 5 Multipel Lineær Regression

Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.

Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.

Simpel Lineær Regression

Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.

Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.

Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 10. marts 2003.

Grundlæggende teoretisk statistik

KM2: F181 Kvantitative metoder 2 Heteroskedasticitet 11. april 2007.

Kvantitative metoder 2: F31 Kvantitative metoder 2 Beskrivende statistik og analyse af kvalitatitive data 12. februar 2007.

Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.

Grundlæggende teoretisk statistik

Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 21. oktober 2004.

Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.

Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.

Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.

Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.

Statistik II 4. Lektion Logistisk regression.

Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.

Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.

Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.

KM2: F41 Kvantitative metoder 2 Den simple regressionsmodel 14. februar 2007.

KM2: F211 Kvantitative metoder 2 Specifikation og dataproblemer 30. april 2007.

Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.

Samarbejde mellem matematik og samfundsfag. Disposition Indledning Hvorfor skal vi bruge 2 i samfundsfag? Hvordan kan matematikken bruges? Eksempel. Oplæg.

Ellen Holm, Forskningscafé

Anvendt Statistik Lektion 8

Niveau 2: Hypotesetestning

Program – dag 2 (11. april 2011) Dag 2:

Anvendt Statistik Lektion 6

Niveau 3: Regressionsanalyse: Tværsnitsundersøgelser

Teoretiske kontinuerte fordelinger

Præsentationens transcript:

Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Sammenhænge ml. variabler, styrke og signifikans Tirsdag den 20. marts, kl. 10.00 ved Henrik Lolle

Krydstabel, simpel 2 × 2 Sammenhæng mellem køn og tro på Gud. Lavet i Surveybank på ISSP Religion 1998 og overført til Excel. Der er tydeligvis en sammenhæng i stikprøven, sådan at kvinder har større tendens til at tro på Gud end mænd. Men gælder dette også for populationen (den voksne danske befolkning)?

Statistiske test angående sammenhænge samt korrelation Der findes et stort antal forskellige test og mål for sammenhængsstyrke til at beskrive sammenhængen mellem to variabler. Med disse test og mål kan man sige noget om ikke blot forhold i stikprøven, men også om populationen. De forskellige test og komprimerede sammenhængsmål er ’designet’ til forskellige typer af data (nominal, ordinal og interval/ratio). I det følgende skal der ses på følgende test og mål: Chi2-test Gamma korrelationskoefficient Pearson’s r/lineær regression

Chi2-test for uafhængighed mellem to variabler (kan ikke foretages i Nesstar) Chi2-test for uafhængighed mellem to variabler benyttes ifm. såkaldte diskrete data, hvilket blot betyder, at de pågældende variabler kan antage et begrænset antal værdier. Endvidere er Chi2-testen meget generelt brugbar, da der ikke gælder andre betingelser for dataene, end at de skal være diskrete. Værdierne behøver således ikke kunne rangordnes. Testen kan derfor benyttes ifm. alle typer af data, der kan præsenteres i krydstabeller (ifm. nominelle, ordinale og kategoriinddelte intervalskalerede variabler). Chi2-testen går ud på at teste en nulhypotese om uafhængighed mellem to diskrete variable på baggrund af stikprøvedataene: Forkastes nulhypotesen, kan den alternative hypotese, der påstår, at der er sammenhæng, godtages. H0: Variablene er statistisk uafhængige i populationen HA: Variablene er statistisk afhængige i populationen

Gamma korrelationskoefficient (ikke i Nesstar) Gamma korrelationskoefficienten kan benyttes som både signifikanstest og som styrkemål. Gamma benyttes til ordinalskalerede data, typisk ifm. variabler fra spørgeskema med svarkategorier som f.eks. meget enig, enig, hverken enig eller uenig, uenig og meget uenig. Bemærk i øvrigt, at alle variabler, der kan antage i alt kun to forskellige værdier (såkaldt dikotome variabler) altid kan betragtes som ordinalskalerede ifm. sådanne analyser. Gamma korrelationskoefficienten måles, som stort set alle korrelationskoefficienter, på en skala fra ÷1 til +1. Endeværdierne er perfekte sammenhænge, og 0 står for ingen rangordensmæssig sammenhæng. Ved brug af Gamma som teststørrelse benyttes som oftest en nulhypotese, der påstår, at Gamma er lig med 0 i populationen. Hvis denne, ud fra tallene i stikprøven, kan afvises som lidet sandsynlig, kan den alternative hypotese, der påstår, at der er en sammenhæng, godtages.

Pearson’s r/lineær regression Pearson’s r er den nok mest benyttede korrelationskoefficient overhovedet. Den er designet til intervalskalerede variabler og til såkaldte kontinuerte data (i modsætning til diskrete data), men man tillader meget ofte at slække på de formelle statistiske krav, da det er en forholdsvis ’robust’ metode (robust overfor afvigelser fra kravene). Pearson’s r beskriver styrken af en lineær sammenhæng. Med andre ord, hvis sammenhængen ikke tilnærmelsesvist er lineær, giver det ikke mening at benytte Pearson’s r. Det er jo sjældent tilfældet i praksis, at sammenhænge er helt lineære, men igen her er der plads til at slække lidt på kravene. Scatterplots kan i nogle situationer benyttes til vurdering af, hvorvidt der er linearitet eller ej. Pearson’s r er lig med den standardiserede regressionskoefficient i en simpel (bivariat) lineær regression. Den ikke standardiserede koefficient er blot hældningskoefficienten i den rette linje, der ud fra en bestemt beregningsmetode (Ordinary Least Squares) beskriver dataene bedst.

Beregning af Chi2-værdien? Chi2-testen benytter de ’rå’ frekvenser samt de såkaldte ’forventede’ frekvenser i beregningen af Chi2-værdien. De forventede frekvenser er under antagelse om uafhængighed, dvs. at de betingede procentfrekvenser er ens og lig med den marginale fordeling. Stor uoverensstemmelse ml. observerede og forventede frekvenser i tabellen giver stor Chi2-værdi, og des større Chi2-værdi, des mere usandsynligt, givet tabellens størrelse, er det, at der ikke er sammenhæng i populationen. I eksemplet her er den samlede uoverensstemmelse (den summerede Chi2-værdi i tabellen) lig med 17,782.

Selve Chi2-testen i Excel I Excel findes en funktion, der pba. observerede og forventede frekvenser i en krydstabel kan foretage en Chi2-test. Mellemresultatet, der ikke vises i Excel, er Chi2-værdien, og ud fra denne samt oplysning om tabellens antal kolonner og rækker, beregnes resultatet. Resultatet udtrykkes ved en p-værdi (en sandsynlighed). P-værdien udtrykker sandsynligheden for, at der bliver beregnet en Chi2-værdi mindst lige så stor som den fundne, under forudsætning af at der ikke er sammenhæng i populationen.

Chi2-værdien og Chi-fordelingen På internettet kan man finde statistikregnere, der kan beregne p-værdier på baggrund af Chi2-værdier. Af denne fremgår også selve Chi-fordelingen. Denne er dog forskellig, afhængig af antal kolonner og rækker i tabellen. Chi2-testen er den eneste af de test, vi kommer ind på her, der ikke benytter sig af normalfordelingens egenskaber. Testen er altid enkeltsidet. Des højere Chi-værdi, og givet tabellens antal af rækker og kolonner, des mindre sandsynlighed, og des større grund til at afvise nulhypo-tesen om uafhængighed (ingen sammenhæng). http://www.georgetown.edu/faculty/ballc/webtools/web_chi.html

Chi2-test via internettet På internettet findes også en regner, der kan foretage Chi2-test ud fra en kryds-tabel. Dvs. her skal man ikke engang, som i Excel, selv beregne forventede værdier. http://www.georgetown.edu/faculty/ballc/webtools/web_chi.html

Eksempel med Gamma og Pearson’s r Gamma = 0, 74 Kendall tau-c = 0,61 Z = 35,9 Sign.: < 0,001 Pearson’s r = 0,707 Z = 46,7 Sign.: < 0,001 Beregnet fra: http://statpages.org/ordinal.html Beregnet fra Surveybanken Eksemplet viser, at man uden at gøre megen skade i hvert fald i nogle situationer vil kunne analysere ordinalskalerede variabler med Pearson’s r og altså lineær regression. Dette er dog ikke et forsvar for så uden videre at gøre dette til en vane i forskningen.

Eksempel med Pearson’s r

Eksempel på lineær regression

Multipel lineær regression En stor del af alderseffekten og effekten fra urbanisering forklares ved uddannelsesvariablen. At de ældre og respondenterne i ikke-urbaniserede områder er mere værdipolitisk højreorienterede, skyldes altså for en stor dels vedkommende, at disse typisk har lavere uddannelse – her udtrykt alene ved om de har ungdomsudd.