Forudsigelse i markedsanalyse Burns & Bush ch. 19 Carsten Stig Poulsen Mandag d. 6. april 2009
Oversigt Begrebet statistisk forudsigelse Anvendelse af regressionsanalyse –simpel (bivariat) regression –multipel (multivariat) regression –stepvis regression
Statistisk forudsigelse Forudsigelse er en spådom om værdien af en variabel under givne omstændigheder, f.eks. i fremtiden Statistisk forudsigelse adskiller sig fra krystalkuglen ved at kunne angive et grundlag og en sikkerhed for forudsigelsen Forudsigelse har to hovedformer –interpolation –ekstrapolation Fremskrivning vs. forudsigelsesmodel –eksempel
Simpel lineær regression Oversigt Regressionsmodellens formål og datagrundlag Modellens statistiske forudsætninger og parametre Estimation af parametre ved ”mindste kvadraters metode” (MKM) MKM estimatorernes egenskaber Modelkontrol Forklaringsevne, hypoteseprøvning og konfidensintervaller Forudsigelse af middelværdi og individuelle observationer Transformationer
Analyse af sammenhængen mellem to variable, x og y y betegner den afhængige variabel eller responsvariablen x betegner den uafhængige variable Sammenhængen søges beskrevet ved en lineær funktion af formen Formål og datagrundlag
0 og 1 er parametre i modellen 0 er stykket, der afskæres af y-aksen 1 er liniens hældningskoefficient 1 11 00 x y Modellens parametre og fortolkning
Parameteren 1 er sædvanligvis den mest interessante. Den viser effekten af den uafhængige variable x på den afhængige variable y. Modellens parametre og fortolkning
Case: Logoundersøgelsen Simpel regression Kan et logos designegenskaber anvendes til at forudsige dets alt-i-alt vurdering (hvor ”godt” det er)? Operationalisering: –hver af de 10 skalaer, trans 1 - trans10, måler opfattelsen af en egenskab –trans11 måler alt-i-alt vurderingen –begge målt på 5-pkts.skalaer og kan opfattes som nominal/ordinalskaleret
Vi kan også vælge at opfatte de to skalaer på intervalniveau. Fordelen er, at vi får adgang til mere kraftfulde analyseværktøjer Model: Fortolkning: Sammenhæng beskrives ved en lineær funktion, der angiver, hvor meget alt-i- alt vurderingen stiger, når en af designegenskaberne øges. Case: Logoundersøgelsen Simpel regression
Multipel regressionsanalyse Formål At finde en sammenhæng mellem en eller flere uafhængige variable og en afhængig variabel y, ofte på lineær form: At vurdere styrken af sammenhæng mellem den afhængige og de uafhængige variable, som helhed og for hver variabel At kunne forudsige værdier af y for nye værdier af
Kan et logos designegenskaber anvendes til at forudsige dets alt-i-alt vurdering (hvor ”godt” det er)? Operationalisering: –hver af de 10 skalaer, trans 1 - trans10, måler opfattelsen af egenskaberne –trans11 måler alt-i-alt vurderingen Model: Case: Logoundersøgelsen Simpel regression
Case: Logoundersøgelsen Multipel regression
Case: Logoundersøgelsen Stepvis regression Formålet er at reducere antallet af forklarende variable til et færre antal uden at miste for meget i forklaringsgrad Typer af stepvis regression: –forlæns udvælgelse –baglæns eliminering
Case: Logoundersøgelsen Stepvis regression
Problem: Hvis de forklarende variabler (x’erne) er indbyrdes korrelerede (lineært afhængige), vil regressionskoefficienterne ikke være pålidelige, når effekten af de enkelt variablers betydning skal vurderes. Ligeledes vil det være vilkårligt, hvilke variabler, der bliver tilbage i en stepvis regression. Multipel regression Multikollinearitet
Case: Logoundersøgelsen Multipel regression og multikollinearitet
Case: Studievalgsundersøgelsen 2009 Opfattelsen af studiebyer Undersøgelses- spørgsmål Relevante variabler AnalyseteknikForventet output Hvor stor betydning har opfattelsen af studiebyerne, dvs. de egenskaber, de forbindes med, for den samlede vurdering af byerne? stud_by fag_mil rel_arb hoj_lev svr_bol for_noj stu_liv god_tra kul_til god_spo arr_akt let_arb lan_ven nerm_by bekv_by udd_her alt_i_alt Multipel regression med dummy-variabler Samlet mål for forklaringsgrad Betydning af de enkelte egenskaber, herunder byen selv Vurdering af statistisk signifikans stud_by (4 niveauer) omsættes til 3 dummy-variabler med Aalborg som basis: COMPUTE dummy_Kobenh=0. COMPUTE dummy_Odense=0. COMPUTE dummy_Aarhus=0. IF (stud_by = 1) dummy_Kobenh=1. IF (stud_by = 2) dummy_Odense=1. IF (stud_by = 3) dummy_Aarhus=1.
Case: Studievalgsundersøgelsen 2009 Opfattelsen af studiebyer
Stepwise regression
Case: Studievalgsundersøgelsen 2009 Opfattelsen af studiebyer
Øvelse Lav en importance-performance analyse af de fire studiebyer Importance måles ved koefficienterne i regressionsmodellen Performance måles ved den gennemsnitlige position på hver indikator, incl. dummy for studieby Sammenlign de fire studiebyers score på hver indikator