Eckhard Bick Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum Eckhard Bick, 2000
Korpus90 og Korpus2000 blandet tekst, ca. 28 mill. ord hver sætningsrandomiseret citatkorpus kompileret af DSL (www.dsl.dk) morfosyntaktisk opmærket af VISL (visl.sdu.dk)
Korpus90/2000 på www.dsl.dk
Korpus90/2000 på corp.hum.sdu.dk
Korpus90/2000 som træbank på corp.hum.sdu.dk/arboretum.html
Søgningsresultater som syntaktisketræstrukturer
Korpusopmærkning: DanPars Præprocessering: Separation, polyleksika Morfologisk analysemaskine og leksikon Postprocessering: Valens- og semantisk potentiale Morfologisk disambiguering (CG) Syntaktisk mapping og disambiguering (CG) Propriums-CG, Case role-CG PSG-overbygning: Arboretum
De mest almindelige syntaktiske funktioner
Syntaktiske funktioner i Korpus2000: sætningsniveau
Syntaktiske funktioner i Korpus2000: gruppeniveau
Syntaktiske funktioner i Korpus2000: specielle funktioner
Leksikokgrafisk arbejde fx leksemer der indgår i bestemte syntaktiske sekvenser: @SUBJ> (subjekt) @MV (main verb) @<ACC (objekt) ”hest” ”æde” ”hø” opmærkning med semantiske prototyper: 21 aflyse <occ> (arrangementer) 19 aflyse <act-c> (tallelige handlinger og aktiviteter) 4 aflyse <ac> (tallelige abstrakta) 4 aflyse <act> (handlinger og aktiviteter) 4 aflyse <sem-l> (musikalske værker m.m.) 3 aflyse <event> (hændelser) 3 aflyse <sit> (situationer)
Selektionsrestriktioner for objekter forflytte <Hprof>_2 (human professional) forfægte <pp>_3 (tankeprodukt) forfølge <ac>_8 <Hprof>_6 <H>_4 .... (aktiviteter og mennesker) forføre <H>_3 (people) forgylde <H>_4 <Hprof>_3 (mennesker) forhale <act-c>_3 <act>_3 (handlinger og aktiviteter) forhandle <ac>_17 <sem-r>_9 <conv>_8 .... (tællelige abstrakta, "readables", aftaler) forhaste <pp>_3 <sem>_3 (tankeprodukter) forhindre <act>_35 <Hprof>_23 <ac>_18 <act>_18 <H>_17 <HH>_14 <event-c>_9 forhøje <ac>_13 <mon>_7 <mon-c>_5 ... (abstrakta og pengebeløb) forkaste <pp>_5 <Hprof>_4 <ac>_3 <conv>_3 .. (tankeprodukter, profess., aftaler) forklare <ac>_39 <act-c>_7 <act>_6 ... (abstrakta og handlinger) forkorte <per>_4 (perioder)
Selektionsrestriktioner for subjekter advare <Hprof>_44 <HH>_10 <ac>_6 <inst>_6 ... (professionelle, grupper, institutioner) afblæse <HH>_3 <Hprof>_2 ... (grupper og professionelle) afbryde <Hprof>_28 <HH>_10 <H>_8 <ac>_6 <Hfam>_4 ... (professionelle og almindelige mennesker) afdække <act-c>_7 <sem>_6 <Hprof>_5 <ac>_4 (handlinger, intellektuele frembringlelser, professionelle) affyre <H>_8 <Vair>_7 <inst>_7 <HH>_5 ... (mennesker, fly og grupper) affærdige <Hprof>_3 afføde <ac>_12 <act-c>_10 <act>_8 ... (abstrakta, handlinger og aktiviteter) afgive <Hprof>_34 <HH>_24 <inst>_17 ... (professionelle, grupper og institutioner) afgøre <ac>_25 <HH>_14 <act-c>_11 <H>_6 ... (abstracta, grupper, handlinger)
Berømte navne omkring Y2K ?
Teksttypologi: Passivkonstruktioner Passivfrekvens som stilmærke for kancellistil, abstraktionsniveau m.m.? 3,1% alle passiver, 2,3% finitte former inkl. aktiv participium, 5,9 infinitiver s-passiv eller blive-passiv leksemspecifikke passivnormaler?
(a) Børnene flokkedes omkring ismaskinen. Børnene blev flokket (a) Børnene flokkedes omkring ismaskinen. *Børnene blev flokket. Leksikaliseret S-passiv ("slås", "synes") (b) Løgene svitses. Løgene bliver svitset. Høj Spas/akt, høj Spas/Bpas (c) Aktieudbytte beskattes med 25%. Aktieudbytte bliver beskattet med 25%. Høj Spas/akt, neutral Spas/Bpas (d) Minimælk fås kun fra Arla. *Minimælk bliver fået. Lav Spas/akt, høj Spas/Bpas (e) Der arbejdes på en løsning. Der bliver arbejdet. *Den bliver arbejdet. Blive-passiv kun med formelt subjekt. (f1) Bøgerne er solgt d. 10. oktober (=er blevet). *Bøgerne er solgte d. 10. oktober. (f2) Tallene er vist (=vises) med rød skrift. *Tallene er viste med rød skrift. Være-passiv enten som s- eller som blive-passiv
Teksttypologi: Passivkonstruktioner
Foranstillede adverbier i præpositionsstyrede infinitiver Rød = fokusadverbier blå = tidsadverbier grøn = bøjede adverbier
Vp-indskudte adverbier og deres positionspecificitet Rød = attitude-adverbier blå = konjunktionelle adverbier
7,1 % i 1,1 millioner ord fra Korpus2000 Direkte objekter 7,1 % i 1,1 millioner ord fra Korpus2000
Foranstillede nominale objekter
Pronominal-ellipse i relativsætninger
Genus-fluktuation i dansk Hypotese: Noget/meget + utrum substantiv: -> Projektion af +mass meget/megen er mindre markeret (50/50) noget/nogen er mere markeret (1 : 6 fordeling) (a1) Øllet var stærkt og mørkt. (a2) De drak en øl hver. (b) Det var noget godt mad, du lavede. (c) Vejen får ekstra meget trafik om morgenen.
Hypotese: konkret-abstrakt-gradient for meget og positiv noget (a1) Jeg har ikke noget glas. (--> … at drikke af) (a2) Jeg har ikke noget krus. (--> … at drikke af) (b1) ?Jeg har noget glas. (--> materialet) (b2) *Jeg har noget krus. (--> Jeg har et krus) (c1) Jeg har lavet noget (nogen?) aftensmad. --> konkret (c2) Han har vist nogen (noget?) interesse for forslaget. --> abstr. (c3) *Han har nogen bil.
Korpus90/2000: http://www. dsl. dk http://corp. hum. sdu Korpus90/2000: http://www.dsl.dk http://corp.hum.sdu.dk Arboretum: ~/arboretum.html ************** Morfosyntaktisk opmærkede CG-korpora tillader bl.a.: Leksikografiske undersøgelser mht. argumenttypologi, feltdistribution, bøjningsfluktuation m.m. Grammatisk teksttypologi Kvantitative undersøgelser af syntaktiske fænomener