Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Eckhard Bick Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum Eckhard Bick, 2000.

Lignende præsentationer


Præsentationer af emnet: "Eckhard Bick Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum Eckhard Bick, 2000."— Præsentationens transcript:

1 Eckhard Bick Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum Eckhard Bick, 2000

2 Korpus90 og Korpus2000 blandet tekst, ca. 28 mill. ord hver
sætningsrandomiseret citatkorpus kompileret af DSL (www.dsl.dk) morfosyntaktisk opmærket af VISL (visl.sdu.dk)

3 Korpus90/2000 på

4 Korpus90/2000 på corp.hum.sdu.dk

5 Korpus90/2000 som træbank på corp.hum.sdu.dk/arboretum.html

6 Søgningsresultater som syntaktisketræstrukturer

7 Korpusopmærkning: DanPars
Præprocessering: Separation, polyleksika Morfologisk analysemaskine og leksikon Postprocessering: Valens- og semantisk potentiale Morfologisk disambiguering (CG) Syntaktisk mapping og disambiguering (CG) Propriums-CG, Case role-CG PSG-overbygning: Arboretum

8

9 De mest almindelige syntaktiske funktioner

10 Syntaktiske funktioner i Korpus2000: sætningsniveau

11 Syntaktiske funktioner i Korpus2000: gruppeniveau

12 Syntaktiske funktioner i Korpus2000: specielle funktioner

13 Leksikokgrafisk arbejde
fx leksemer der indgår i bestemte syntaktiske sekvenser: @SUBJ> (main (objekt) ”hest” ”æde” ”hø” opmærkning med semantiske prototyper: 21 aflyse <occ> (arrangementer) 19 aflyse <act-c> (tallelige handlinger og aktiviteter) 4 aflyse <ac> (tallelige abstrakta) 4 aflyse <act> (handlinger og aktiviteter) 4 aflyse <sem-l> (musikalske værker m.m.) 3 aflyse <event> (hændelser) 3 aflyse <sit> (situationer)

14 Selektionsrestriktioner for objekter
forflytte <Hprof>_2 (human professional) forfægte <pp>_3 (tankeprodukt) forfølge <ac>_8 <Hprof>_6 <H>_ (aktiviteter og mennesker) forføre <H>_3 (people) forgylde <H>_4 <Hprof>_3 (mennesker) forhale <act-c>_3 <act>_3 (handlinger og aktiviteter) forhandle <ac>_17 <sem-r>_9 <conv>_ (tællelige abstrakta, "readables", aftaler) forhaste <pp>_3 <sem>_3 (tankeprodukter) forhindre <act>_35 <Hprof>_23 <ac>_18 <act>_18 <H>_17 <HH>_14 <event-c>_9 forhøje <ac>_13 <mon>_7 <mon-c>_5 ... (abstrakta og pengebeløb) forkaste <pp>_5 <Hprof>_4 <ac>_3 <conv>_3 .. (tankeprodukter, profess., aftaler) forklare <ac>_39 <act-c>_7 <act>_6 ... (abstrakta og handlinger) forkorte <per>_4 (perioder)

15 Selektionsrestriktioner for subjekter
advare <Hprof>_44 <HH>_10 <ac>_6 <inst>_6 ... (professionelle, grupper, institutioner) afblæse <HH>_3 <Hprof>_2 ... (grupper og professionelle) afbryde <Hprof>_28 <HH>_10 <H>_8 <ac>_6 <Hfam>_4 ... (professionelle og almindelige mennesker) afdække <act-c>_7 <sem>_6 <Hprof>_5 <ac>_4 (handlinger, intellektuele frembringlelser, professionelle) affyre <H>_8 <Vair>_7 <inst>_7 <HH>_5 ... (mennesker, fly og grupper) affærdige <Hprof>_3 afføde <ac>_12 <act-c>_10 <act>_8 ... (abstrakta, handlinger og aktiviteter) afgive <Hprof>_34 <HH>_24 <inst>_ (professionelle, grupper og institutioner) afgøre <ac>_25 <HH>_14 <act-c>_11 <H>_6 ... (abstracta, grupper, handlinger)

16 Berømte navne omkring Y2K
?

17 Teksttypologi: Passivkonstruktioner
Passivfrekvens som stilmærke for kancellistil, abstraktionsniveau m.m.? 3,1% alle passiver, 2,3% finitte former inkl. aktiv participium, 5,9 infinitiver s-passiv eller blive-passiv leksemspecifikke passivnormaler?

18 (a) Børnene flokkedes omkring ismaskinen. Børnene blev flokket
(a) Børnene flokkedes omkring ismaskinen. *Børnene blev flokket. Leksikaliseret S-passiv ("slås", "synes") (b) Løgene svitses. Løgene bliver svitset. Høj Spas/akt, høj Spas/Bpas (c) Aktieudbytte beskattes med 25%. Aktieudbytte bliver beskattet med 25%. Høj Spas/akt, neutral Spas/Bpas (d) Minimælk fås kun fra Arla. *Minimælk bliver fået. Lav Spas/akt, høj Spas/Bpas (e) Der arbejdes på en løsning. Der bliver arbejdet. *Den bliver arbejdet. Blive-passiv kun med formelt subjekt. (f1) Bøgerne er solgt d. 10. oktober (=er blevet). *Bøgerne er solgte d oktober. (f2) Tallene er vist (=vises) med rød skrift. *Tallene er viste med rød skrift. Være-passiv enten som s- eller som blive-passiv

19 Teksttypologi: Passivkonstruktioner

20 Foranstillede adverbier i præpositionsstyrede infinitiver
Rød = fokusadverbier blå = tidsadverbier grøn = bøjede adverbier

21 Vp-indskudte adverbier og deres positionspecificitet
Rød = attitude-adverbier blå = konjunktionelle adverbier

22 7,1 % i 1,1 millioner ord fra Korpus2000
Direkte objekter 7,1 % i 1,1 millioner ord fra Korpus2000

23 Foranstillede nominale objekter

24 Pronominal-ellipse i relativsætninger

25 Genus-fluktuation i dansk
Hypotese: Noget/meget + utrum substantiv: -> Projektion af +mass meget/megen er mindre markeret (50/50) noget/nogen er mere markeret (1 : 6 fordeling) (a1) Øllet var stærkt og mørkt. (a2) De drak en øl hver. (b) Det var noget godt mad, du lavede. (c) Vejen får ekstra meget trafik om morgenen.

26 Hypotese: konkret-abstrakt-gradient for meget og positiv noget
(a1) Jeg har ikke noget glas. (--> … at drikke af) (a2) Jeg har ikke noget krus. (--> … at drikke af) (b1) ?Jeg har noget glas. (--> materialet) (b2) *Jeg har noget krus. (--> Jeg har et krus) (c1) Jeg har lavet noget (nogen?) aftensmad. --> konkret (c2) Han har vist nogen (noget?) interesse for forslaget. --> abstr. (c3) *Han har nogen bil.

27

28 Korpus90/2000: http://www. dsl. dk http://corp. hum. sdu
Korpus90/2000: Arboretum: ~/arboretum.html ************** Morfosyntaktisk opmærkede CG-korpora tillader bl.a.: Leksikografiske undersøgelser mht. argumenttypologi, feltdistribution, bøjningsfluktuation m.m. Grammatisk teksttypologi Kvantitative undersøgelser af syntaktiske fænomener


Download ppt "Eckhard Bick Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum Eckhard Bick, 2000."

Lignende præsentationer


Annoncer fra Google