Dorte Haltrup Hansen: Sprogteknologiske værktøjer til tekst- og informationshåndtering
Værktøjer Tokeniser POS-tagger Navnegenkender Lemmatiser NP-genkender
Tokenisering Problem: Hvordan afgrænser man et ord/leksem? hest fx 47 i forbindelse med som at kaste vand på en gås røntgen billede
Delimitors: H.C. Andersen-fejring Formatering: røntgen billede
POS-tagging Opgaver: For kendte ord: slå ordet op i ordlister og tilskrive ordklassen For tvetydige ord: disambiguere/entydiggøre homografer fx skade (sb.) og skade (vb.) For ukendte ord: beregne ordklassen fx kursusdeltageroplæg
Træningskorpus Træning under supervision Træning på rå tekst 250.000 til 1.000.000 ord Nøjagtigheden afhænger af typer af tags. Den danske version af Brill-taggeren har 49 forskellige tags. Trænede værktøjer er aldrig bedre end det materiale, der er brugt som træningkorpus.
Navnegenkendelse Personer Organisationer Steder Kriterier: ord med stort? Anonymisering
Lemmatisering Lemmatisering: finder grundformen af ordet udfordring: homografer fx for (præp.) og for (vb.) vs. Stemming: skærer frekvente endelser væk, men tager ikke højde for allomorfer fx gafl-er
Eksempler: festgudstjenestene/N_DEF_PLU 1 festgudstjenest sejrshymne/N_DEF_PLU 1 sejrshym i_det_hele_taget/ADV 10 i_det_hele_taget udlandskirke/ADJ 1 udlandskirk manges/ADJ_GEN 1 manges sabbatshvile/ADJ 1 sabbatshvil livsrytme/ADJ 1 livsrytm indsættelsestale/ADJ 1 indsættelsestal mærlelige/ADJ 1 mærlelig ikke.Dine/ADJ 1 ikke.din
NP-genkendelse Essentiel for grammatisk analyse fx Vi hørte [meteorologens præsentation af [vejret], vi kan vente os de næste dage]]]. Varianter fx [femdøgnsudsigt]
Projekter OntoQuery MOSES VID