Download præsentationen
Præsentation er lastning. Vent venligst
Offentliggjort afRandi Eriksen Redigeret for ca. et år siden
1
Dorte Haltrup Hansen: Sprogteknologiske værktøjer til tekst- og informationshåndtering
2
Værktøjer Tokeniser POS-tagger Navnegenkender Lemmatiser NP-genkender
3
Tokenisering Problem: Hvordan afgrænser man et ord/leksem? hest fx 47
i forbindelse med som at kaste vand på en gås røntgen billede
4
Delimitors: H.C. Andersen-fejring Formatering: røntgen billede
5
POS-tagging Opgaver: For kendte ord: slå ordet op i ordlister og tilskrive ordklassen For tvetydige ord: disambiguere/entydiggøre homografer fx skade (sb.) og skade (vb.) For ukendte ord: beregne ordklassen fx kursusdeltageroplæg
6
Træningskorpus Træning under supervision Træning på rå tekst
til ord Nøjagtigheden afhænger af typer af tags. Den danske version af Brill-taggeren har 49 forskellige tags. Trænede værktøjer er aldrig bedre end det materiale, der er brugt som træningkorpus.
7
Navnegenkendelse Personer Organisationer Steder
Kriterier: ord med stort? Anonymisering
8
Lemmatisering Lemmatisering: finder grundformen af ordet
udfordring: homografer fx for (præp.) og for (vb.) vs. Stemming: skærer frekvente endelser væk, men tager ikke højde for allomorfer fx gafl-er
9
Eksempler: festgudstjenestene/N_DEF_PLU 1 festgudstjenest
sejrshymne/N_DEF_PLU 1 sejrshym i_det_hele_taget/ADV 10 i_det_hele_taget udlandskirke/ADJ 1 udlandskirk manges/ADJ_GEN 1 manges sabbatshvile/ADJ 1 sabbatshvil livsrytme/ADJ 1 livsrytm indsættelsestale/ADJ 1 indsættelsestal mærlelige/ADJ 1 mærlelig ikke.Dine/ADJ 1 ikke.din
10
NP-genkendelse Essentiel for grammatisk analyse
fx Vi hørte [meteorologens præsentation af [vejret], vi kan vente os de næste dage]]]. Varianter fx [femdøgnsudsigt]
11
Projekter OntoQuery MOSES VID
Lignende præsentationer
© 2024 SlidePlayer.dk Inc.
All rights reserved.