Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod Dias 1 Hanne Ruus SDH okt Supporting Digital Humanities Language Technologies in the service of Humanities research The challenges and experiences of an infrastructure data provider Hanne Ruus Department of Nordic Studies and Linguistics
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod Dias 2 Hanne Ruus SDH okt DK-CLARIN WP 2.3 ( funding Euro) Knowledge for everyman Challenges and experiences
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod Dias 3 Hanne Ruus SDH okt Centre for Danish Language Resources and Technology Infrastructure for the Humanities (DK-CLARIN) Collaboration between 4 universities and 4 institutions under the Danish Ministry of Culture Development period 2007-July 2011 Funding: Danish state app. 2 mill. Euro WP1 Coordination and Technical management, incl. copyright and privacy issues WP2 Basic written language resources WP3 Spoken language resources and tools WP4 Technological resources WP5 Technical Infrastructure
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod Dias 4 Hanne Ruus SDH okt WP2 Basic written language resources WP2.1 Reference corpus of general language WP 2.2 Corpus of sublanguage texts: 11 mill. words from the period WP2.3 Knowledge for everyman from WP2.4 Enhanced annotation and improved search possibilities to old literary texts WP 2.5 Images, artefacts and texts from the National Museum of Denmark WP2.6 Parallel multi-lingual text resources, with alignment
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod Dias 5 Hanne Ruus SDH okt WP5 Technical Infrastructure main software tools: ESciDoc and Mark Logic WP5.1 Technical infrastructure, DK-CLARIN infrastructure for search and access WP5.2 Access to existing resources and tools produced by the partners or otherwise available
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod Dias 6 Hanne Ruus SDH okt Collaboration within WP2.3 WP 2.3 Digital text experts (experience from a corpus of over 1000 ballad texts, and a corpus of older danish texts ) Expert in Danish literary history Project coordinator with a BA in Danish Student assistants, some with philological interests, some with computational interests Advisory board (philologists, bibliographic expert, digital text expert)
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod Dias 7 Hanne Ruus SDH okt Collaboration outside WP2.3 WP 1 Leaders of WPs in the DK-CLARIN steering board WP 2 Representatives from other WPs: textual scholars, corpus linguists, museum specialists WP 5 Computer experts, language technologists External technical expertise: OCR-specialist
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod Dias 8 Hanne Ruus SDH okt Goal of WP 2.3 A corpus of words •composed of (extracts from) special purpose texts for a popular audience from the period •texts represented by pictures of the texts, transscriptions, xml-annotation(header, source text, search forms)
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod Dias 9 Hanne Ruus SDH okt WP 2.3 – subject fields of the texts Selected examples: Ethics (e.g. on the behaviour of servants) Geography (e.g. a short description of the whole world) History (European events, e.g. the big fire in London 1666) Household Books (e.g. recipe books) Medicine (e.g. books of herbs) Metaphysics and Superstition (e.g. on witchcraft and sorcerers) Natural Science (e.g. gardening books) Prayer Books
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod Dias 10 Hanne Ruus SDH okt From bibliography to repository •Choosing the texts •Digitizing the texts pictures, OCR, manual registration proofreading and correction of texts: structure and characters – automated and manual •Annotating the texts heading addition of search forms conversion to common TEIP5 xml-format (CBT) •Depositing the texts in DK-CLARIN repository
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod Dias 11 Hanne Ruus SDH okt Choosing the texts Challenges •Construct blibiographies of subject fields based on Bibliotheca Danica, systematisk Fortegnelse over den danske Litteratur fra 1482 til 1830, ved Chr. V. Bruun, ( ) available online, and Dansk Bibliografi , med særligt Hensyn til dansk Bogtrykkerkunsts Historie, af Lauritz Nielsen, Kbh., only in print Experiences •Varied text lengths •Varied availability •no texts in chosen subject field or text lost •Some texts mostly composed of numbers
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod Dias 12 Hanne Ruus SDH okt Digitizing the texts Challenges OCR: the texts are printed in blackletter with many oldfashioned characteristics
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod Dias 13 Hanne Ruus SDH okt Special characters: Round r Sz Et-abbreviation Superscript strokes: For e Nasal strokes Page from Martin Luther’s Book about Matrimony 1531
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod Dias 14 Hanne Ruus SDH okt Running title Catch word Page from prayer book from 1733
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod Dias 15 Hanne Ruus SDH okt Book about sorcerers and their evil doings From 1591
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod Dias 16 Hanne Ruus SDH okt Scanning of Proof after OCR
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod Dias 17 Hanne Ruus SDH okt Digitizing the texts Experiences OCR not acceptable for the oldest texts OCR errors not consistent training of proofreaders necessary balance between automated and manual correction proofreading and corrections more time-consuming than expected less time available for constructing search forms
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod Dias 18 Hanne Ruus SDH okt Annotating the texts Challenges merging information about texts from all subprojects in WP2 into one common header agreeing on common tagset for all texts Experiences difficult to get acceptance of tags below the level of words, cf. mentioned characteristics of the old texts extended discussions between text-people and technicians
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod Dias 19 Hanne Ruus SDH okt Depositing the texts in DK-CLARIN repository Ongoing pilot project
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod Dias 20 Hanne Ruus SDH okt Overall experiences Clashes between different competences inevitable Bridging between different competences takes time