Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Digitalisering af 32 mio. avissider på 3 år

Lignende præsentationer


Præsentationer af emnet: "Digitalisering af 32 mio. avissider på 3 år"— Præsentationens transcript:

1 Digitalisering af 32 mio. avissider på 3 år
Middelfart

2 Hvem er jeg? Niels Bønding 46 år og vendelbo
Cand. phil. i filosofi 1998 11 år som proceskonsulent og projektleder i TDC PRINCE2 Practitioner og IPMA C certificeret Ansat på Statsbiblioteket fra 15. august 2013 som projektleder for Avisdigitaliseringsprojektet – samme dag som beslutningen om Ninestars som leverandør blev truffet.

3 Manuel efterbehandling i Chennai
Scanning i Hamburg Manuel efterbehandling i Chennai Hovedkvarter og IT-udvikling i Bangalore Ninestars bygning i Chennai

4 ProduktionsPROCES

5 Scanning af mikrofilm Mekel Mach 5 scannere placeret i Hamburg
Vi har været med ved kalibreringen af scannerne. Vi og Ninestars har ved fælles hjælp opnået et rigtig godt resultat. Det rå output er TIFF scannet i 300 dpi. Den endelige fil er en JPEG2000 og kæden mellem dem er lossless Vi får samtidig målt emulsion density på mikrofilmene til brug for kassationsprocessen Lossless vej gennem scannersoftwaren

6 Billedkvalitet – bevaringskvalitet?

7 Billedkvalitet – bevaringskvalitet!

8 OCR og segmentering - Formidling
Modtaget Modtaget

9 OCR og segmentering - formidling
Modtaget Modtaget

10 Hvilken kvalitet til hvilket formål?
Vi skal bevare aviserne i den bedst mulige kvalitet for fremtiden Vi skal formidle aviserne i den bedst mulige kvalitet for nutiden Vi skal kunne afgøre hvorvidt en bevaringskopi (og en mikrofilm) er tilstrækkelig god til, at vi kan vælge at kassere den kopi, der ligger i Vestindisk Pakhus i København. For det er her pengene kommer fra. Teknisk: Fx størrelse, opløsning, dato for skanning, skanningsoperatør. I alt gemmes 30 værdier pr. billede Data gemmes som mix filer – ”an XML schema for a set of technical data elements required to manage digital image collections” Mikrofilm: Beskriver hvilke titler, fra hvilke datoer, der findes på en bestemt mikrofilm. Plus tekniske oplysninger om filmen og filmingen. I alt gemmes 25 værdier i hjemmelavet xml schema ”Avisen”: Udgave og udgivelse: Morgen, aften, weekend, ekstra eller særudgave? - 20 værdier Siden: Beskriver siden, dens placering i udgaven og placering på mikrofilmen. Essentielle data for at sikre at visning sker i korrekt rækkefølge og at der kan bladres.

11 Metadata registreres i processen
Tekniske metadata om den enkelte scannede side Fx størrelse, opløsning, dato og operatør Metadata om mikrofilmen Titler, datoer, film og filmning Udgave og udgivelse og den enkelte side Morgen, aften, weekend, ekstra eller særudgave Placering af siden i udgaven og på mikrofilmen Teknisk: Fx størrelse, opløsning, dato for skanning, skanningsoperatør. I alt gemmes 30 værdier pr. billede Data gemmes som mix filer – ”an XML schema for a set of technical data elements required to manage digital image collections” Mikrofilm: Beskriver hvilke titler, fra hvilke datoer, der findes på en bestemt mikrofilm. Plus tekniske oplysninger om filmen og filmingen. I alt gemmes 25 værdier i hjemmelavet xml schema ”Avisen”: Udgave og udgivelse: Morgen, aften, weekend, ekstra eller særudgave? - 20 værdier Siden: Beskriver siden, dens placering i udgaven og placering på mikrofilmen. Essentielle data for at sikre at visning sker i korrekt rækkefølge og at der kan bladres.

12 Supplerende Metadata Sammenkædning af titler over tid
Kobling til De Danske Aviser Geografiske data Søgning i den genkendte tekst er ikke nok til at man kan gå opdagelse i samlingen. ”Aktuelt” gennem tiden er ikke ”Aktuelt” men derimod en mængde forskellige titler. Geografi bærer sin egen vanskelighed over tid: taler vi sogn eller kommune, amt eller region?

13 Afhænger af Copydanaftale
Adgang til aviserne Periode Adgang på SB og KB Snippets/thumbnails Fjernadgang alle Academic Licens 1950+ Ja Afhænger af Copydanaftale Nej 1940 1930 1920 1910 Måske ophavsret? 1900 1890 1880 1870 1860 ældre

14 MEDIESTREAM Mediestream er Statsbibliotekets online portal, hvor digitaliserede samlinger af dansk audiovisuel kulturarv tilgængeliggøres. I dag er der adgang til radio, tv og reklamefilm, som er opdelt i såkaldte ”subportaler” (i topmenuen). De digitaliserede aviser vil blive tilgængelige i en sådan subportal i Mediestream inden udgangen af 2014. Pt. foreligger designudkast til hvordan aviserne vil blive fremvist.

15 AVIS-SUBPORTAL Brugeren præsenteres for denne side efter at have klikket på ”AVIS” i top- menuen. Herfra er det muligt at søge i de digitaliserede aviser. Ligeledes er der link til en oversigt over alle digitaliserede aviser. Brugerne inddrages i portalen via avisforsider fra for 100 år siden. Rettighedsbeskyttet materiale: Thumbnails, ca. 170x240 px, både sort/hvid og farve.

16 SØGERESULTATER Hvert søgeresultat består af en hel avis som fx første resultat: Aarhus Amtstidende 8. oktober 1902. I denne avis er der tre hits, som matcher søgningen på ”program”. Det vises ved at opliste overskriften i de artikler, som ”program” optræder i. Bemærk at det er et kvalificeret bud på overskriften, men det kan også være den første sætning fra en annonce, tv-oversigt og lignende, eller det kan være en sætning fra midten af artiklen, hvis systemet tager fejl. Thumbnails vil max være avisens sidebredde, og der zoomes ikke yderligere ind. Vi forestiller os nu, at en bruger har søgt på ordet ”program”. Det giver en række søgeresultater, som vises på udkastet til højre.

17 SØGERESULTATER I udsnittet til højre ses et enkelt søgeresultat. På thumbnailen er det angivet med en grøn markering, hvor på avissiden det første hit optræder. Der zoomes hverken ind eller ud på thumbnails. Deres maksimale bredde er altid avisens sidebredde, men der panoreres op eller ned på avissiden for at vise den relevante markering. Igen ses kvalificerede bud på overskrifter. Bemærk, at der ikke er tale om en såkaldt ”snippet”, da ordene umiddelbart omkring søgeordet ikke vises. Rettighedsbeskyttet materiale: 1. Thumbnails, ca. 170x100 px, både sort/hvid og farve 2. “Overskrift” på artikel/annonce/dødsannonce mv.: Maksimalt de første 10 ord.

18 FULDPOST-VISNING Ved at klikke på et søgeresultat kommer brugeren til en fuldpost- visning, som ses til højre. Til forskel fra foregående side vises her ikke kun et udsnit men derimod hele avissiden som thumbnail ud fra den definerede størrelse. Ved at klikke på et af de tre søgeresultater kan brugeren få vist en thumbnail af den avisside, hvor søgeresultatet optræder. Rettighedsbeskyttet materiale: 1. Thumbnails, ca. 170x240 px, både sort/hvid og farve 2. “Overskrift” på artikel/annonce/dødsannonce mv.: Maksimalt de første 10 ord.

19 AVISOVERSIGT Hvis brugeren fra forsiden klikker på linket til oversigten over alle digitaliserede aviser, vises siden til højre. Her er det muligt at finde en enkelt titel og klikke sig videre til yderligere oplysninger om denne.

20 AVISHISTORIK Til højre ses detaljerne for en enkelt avis. Det inkluderer titelhistorik, samlingens omfang, udgivelsessted mv. For at inspirere brugerne vises de mest sete udgaver af avisen i bunden af siden. Rettighedsbeskyttet materiale: 1. Thumbnails, ca. 170x240 px, både sort/hvid og farve


Download ppt "Digitalisering af 32 mio. avissider på 3 år"

Lignende præsentationer


Annoncer fra Google