En database over danske stednavnes udvikling. Et arkiv med radioudsendelser. En annoteret samling folkeviser.
Det er nogle eksempler på digital forskningsinfrastruktur, der blev præsenteret på seminaret Digital humaniora den 20. april 2015 på Københavns Universitet. Som det fremgår, kan en forskningsfrastruktur for humaniora bestå af meget forskellige elementer.
Landskab og stednavne fra jernalderen
Et tværfagligt forskningsprojekt undersøgte fra 1995 til 2001, hvilken betydning menneskets landskabsudnyttelse i tidligere tider har for de planter, der vokser i dag. Her samarbejdede arkæologer med biologer, historikere, kulturgeografer og andre fagspecialister.
”Det gav nogle udfordringer, fordi fagene har hver deres måde at angive lokaliteter på. Det skyldes grundlæggende forskelle i kildematerialet. Historiske data handler gerne om et geografisk område, for eksempel et ejerlav med fem gårde. Arkæologiske data er punktorienterede – vi kender den nøjagtige placering af hvert fund. Botanikere arbejder med mikrotopografi, hvor de ligefrem kan stedfæste en plante til sydsiden af en bestemt myretue,” fortalte Per Ole Rindel fra Saxo-instituttet ved Københavns Universitet.
En del af den digitale forskningsinfrastruktur i projektet var et GIS-system (Geografisk Informationssystem), som blev anvendt til tværgående rumlige analyser. De nødvendige databaser måtte mere eller mindre etableres fra bunden.
”Her ville f.eks.en landsdækkende digital database over danske stednavne, som står til rådighed i dag, have været nyttig og tidsbesparende. Projektet skulle nemlig finde frem til, hvor der for eksempel har været skov uafbrudt siden jernalderens begyndelse, og hvor der til skiftende tider har været bosættelse, dyrkede agre eller græsningsarealer,” fortalte Per Ole Rindel.
Det fremgår i nogle tilfælde af stednavnene. Navne der ender på ”løse” er ofte meget gamle. Men det gælder kun, hvor navnet oprindelig er afledt af ”lys”, altså en lysning i skoven. Hvis endelsen har en anden betydning, er navnet nyere.
Databasen over danske stednavne viser via navnenes tidligere former, hvad de har udviklet sig fra, så man kan finde jernaldernavnene.
Per Ole Rindel fra Saxo-instituttet:
Formålet med projektet ”Fortid og Flora” var at afdække sammenhængen mellem den nutidige flora i skove og på græsningsoverdrev i forhold til landskabsudnyttelsen gennem de seneste 2500 år.
På tværs af fagene
Eksemplet demonstrerer, at digital humaniora ofte er tværfaglig, siger Bente Maegaard, der er formand for Det Humanistiske Fakultets styregruppe for Forskningsinfrastruktur og Digital Humaniora:
”Som minimum er der altid to fag involveret, idet det humanistiske fag kobles med datalogi. Men ofte giver det digitale mulighed for, at flere faggrupper finder sammen. Det skyldes blandt andet, at det er let at dele data og diskutere resultater via de digitale medier,” siger hun.
Radio får tv-tilgang
Det tværfaglige er også et af formålene med en anden digital infrastruktur: Databasen LARM.fm, der er et arkiv over 600.000 danske radioudsendelser fra 1931 til 2012.
”LARM er ikke kun rettet mod medieforskere. Den er en oplagt kilde for historikere, men også andre humanistiske retninger, samfundsfag og andre videnskaber kan udnytte den,” sagde Per Jauert fra Institut for Æstetik og Kommunikation – Medievidenskab ved Aarhus Universitet.
Næste skridt bliver at integrere LARM med en anden mediedatabase, Mediestream fra Statsbiblioteket, der indeholder radio, tv-udsendelser, reklamefilm og aviser.
Fælles EU-struktur til datalagring
Datamanagement er en af udfordringerne for digital humaniora: Hvordan sikrer forskerne sig, at de data de henviser til i deres publikationer, også er tilgængelige online om et eller ti år? En mulighed er at lagre data i en fælles infrastruktur som den, EU-projektet CLARIN (Common Language Resources and Technology Infrastructure) er ved at opbygge. Som navnet viser, er fokus her på sprogforskningen.
”Vi lagrer tekster med tilhørende metadata. For eksempel har vi en samling folkeviser fra 1553 til 1700, der er gjort søgbare,” fortalte Lene Offersgaard fra Center for Sprogteknologi, NFI ved Københavns Universitet.
Det er ikke kun muligt at søge efter udtryk, der optræder i de enkelte tekster. Ved hjælp af korpussøgning kan forskerne finde ud af, hvor mange gange et bestemt ord eller udtryk optræder i alle de tekster, der søges i.
Lene Offersgaard demonstrerede, hvordan en søgning efter ordet ”lindorm” fandt en række dokumenter, selvom ordet var stavet forskelligt – både ”lyndorm” og ”lindt-orm” blev fundet. Korpussøgningen viste, hvor ofte hver form optrådte.
For at den type søgning skal være mulig, skal teksterne udstyres med annoteringer og metadata. For øjeblikket er Center for Sprogteknologi ved at tilføje metadata til en række digitaliserede assyriske lertavler, som er næsten 4.000 år gamle.
”Vi vil gerne have flere data ind i CLARIN. Så hvis I har materiale, I bruger i jeres undervisning eller forskning, er I velkomne til at lægge det ind. I må også gerne efterlyse data, I savner i samlingen,” sagde Lene Offersgaard til de forsamlede forskere og studerende.
Seminaret Digital humaniora var arrangeret af Københavns Universitet, DeiC og DigHumLab.