Videre til indhold | Videre til menunavigation

Navigation

Søg
Du er her: Forside » Nyheder » Linked Open Data – det nye sort?
Personal tools

Linked Open Data – det nye sort?

DBC nyhed 31. januar 2013. Den fulde version af en artikel af direktør i DBC's Datadivision, Carsten H. Andersen, der i januar 2013 blev bragt i Revy i forkortet udgave.

Afsnit: Dissekering af linked data | Hvad er der i det for bibliotekerne? | Hot or not? | Links

 

Vi hører ofte om Linked Open Data, men hvad er det egentlig og hvilke perspektiver åbner det for bibliotekerne?

From a web of documents to a web of data

World wide web er i udpræget grad rettet mod menneske til maskine interaktion. Vi arbejder i websider, som i det store hele alene er opmærket med henblik på, at browseren kan  layoute siden pænt. Når vi klikker på et link, er det vores tolkning af den sammenhæng, som linket indgår i, der skaber vores forventning til, hvad vi bliver præsenteret for, når linket aktiveres. Der er ingen information knyttet til linket, der muliggør at en applikation kan foretage en semantisk afkodning af, hvad linket fører til. Man kan tale om “a web of documents”.

Tim Berners-Lee formulerede visionen om et semantisk web: "A web of data that can be processed directly and indirectly by machines”. Dvs. en www, hvor websider er opbrudt i entydigt identificerbare og relaterede dataelementer med tilknyttet semantik, og hvor det er applikationens opgave, ud fra semantikken og relationerne sammenholdt med brugerens kontekst, at sammensætte og præsentere relevante data for brugeren. Alt sammen med brug af gængse www-standarder. En applikation vil her kunne afgrænse til og samle information forskellige steder på www om den i brugerkonteksten rette betydning af begrebet Venus (tennisspilleren, gudinden eller …).

Berners-Lee formulerede 4 principper for linked data som en vej til at realisere det semantiske web – her lettere bearbejdet:

  1. Brug en URI (Uniform Resource Identifier) som entydig identifikator i stedet for f.eks. forfatterens navn
  2. Brug URL’er til de entydige identifikatorer så de kan linkes til og opløses, f.eks til forfatternavnet
  3. Tilbyd yderligere information om f.eks. forfatteren i et standardiseret format når URI-linket forfølges
  4. Suppler informationen med links til relaterede URI’er, f.eks. for forfatterens fødested

Pointen er at der anvendes helt gængse www-standarder som HTTP-protokollen og XML til at beskrive og koble dataelementer sammen på tværs af webben.

Grundlæggende er der tale om linked data, men oftest taler vi om linked open data fordi det ligger implicit i tænkningen om linked data at data, der publiceres på denne måde, bør være frit tilgængelige.

Top

Dissekering af linked data

I linked data er information atomiseret i såkaldte tripler. Navnet skyldes at en triple består af 3 elementer:  subjekt - prædikat - objekt, f.eks. Bog – HarTitel – Hundehoved. Prædikater kan også ses som relationer. Subjekter og objekter kan indgå i flere tripler. Tripler beskrives ved hjælp af RDF (Ressource Description Framework) med denne typiske grafiske repræsentation (for forståelsens skyld er ikke anvendt URI’er for subjekt, attribut og objekt):

Illustration til artikel om Linked Open Data - Det nye sort?

Når en bibliografisk post publiceres som linked data vil det typisk være som en mængde tripler udtrykt i XML.
Et eksempel på hvordan disse tripler kan se ud i XML ses her:

Illustration i artikel om Linked Open Data af hvordan en triple ser ud i XML.

Applikationers forståelse af triplerne opnås ved at anvende veldefinerede ontologier mv. til regulering og beskrivelse af anvendte subjekter, prædikater og objekter, udtrykt i XML-skemaer. Da f.eks. forskellige fagdomæner anvender forskellige ontologier er mapning mellem forskellige ontologier væsentligt for at kunne linke data på tværs af webben.

Top

Hvad er der i det for bibliotekerne?

I USA, England, Canada, Australien og Tyskland er et nyt sæt katalogiseringsregler under implementering. Reglerne har fokus på relationer mellem dataelementer, og aftestning har vist at reglernes fulde potentiale først kan realiseres ved udskiftning af MARC-formatet. Library of Congres har derfor iværksat et udredningsarbejde, Bibliographic Framework Transition Initiative, som skal bidrage til udvikling af et nyt format. Dette udredningsarbejde er stærkt inspireret af linked data.

Bibliotekssektoren har været fantastisk dygtig til at udvikle og anvende standarder indenfor sektoren. Til gengæld er det standarder, som er vanskeligt tilgængelige for interesserede udenfor sektoren – tænk blot på Z39.50 og ISO2709. Ved publicering af vores data som linked data anvender vi med HTTP og XML standarder, som anvendes helt generelt på webben. Vi åbner dermed for en bredere anvendelse af vores data, ligesom der åbnes for at en bredere base af aktører kan lave spændende applikationer til vores brugere.

Linked data er en velegnet metode til at koble datasæt såvel indenfor egen institution som fra forskellige domæner, f.eks. arkiver, biblioteker og museer. Gode eksempler på dette er Centre Pompipou samt Europeana, hvis nye datamodel EDM bygger på linked data principper.

Med indbygget semantik i vores data kan der laves mere intelligente applikationer, der kan tilbyde flere og mere relevante informationer.

Linked data giver mulighed for at dele ansvar for data i stedet for at skabe og vedligeholde alle data selv. Ultimativt kan en bibliografisk post bestå af links til dataelementer forskellige steder på webben. F.eks. vil autoritative udenlandske navneformer kunne trækkes fra VIAF (Virtual International Authority File).

Deling af data forudsætter pålidelige data og tro på at data også er til stede næste år. Bibliotekssektoren betragtes som garant for pålidelige og persistente data og vil kunne have en rolle som datahubs, der linker datasæt i et web af data.

Top

Hot or not?

I Tim Berners-Lee’s vision lover linked data os guld og grønne skove. Virkeligheden er at der i de første år efter formuleringen af visionen ikke skete så forfærdeligt meget. De seneste par år er der til gengæld kommet gang i sagerne og ud over Europeana er Library of Congres, British Library, Deutsche Nationalbibliothek og Bibliothèque Nationale de France stærkt engageret i at publicere datasæt som linked open data. Senest har OCLC udvidet WorldCat med relativt rudimentære linked open data elementer i henhold til schema.org – dette fordi helt store spillere som Google og Yahoo understøtter schema.org. Der er altså rigtig mange initiativer i gang for så vidt angår publicering af egne datasæt som linked open data.

Der er altså på den internationale scene rigtig mange initiativer i gang for så vidt angår publicering af egne datasæt som linked open data.

Anderledes forholder det sig med at udnytte andres datasæt publiceret som linked open data. Selvom der også på dette område foregår mere og mere, er der stadig en udpræget mangel på applikationer, der demonstrerer udnyttelsen af potentialet i linked data. Medvirkende hertil er givetvis at en af de helt store udfordringer er linkning på tværs af datasæt, specielt muligheder for rationelt at kunne berige egne datasæt med links til andre datasæt. Vi vil formentlig først se linked data modnes som anvendt teknologi når denne hurdle er overvundet.

Set i lyset af, hvor meget afprøvning og udvikling af linked data fylder i den internationale biblioteksverden er det overraskende, hvor lidt der tilsyneladende sker herhjemme i form af konkrete eksperimenter og udviklingsprojekter vedrørende linked data. Vi ser eller hører ikke om mange projekter, der konkret afprøver teknikkerne i relation til danske biblioteker. Det er også påfaldende, at der på den internationale konference om linked open data i biblioteker SWIB12, som netop har været afholdt i Köln, blandt de 170 deltagere fra 23 lande kun deltog to danskere (som begge var fra DBC).

På DBC tror vi så meget på linked data, at vi har tillagt det strategisk betydning at opbygge kompetencer på området. Derfor har vi netop gennemført et analyse- og vidensopbygningsprojekt. Omdrejningspunktet for projektet var at publicere en meget begrænset delmængde af Dansk Bogfortegnelse. Centralt i projektet var at vælge antologier og opbygge en RDF-datamodel. Her har vi samarbejdet med British Library og bygget videre på deres datamodel. De to årgange af Dansk Bogfortegnelse er publiceret på oss.dbc.dk.

I 2013 gennemfører vi nye projekter, som bl.a. skal resultere i udvidelse af datamodellen til flere materialetyper, egentlig idriftsætning af løbende publicering af nationalbibliografien som linked open data samt berigelse med linkning til andre datasæt. Derudover er det planen at demonstrere usecases for udnyttelse af andres datasæt som linked open data.

Top

Links

DBC's dokumentationssite for Link Open Data: http://oss.dbc.dk/plone/linked-data
Europeana video om Linked Open Data:  http://vimeo.com/36752317
OCLC video om Linked Open Data: http://www.youtube.com/watch?v=fWfEYcnk8Z8&feature=youtu.be
Tim Berners-Lee taler på TED om Linked Open data: http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html

Cookies om besøgsstatistik

DBC bruger open source-softwaren Matomo til at analysere brugen af www.dbc.dk, så vi kan forbedre sitet. Vi hoster selv løsningen og deler dermed ikke data med tredjepart.

Vi opsamler data om ip-adresse, browser, operativsystem, land, hvilket link, du eventuelt bruger for at komme til sitet, hvornår du besøger sitet, hvilke sider, du besøger, og i hvor lang tid, samt hvad du klikker på og eventuelt downloader. Data anonymiseres, før de gemmes.

Du kan til enhver tid trække dit tilsagn tilbage.