A cura del Settore orientamento e informazioni bibliografiche
Workshop introduttivo al convegno FSR 2014. Roma, 26 febbraio 2014
Nell'ambito della conferenza internazionale FSR 2014 (Faster, smarter, richer: reshaping the library catalogue, Roma, 27-28 febbraio) si è svolto un workshop introduttivo tenuto da Cristina Pattuelli (docente presso la School of Information and Library Science del Pratt Institute a New York) riguardante l'uso dei Linked Open Data (LOD) da parte di istituzioni culturali come biblioteche, archivi, musei, gallerie.
La finalità del workshop era quella di offrire una introduzione generale ai principi e alla tecnologia dei LOD, corredata da numerosi esempi di applicazioni pratiche realizzate negli ultimi anni da parte di istituzioni culturali.
La prima parte del workshop è stata rivolta a fornire informazioni di base sui LOD. Secondo la definizione data da Bizer, Heath, Berners-Lee il termine Linked Open Data si riferisce ad un insieme di "buone pratiche" che servono per pubblicare e collegare tra loro dati strutturati sul web, in formato leggibile dalle macchine.
Il concetto di linked data è correlato a quello di web semantico, definito da Tim Berners-Lee come "A web of things in the world, described by data on the web". Il web semantico, o web di dati, può essere considerato come la naturale evoluzione del web classico, o web di documenti. Sul tema si vedano anche gli articoli relativi, in questa stessa rubrica [link] e nella rubrica Biblioteca 2.0. [link] di questo stesso numero.
Lo scopo dei LOD è quello di permettere la connessione, condivisione e riutilizzazione dei dati, attraverso l'uso degli standard del web semantico W3C.
Per produrre LOD viene utilizzato il meccanismo di rappresentazione di dati chiamato RDF (Resource description framework), che ha lo scopo di rappresentare semanticamente le risorse e le relazioni che intercorrono tra loro e che funziona attraverso l'espressione delle affermazioni (statements) attraverso una struttura (la "tripla"), in cui ogni elemento deve essere definito da una URI (Universal resource identifier), un identificatore univoco di risorse, siano esse persone, cose, concetti, immagini, ecc., presenti o anche non presenti sul web.
Nella seconda parte del workshop si è passati a descrivere in maniera più concreta l'utilizzo dei LOD e quindi anche la funzione pratica degli URI, vere e proprie "mattonelle" (pensate per essere stabili, non modificabili) che servono a costruire un network di affermazioni (statements) legate tra di loro, collegate attraverso link significativi. Sono le URI che permettono di costruire le triple Soggetto-Predicato-Oggetto.Ma da dove vengono prese le URI? Questa è una delle domande poste nel corso del workshop. Innanzitutto è importante tenere presente che vanno utilizzate sempre, quando possibile, URI già esistenti, perché è solo così che avviene la connessione fra i vari statements.
Sono stati illustrati i principali repository di dati, grandi "hub", da cui è possibile prelevare i dati che servono per formare i nostri statement. Uno dei più importanti è il progetto Dbpedia, che consiste nella trasposizione in dati strutturati di tutto l'enorme patrimonio di Wikipedia. Esiste anche la Dbpedia italiana che compie un'operazione analoga per le pagine Wikipedia italiane, mirando a rendere riutilizzabili le informazioni di Wikipedia da parte di software e applicazioni.
Sono stati successivamente mostrati i vocabolari e le ontologie (sistemi di organizzazione della conoscenza, descrizioni di concetti e relazioni fra oggetti) che permettono di definire i predicati, anche essi definiti da URI. Le ontologie o vocabolari sono stati definiti come la "colla" che permette di realizzare le triple, dando valore alla relazione tra oggetti.
Diverse ontologie sono state sviluppate nei diversi settori, come, ad esempio, FOAF (Friend of a friend), specifica per descrivere le attività svolte dalle persone, le relazioni tra loro, le cose che le persone creano e fanno; SIOC, specializzato nel campo dei social media, Good relations nel campo del commercio, Music ontology per la musica.
Uno strumento estremamente utile è offerto dal sito Linked Open Vocabularies (LOV), che dà la possibilità di una rapida ricerca nell'ambito di numerose ontologie permettendo la scelta della più appropriata.
Tra i progetti più completi sono stati descritti VIAF (The Virtual International Authority File), che si presenta come un servizio che collega ed unisce authority files differenti e il progetto della Library of Congresscheha organizzato The Linked Data Service, il cui scopo è di dare accesso agli standards e ai vocabolari controllati approvati dalla LOC.
Perché si producano LOD di qualità devono essere rispettate alcune caratteristiche, ed in base alla rispondenza ad esse, i dati forniti possono essere classificati con una stella (livello base) quando un dato non strutturato viene semplicemente distribuito sul web con una licenza aperta; due stelle quando i dati sono strutturati ma distribuiti con formati proprietari; tre stelle quando i dati sono strutturati e distribuiti con un formato non proprietario; quattro stelle quando per codificare i dati vengono utilizzate le URI; infine le cinque stelle sono attribuite quando diversi dataset cui appartengono i dati sono collegati tra loro, utilizzando le URI e fornendo un contesto.
Un'altra sezione del workshop ha riguardato la descrizione di alcuni dei progetti più importanti e significativi basati su l'uso della tecnologia LOD.
Nel campo di media una delle eccellenze è rappresentata dal New York Times che a partire 2009 ha pubblicato in formato LOD i propri indici, creati negli ultimi 150 anni; viene fornita anche documentazione di aiuto e informazione per i potenziali utilizzatori dei dati. Altro esempio di eccellenza è fornito dalla BBC, in particolare la sezione Nature Wildlife, corredata da una ontologia precisa ed accurata per la descrizione delle diverse specie animali e la sezione Music. I dati sono dinamici e l'aggiornamento avviene in maniera automatica.
Un progetto collaborativo è costituto da Freebase, base di conoscenza condivisa costituita da metadati raccolti principalmente dai membri della sua comunità. Si tratta di una collezione di dati strutturati (disponibili liberamente e gratuitamente, anche a scopo commerciale) raccolti da diverse fonti, con lo scopo di creare una risorsa globale che permetta alle persone (e alle macchine) di accedere all'informazione in maniera più efficace.
E' stata approfondita, infine, la sezione dedicata alla messa a disposizione come LOD dei propri dati da parte degli istituti culturali, come biblioteche, musei, gallerie, archivi. Queste istituzioni stanno partecipando in maniera molto attiva aprendo i loro database e contenuti digitali per contribuire sempre più alla creazione di servizi aperti e innovativi. I cosiddetti GLAM (acronimo inglese che sta per "galleries, libraries, archives, museums" da una parte esportano i loro dati in triple, dall'altra integrano set di linked data, provenienti da altre fonti, nelle proprie collezioni, sviluppando così nuovi modi di fruizione del patrimonio culturale.
Il progetto OPENGLAM, promosso dalla Open Knowledge Foundation, raccoglie i datasets di numerose istituzioni culturali, comprese scansioni digitali e fotografie liberamente utilizzabili, con lo scopo di costruire una base di dati culturale globale.
Per aiutare, supportare, fornire informazioni alle istituzioni interessata al rilascio in formato LOD dei propri dati, esistono comunità molto attive come LODLAM (Linked Open Data in Libraries, Archives and Museums), formata da tecnici, professionisti e da appassionati che, a vario titolo, intendono promuovere il processo di esportazione dei dati da parte di istituti culturali, la loro integrazione in set di dati già esistenti, e lo sviluppo di nuove interfacce per gli utenti del patrimonio culturale. Un'altro sito di riferimento è Code4Lib, comunità di bibliotecari, ma non solo, che mette a disposizione strumenti utili, organizza conferenze e, più in generale, favorisce il contatto tra le nuove tecnologie e il mondo delle istituzioni culturali.
Tra le biblioteche, naturalmente, spiccano le grandi biblioteche nazionali. Oltre alla Library of Congress, già citata in precedenza, un esempio di eccellenza è dato dalla British National Library che ha rilasciato in formato LOD la British National Bibliography.
Tra i musei, il British Museum ha rilasciato una versione LOD della sua collezione di quasi due milioni di soggetti; il Rijksmuseum di Amsterdam raggiunge il livello massimo di qualità dei LOD per la quantità e qualità dei collegamenti, dal momento che i dati sono codificati utilizzando thesauri (persone e soggetti), i nomi geografici sono legati al database Geonames.org, gli artisti citati nelle collezioni del museo sono collegati alla Getty's Union List of Artist Names (ULAN) e alle pagine DBpedia riguardanti le persone.
Il portale Europeana mette a disposizione milioni di dati disponibili come LOD, provenienti da biblioteche, gallerie, archivi e musei. Tutti i dati, che spaziano da mappe a diari, a registrazioni, a fotografie e molto altro, sono disponibili con licenza open access; il portale inoltre cura collezioni a tema, come ad esempio la sezione Europeana 1914-1918 sulla prima guerra mondiale.
Un altro progetto basato sui LOD in ambito europeo è EU screen, un database che permette di esplorare un ricchissimo patrimonio di video provenienti da tutti i paesi europei, creando un vero e proprio portale video della storia europea, connettendo documenti provenienti da diversi archivi nazionali (per l'Italia la Rai e Cinecittà Luce). Sempre nell'ambito degli archivi è stato illustrato il progetto realizzato dall'Australian National Archive che ha rilasciato i propri dati in formato LOD, seguendo la raccomandazione del governo australiano in base alla quale tutte le istituzioni governative devono rilasciare i dati in formato aperto, permettendo così ai ricercatori l'accesso a milioni di documenti riguardanti la storia dell'Australia, favorendo in particolar modo la ricerca su quella parte di storia non ufficiale che riguarda le popolazioni indigene.
In conclusione, è evidente come biblioteche e altri istituti culturali siano estremamente attivi nel campo della fornitura di linked open data; si sta passando, secondo una efficace definizione data da Eric Miller, cofondatore e presidente della società Zepheira, dal "catalogare" al "catalinkare". Il record tradizionale va dissolvendosi, disaggregandosi, muovendosi verso un sistema di dati collegati che si possono ricombinare in nuove e sempre diverse aggregazioni.