Die Dublin Core Metadata Initiative

    28. März 2002 von Dipl.-Dok. Sonia Ache

    Das Informationsangebot im Internet erstreckt sich über Tausende von Ressourcen, die nur teilweise in verschiedenen Katalogen und Datenbanken als Basis unterschiedlicher Search Engines erfaßt sind. Die Qualität einer Recherche hängt davon ab, wie die Daten im Internet verzeichnet und beschrieben sind, wie sie von Suchmaschinen und anderen Indexierungsvorgängen generiert, aufgearbeitet und in die Rechercheoptionen eingebunden werden. Die Dublin Core Initiative ist ein Ansatz elektronische Dokumente nach einheitlichem Standard zu beschreiben und damit sinnvoll indizierbar und suchbar zu machen.

    Wissensmanagement und Metadaten

    Metadaten sind Informationen über andere Daten (Dokumente, Datensammlungen, Bilder...), die in einer Form gehalten werden, daß sie die Recherche und Nutzung der Primärdokumente verbessern. Metadatenelemente sind typischerweise recht klein im Verhältnis zum Dokument, das sie beschreiben und können, wenn das Format des Ausgangsdokuments es zuläßt, in dieses Dokument eingebettet werden. Zwei solcher Formate sind die Hypertext Markup Language (HTML) und die Extensible Markup Language (XML), wobei HTML z. Zt. die gebräuchlichere ist. Einmal standardisiert verspricht jedoch XML, in Verbindung mit dem Resource Description Framework [RDF], deutlich ausdrucksfähigere Möglichkeiten Metadaten zu kodieren. Hinter dem Begriff der Metadaten steht deshalb auch die Suche nach neuen Ansätzen in der Ressourcenbeschreibung und nach den entsprechenden Verfahren der Informationsvermittlung, die für einen effizienten und kostengünstigen Einsatz in elektronischen Netzen (wie z.B. dem Internet) optimiert sind.

    Verschiedene Schemata von Metadaten existieren bereits seit langem, denke man nur an bibliothekarische Katalogisierungsregeln, Klassifikationen, verbale Beschreibungen mittels Deskriptoren, Thesauri usw. Aber auch in Knowledge Management Systemen werden sie zur Strukturierung und zum Retrieval eingesetzt. Mit wachsender Bedeutung der Content Syndikation erweisen sich fehlende Standards jedoch zunehmend als Hindernis. Als positives Beispiel soll hier mit dem "Dublin Core" ein Standard vorgestellt werden, der seinen Ursprung im Bibliothekswesen hat und als Orientierung für die Datenstrukturierung auch in anderen Organisationen dienen kann.

     

    Einführung

    Die Dublin Core Initiative gehört zu den bekanntesten und in der internationalen Diskussion wichtigsten Entwicklungen, die sich dem Konzept "Metadaten zur Erschließung digitaler Ressourcen" widmen. 1995 haben sich Bibliothekare, Informationswissenschaftler und Informatiker zusammengetan, um dieses Konzept zu realisieren.

    Der Dublin Core repräsentiert einen Kern inhaltlicher und formaler Merkmale, wie sie für die bibliothekarische Erschließung von Dokumenten typisch sind, und überträgt diese auf die digitale Ebene. Ursprüngliches Ziel war es, einen Minimalsatz von Elementen zu definieren, die zur verbesserten Präzision und Retrievalfähigkeit digitaler Dokumente bei Recherchen im Internet verhelfen können.

    Problematik

    Das Informationsangebot im Internet erstreckt sich über Tausende von Ressourcen, die nur teilweise in verschiedenen Katalogen und Datenbanken als Basis unterschiedlicher Search Engines erfaßt sind. Die Qualität einer Recherche hängt davon ab, wie die Daten im Internet verzeichnet und beschrieben sind, wie sie von Suchmaschinen und anderen Indexierungsvorgängen generiert, aufgearbeitet und in die Rechercheoptionen eingebunden werden.

    Dabei sind Suchmaschinen zwar in der Lage, sehr viele Quellen in kurzer Zeit zu durchforsten, jedoch ist das Ergebnis wegen der mangelnden inhaltlichen Präzision sehr oft unbefriedigend. Angewandte Ranking-Verfahren beruhen lediglich auf der Gewichtung von Wortfrequenz und Stellung innerhalb eines Dokuments und stellen daher kein inhaltliches Qualitätskriterium dar.

    Mit zunehmender Beteiligung von Fachgesellschaften mit indexierten Preprint-Servern, fachbezogenen Datenbanken im Internet und den Ansätzen, mehr wissenschaftliche Arbeiten in elektronischer Form im Internet recherchierbar zu machen, steigt die Bedeutung des Internet für "seriöse" Zwecke. Die mangelnde Qualität der Rechercheergebnisse stellt ein Problem dar, das durch eine bessere inhaltliche und formale Erschließung der digitalen Dokumente mittels Metadaten zu lösen ist.

    Diesem Anliegen widmete sich der erste Dublin Core Metadata Workshop, der im März 1995 in Dublin, Ohio, stattfand und namensgebend wurde. Unter der Schirmherrschaft von OCLC (Online Computer Library Center, Inc.) und dem US National Center for Supercomputing Applications (NCSA) wurde ein Kernsatz von 13 formalbibliographischen und inhaltlichen Elementen zur Beschreibung digitaler Objekte definiert, der auf dem zweiten Workshop im April 1996 auf 15 Elemente erweitert wurde. Auf jährlichen Treffen wird das Modell seither ständig weiterentwickelt und angepaßt.

    Bei der Entwicklung des Dublin Core war das Ziel, einen Minimalsatz von Erschließungselementen in möglichst einfacher Form zu definieren. Diese werden mit Hilfe formaler und inhaltlicher "Meta-Tags" in den Header von HTML-Dokumenten und dokumentenähnlichen Objekten eingefügt, wobei sie durch den Browser nicht anzeigt werden, sondern nur im Quelltext sichtbar und für Suchmaschinen bei der Recherche erfassbar sind.

    Wesentliche Kriterien bei der Formulierung der Dublin Core Metadaten waren:

    • Einfachheit
    • Internationale übereinstimmung
    • Interoperabilität (Austauschbarkeit) von Metadaten
    • Erreichung größerer Recherchepräzision
    • Lieferung der Metadaten durch den Autor der Ressource
    • Standardset von Dublin Core Bezeichnern
    • Entwicklung allgemein verständlicher, maschinell verarbeitbarer Semantiken

    Gerade weil das Internet eine internationalisierende Tendenz hat, sollten Standards geschaffen werden, die sprachübergreifend zum Zweck der Recherche und Informationsvermittlung anwendbar sind. Um die weitreichenden Möglichkeiten des Mediums Internet zu nutzen, wurde das Konzept erweitert, um Bilddateien und andere Arten von Dateien einzuschließen.

    Dublin Core Elemente

     

    Nach der Definition des Dublin Core bestehen Metadata-Tags aus 15 Kern-Elementen:

    1. Titel (DC.TITLE)
      Der vom Verfasser, Urheber oder Verleger vergebene Name der Ressource
    2. Verfasser oder Urheber (DC.CREATOR)
      Person(en) oder Organisation(en), die den intellektuellen Inhalt verantworten, z.B. Autoren, Künstler, Photographen, Komponist, Maler
    3. Thema und Stichwörter (DC.SUBJECT)
      Thema der Ressource bzw. Stichwörter oder Phrasen, die das Thema oder den Inhalt beschreiben
    4. Inhaltliche Beschreibung (DC.DESCRIPTION)
      textliche Beschreibung des Ressourceninhalts inklusive Referat oder Inhaltsbeschreibung bei dokumentähnlichen Ressourcen
    5. Verleger bzw. Herausgeber (DC.PUBLISHER)
      Einrichtung, die verantwortet, daß diese Ressource in dieser Form zur Verfügung steht, z. B. Verleger, Herausgeber, Universität, korporatives Unternehmen
    6. Weitere beteiligte Personen und Körperschaften (DC.CONTRIBUTORS)
      Zusätzliche Person(en) und Organisation(en), die einen bedeutsamen, aber sekundären intellektuellen Beitrag zur Ressource geleistet haben, z. B. Herausgeber, übersetzer, Illustratoren, Konferenzleiter, Moderatoren
    7. Datum (DC.DATE)
      Datum, an dem die Ressource in der gegenwärtigen Form zugänglich gemacht wurde
    8. Ressourcenart (DC.TYPE)
      Art der Ressource, z. B. Homepage, Roman, Gedicht, Arbeitsbericht, technischer Bericht, Essay, Wörterbuch
    9. Format (DC.FORMAT)
      Medieneinheiten wie Bücher, Zeitschriften oder andere nicht elektronische Medien
    10. Ressourcen-Identifikation (DC.IDENTIFIER)
      Zeichenkette oder Zahl eingetragen, die die Ressource eindeutig identifiziert, z.B. URLs, International Standard Book Number (ISBN)
    11. Quelle (DC.SOURCE)
      Werk, aus dem die Ressource stammt
    12. Sprache (DC.LANGUAGE)
      Sprache(n) des intellektuellen Inhalts der Ressource
    13. Beziehung zu anderen Ressourcen (DC.RELATION)
      Verbindungen unter verschiedenen Ressourcen, z.B. Bilder in einem Dokument, Kapitel eines Buches, Einzelstücke einer Sammlung
    14. Räumliche und zeitliche Maßangaben (DC.COVERAGE)
      Angaben zur räumlichen Bestimmung (z. B. geographische Koordinaten) und zeitlichen Gültigkeit eingetragen
    15. Rechtliche Bedingungen (DC.RIGHTS)
      Link zu einem Urhebervermerk, ein "Rights-Management"-Vermerk über die rechtlichen Bedingungen o.ä.

     

    Jedes Dublin Core Element ist so definiert, daß es leicht verständlich ist und nicht weiter spezifiziert werden muß. Dennoch ist zusätzlich die Vergabe sogenannter"Qualifier" wie

    • LANG für die Sprache der Inhalte des Metatags
    • SCHEME für das Regelwerk, die Norm oder Konvention nach der sich die inhaltliche Form des Meta Elements richtet
    • SUB-ELEMENT für die Verfeinerung des DC-Elements

    als Unterfelder möglich, um eine Spannweite der Erschließung und Recherche zwischen Alltagsbenutzern und wissenschaftlichen Nutzern zuzulassen.

     

    Projekte

     

    Die Dublin Core Elemente fanden erstmalige Anwendung in Skandinavien, den USA, Großbritannien, Australien und Neuseeland. In Deutschland werden sie in einzelnen Projekten von Fachgesellschaften angewandt wie PhysDoc und MathNet aus dem Bereich der Naturwissenschaften. Auch die deutschen Geowissenschaftler und Erziehungswissenschaftler beteiligen sich an Projekten, die Metadaten benutzen.

    Die nachfolgenden URLs listen Initiativen und Projekte auf, die sich mit der Metadaten-Implementierung im deutschsprachigen Raum befassen. Sicherlich ist die Liste nicht vollständig, sie gibt aber einen guten Überblick in welchem Rahmen Metadaten bereits eingesetzt werden:

     

    Beispiel Bildungsserver (www.bildungsserver.de):

    Der Deutsche Bildungsserver ist ein Beispiel für eine nicht-englischsprachige Nutzung von Metadaten und fachspezifischen Elementenzusätzen. Die nachgewiesenen Dokumente sind überwiegend deutschsprachig, werden aber teilweise sowohl mit deutschen als auch englischen Metadaten versehen. Der Deutsche Bildungsserver ist ein Beispiel für die Notwendigkeit zusätzlicher Qualifier, um z. B. fachbedingte Ressourcenarten (z. B. Lehrmaterialien, Unterrichtspläne), Themenunterteilungen nach Schulebene etc. recherchierbar zu machen. Lehrer, Schüler und Wissenschaftler können ihre Dokumente und digitalen Ressourcen mit Hilfe eines Eingabeformulars für Metadaten selbst erschließen.

    Beispiel Meta-Guide (www2.sub.uni-göttingen.de):

    Der Metadaten-Server, Ergebnis des META-LIB Projektes der Niedersächsischen Staats-und Universitätsbibliothek Göttingen, wird seit 1997 von der Deutschen Forschungsgemeinschaft im Rahmen des Programms "Verteilte digitale Forschungsbibliothek" als Teil der gemeinsamen Metadateninitiative deutscher Bibliotheken gefördert. Dem Göttinger Metadaten-Projekt kommt dabei die Aufgabe zu, Grundlagen zu einem bibliothekarischen Regelwerk zur Erschließung digitaler Objekte zu erarbeiten.

    Das Projekt konzentriert sich auf folgende Schwerpunkte:

    • Ist-Analyse der Metadatendiskussion unter besonderer Berücksichtigung der Dublin-Core-Initiative
    • Analyse der Metadatenanwendungen in den deutschen wissenschaftlichen Fachgesellschaften und Berücksichtigung der Anwendung in anderen nationalen und internationalen Fachgesellschaften
    • Entwicklung von Anwendungsmodellen für digitale Objekte
    • Vorbereitung eines Vergleichs dieser Modelle mit den bibliothekarischen Regelwerken
    • Unterstützung einer möglichst einheitlichen Anwendung des Dublin-Core Metadatenschemas bei potentiellen Anwendern (Bibliotheken, Verbundsystemen und Fachgesellschaften).

     

    Ein weiteres Göttinger Projekt dient der Fachinformation: Ziel des SSG-FI-Projektes ist es, dem Wissenschaftler oder Studenten die Fülle vorhandener, wissenschaftlicher Informationsquellen im WWW, aber auch gedruckte oder als CD-ROM vorliegende Auskunftsmittel in übersichtlicher und qualifizierter Form zu erschließen. Dazu wird für jede Informationsressource ein Satz Metadaten erstellt, der über die Expertensuchmaske MetaGuide recherchierbar ist.

    Auch im internationalen Bereich gibt es bereits eine große Zahl von Projekten, deren Vielseitigkeit bereits an der subject list auf der Website des Dublin core Projektes deutlich wird:

    Arts and Humanities
    Bibliography
    Business
    Education
    Environment
    Mathematics
    Medicine
    Other
    Science and Technology

    Hier werden mehr als 60 Projekte verzeichnet, darunter auch solche, die nicht nur im universitären oder bibliothekarischen Bereich angesiedelt sind, wie die folgenden Beispiele deutlich machen:

    Business Entry Point (BEP)
    Home page: www.business.gov.au

     

    The Australian Government"s Business Entry Point (BEP) is an initiative to make it easier for Australian businesses to deal with government. It provides a gateway to regulations, services and resources from the Federal Government and all Australian States and Territories. The BEP"s metadata is based on Dublin Core and the Australian Government Locator Service. Currently, all metadata is collected in a central database where organisations register their content, but work is underway to access metadata held remotely. Substantial work has also been done to automate the creation of metadata.

    CISMeF (Catalog and Index for French Speaking Health Sites)
    Home page: www.chu-rouen.fr/cismef/

     

    CISMeF, Catalog and Index for French Speaking Health Sites, is devoted to indexing and describing French language Internet resources in the areas of medicine and health. We use DC elements like description, resource type, source, language and subject. For the keywords scheme, we use the MeSH thesaurus of Medline, including its French translation.

    Meta Matters
    Home page: www.nla.gov.au/meta/

     

    This Website is intended to help Web content providers improve the effectiveness of searching for information resources on the World Wide Web. Difficulties in finding scattered Web resources have prompted the development of simplified metadata standards which could be used by authors, or Web content creators/publishers, to facilitate easier access for Web users. The National Library encourages any initiative which seeks to implement standard metadata schemas such as the Dublin Core.

    The MusicBrainz Project
    Home page: www.musicbrainz.org

     

    The MusicBrainz project is run by volunteers that are defining a metadata standard for music recordings. This metadata standard is an extension of the Dublin Core. The goal of the project is to define the metadata standard for music and to create a metadata catalog of all music recordings around the world. The current database with metadata still contains less than a million entries.

    Project DESIRE
    Home page: www.nic.surfnet.nl/surfnet/projects/desire/desire.htmlwww.desire.org

     

    DESIRE demonstrates two approaches to resource discovery: subject based services based on manual selection and description of high quality resources, and a regional search service based on metadata generated by automated web crawlers. The project aims to monitor and incorporate new developments in metadata management as appropriate. The automated web crawler is now "metadata aware" and will gather Dublin Core descriptions.

    Insgesamt stellt die Dublin-Core-Initiative eine ambitionierte Reaktion auf die Herausforderung durch das World Wide Web dar und bietet einen zukunftsweisenden Ansatzpunkt für eine verbesserte Informationssuche im Internet.

    Die Zusammenarbeit mit dem W3-Konsortium, Standardisierungserfolge bei der National Information Standards Organisation (NISO) und dem European Commitee for Standardization (CEN) und die übersetzung des Dublin Core in 25 Sprachen können durchaus als Erfolg betrachtet werden.

    Dennoch stellt der Dublin Core keine Ideallösung für alle Zwecke dar. Das Hauptmanko ist die mangelnde Berücksichtigung der Metadaten durch gängige Suchmaschinen, die den Erstellungsaufwand der Erschließung z.Zt. nur auf fachbezogener Ebene wie bei den obigen Beispielen rechtfertigen. Die internationalen Beispiele zeigen aber deutlich, wie sinnvoll Metadaten auch bei der Erschließung anderer Informationsquellen eingesetzt werden können.

    Metadaten und Content Management

    Das ICE-Protokoll als Standard-Schnittstelle zwischen Syndikatoren (Content-Anbietern) und Subscribern (Konsumenten), soll den vollautomatischen Austausch von Daten über das Internet ermöglichen. Es basiert auf XML Document Type Definitions (DTDs), deren Spezifikationen Regeln für automatische Verteilung von Inhalten zwischen Websites und deren Verwendung definieren.

    Bisher gibt es jedoch kaum Einheitlichkeit bei Formaten und Protokollen, auch stellen die Content Provider bisher kaum Metadaten in ausreichendem Maß zur Verfügung. Da meist eigene XML-Spezifikationen verwendet werden ist wegen fehlender Schnittstellen und Filterkonzepte kaum eine Automatisierung der Geschäftsbeziehungen möglich.

    Für den Nutzer von Content und Knowledge Management Systemen ist es sinnvoll, die von Content-Brokern gelieferten Inhalte in eigene Datenbanken übernehmen zu können. Entscheidend für die Verarbeitung, Katalogisierung, Durchsuchbarkeit und Verteilung des Contents aber sind die Informationen über die Inhalte, die Metadaten, und diese müssen zueinander kompatibel sein, damit ein vollautomatischer Austausch erfolgen kann.

    Die Schaffung gemeinsamer Standards für Metadaten steht also auch für Informatiker weiterhin auf der Tagesordnung. Und warum nicht einmal von den Bibliothekaren lernen?

    [Standard] Namensnennung 3.0 Deutschland - Weitergabe unter gleichen Bedingungen 3.0 Deutschland
    Lizenziert unter einer Creative-Commmons Lizenz

Kommentare

Das Kommentarsystem ist zurzeit deaktiviert.



Schlagworte

Dieser Beitrag ist den folgenden Schlagworten zugeordnet