Linguistische Modellierung zur Integration unterschiedlich strukturierter Information in ein geschlossenes und transparentes Datenmodell

    22. Februar 2001 von Dipl. Ing. Hayno Rustige

    Die Methode der linguistischen Datenmodellierung erstellt ein Datenmodell anhand der natürlichen Sprachgrammatik, die jedoch formalisiert wurde. Sie macht sich dabei die enorme Abbildungsfähigkeit natürlich gesprochener Sprache zu nutzen. Auf der Basis dieses Modells wurde mit LogicDataBase eine erste Software implementiert und erprobt. Ziel ist es beliebige Anwendungen zu integrieren und unterschiedlich strukturierte Informationen einheitlich abzubilden. Für den Benutzer soll dabei die Informationsgewinnung leicht und transparent ablaufen - einfach so wie er spricht und denkt.

    1. Was verstehen wir unter einer Linguistischen Modellierung?

    Im Hintergrund-Artikel zur KnowTech 2000:
    "Wissensgesellschaft benötigt eigene Basistechnologie"
    lesen wir folgende Forderungen:

    "Wissenstechnologie, Querschnittstechnologie der Zukunft. Die Erkenntnis- und Wissenstechnologie hat die Aufgabe, eine für möglichst alle Wissensprodukte allgemeingültige, konfigurierbare sowie effizient anwendbare Grundlagen- und Querschnittstechnologie zu entwickeln. Dieser Anspruch ist auf der Basis eines Metawissens-Modells, eines Metawissens-Technologiemodells und Metawissens-Produktionsmodells realisierbar..... Ein Ziel aktueller Entwicklungsprojekte besteht darin, ... ein konsistentes statisches und dynamisches Metaobjekt-Referenzmodell zu entwickeln, das durch seine digitale Modellier- und Formalisierbarkeit auf Computersystemen technisch implementierbar ist. Damit können wichtige Grundlagen einer Wissenstechnologie (und -industrie) gelegt werden."

    Was sind die wesentlichen Ziele und Begriffe dieses Textausschnittes?
    Basistechnologie, Querschnittstechnologie, allgemeingültig, konfigurierbar, statisch und dynamisch, konsistent, formalisierbar, modellierbar, implementierbar.

    Gerade diese Begriffe haben bei der Entwicklung des "Linguistischen Datenbank Managementsystems" LDBMS eine wichtige Rolle gespielt. Ausgehend von einer semantischen Analyse von Zuständen und Handlungen in Raum und Zeit entwarfen wir ein allgemeingültiges Dimensionenmodell und ein darauf basierendes Handlungs- und Zustandsmodell. Aufbauend auf diesem allgemeingültigen und frei konfigurierbaren Datenmodell konnten dann beliebige Zustände und Handlungen (Statik und Dynamik) abgebildet werden. Das Modell ist mathematisch geschlossen oder konsistent. Die Formalisierung der Kernstruktur natürlicher Sprachgrammatik stand für diese Entwicklung in starkem Maße Pate. Deshalb sprechen wir von einer linguistischen Modellierung.

    Die enorme Abbildungsfähigkeit der natürlichen Sprache ist offensichtlich. Die Analyse sprachlicher Mechanismen beeinflußte diese Entwicklung wesentlich. Das Modell bietet nun für isolierte Anwendungen eine logische Datenbasis. Diese Datenbasis ermöglicht als Basistechnologie und Querschnittstechnologie eine Integration unterschiedlicher Anwendungsbereiche einer Organisation. Das Modell wurde inzwischen international patentiert. Auf diesem Datenmodell wurde dann mit "LogicDataBase" eine erste Software implementiert.

    1.1 Aufgabenbereiche der Abbildung
    In der Abbildung 1 sehen wir Aufgabenbereiche, welche sich für eine allgemeingültige Grundlagentechnologie aus den Strukturen beliebiger abzubildenden Vorgänge dieser Welt ergeben.


    Historische Realität erfassen

     


    Realität der Gegenwart organisieren

     


    Realität der Zukunft simulieren und planen

     

     

    Abbildung einer beliebigen logischen Realität.
    Zustände und Handlungen

    1. registrieren (als Aussage)    2. erfragen (Interrogativ)
    3. befehlen (Imperativ)    4. Ursachen und Wirkungen verknüpfen (Konditional- und Kausalsätze)

    Abbildung 1: Aufgaben der Informationsabbildung

    Wir stellten fest: Eine Abbildung muß nicht nur jetzt einen Weltausschnitt erfassen können. Vielmehr müssen auch die Vorgänge der Vergangenheit, der Gegenwart und Zukunft, sowohl reale als auch nicht reale Planungs- und Simulationsdaten integriert abgebildet werden. Mechanismen zur Bewältigung dieser komplexen Aufgaben müssen sich nun aber nicht notwendigerweise komplex gestalten. Sowohl die Kernstruktur der Sprachgrammatik als auch die multidimensionale Modellierungsansätze weisen hier überschaubare Wege. Nur auf dieser Basis konnten wir neue und wirksame Prinzipien zum Aufbau einer Datenbank entwickeln.

    1.2 Anwendungsbereiche
    Das entwickelte linguistische Datenmodell kann im Sinne einer Basis- und Querschnittstechnologie nun als operative und analytische Datenbank eingesetzt werden. Die klare linguistische Struktur gibt dabei die logischen Strukturen aller darauf basierenden Anwendungen vor und erleichtert so deren Implementierung. Ein Ziel ist es, auf einer solchen Basis beliebige Anwendungen transparent zu integrieren wie z.B.: ERP Anwendungen, Kalenderdaten, Konferenzen, Korrespondenz und persönliches Informationsmanagement, Knowledge Management und Content-Management, B2B-Protokolle.

    2. Idee und Konzept der linguistischen Datenmodellierung

    Unser semantischer Ansatz versucht die Grundstruktur unserer Welt zu erfassen und ein dazu analoges Abbildungssystem für alle Handlungen und Zustände in diesem System zu entwickeln.

    2.1 Ein multidimensionales Weltmodell
    Zuerst suchen wir eine Struktur, besser einen Container, in welchen wir eine beliebige Information abbilden, einordnen können. Wir stellen fest: Jede beliebige Information kann als eine Aussage, Frage oder Befehl bezeichnet werden. Aussagen wiederum spiegeln immer Zustände oder Handlungen wieder. Alle Aussagen, Fragen oder Befehle drehen sich dabei um Substantive, welche in Raum und Zeit miteinander interagieren. Diese Zusammenhänge werden nun wie in der Sprache in der Syntax eines Satzbauplans beschrieben.

    Damit sind die wesentlichen Grunddimensionen oder Kategorien dieser Welt schon gefunden. Zu diesen gehören: Die Dimension der Zeit, die Raumdimensionen, die Dimension für konkrete und abstrakte Gegenstände und die Verbdimension für alle Interaktionen, d.h. Handlungen oder Zustände (gekennzeichnet durch das Verb und dessen Satzbauplan).

    Diese Dimensionen finden wir in der natürlichen Sprache wieder: Die Zeit finden wir in den Adverbien der Zeit. Die Raumdimension finden wir in den Adverbien des Ortes. Substantive und Verben stellen die tragenden Wortarten dar. Wir nennen diese Dimensionen jetzt auch natürliche Dimensionen, weil sie auf einer natürlichen physikalischer bzw. linguistischen Grundlage stehen. Außerdem sind sie zueinander orthogonal. Dies läßt sich auch zeigen. Den aus diesen physikalischen und linguistischen Dimensionen zusammengesetzten multidimensionalen Raum nennen wir linguistischen Hyperraum (linguistic hyperspace LHS) oder auch das Weltmodell.

    2.2 Die Abbildung einer Handlung im linguistischen Hyperraum
    Jede Abbildung einer Handlung oder eines Zustandes findet innerhalb der Ordnung der natürlichen Dimensionen statt. Der linguistische Hyperraum bestimmt also die multidimensionalen Koordinaten für jede Information. Wir erklären die linguistische Modellierung und Syntax nun zuerst an einem Beispiel.

    Der Satz: "Bill sendet am Montag einen Brief an John nach London" hat folgende Gliederung: Das Verb "senden" hat im Satzbauplan den Empfänger "John", die Ware "Brief", den Versandtag "Montag" und die Adresse "London". Die Begriffe Empfänger, Ware, Versandtag, und Adresse bezeichnen wir als Funktionen des Verbs senden. Sie gehören jeweils zu genau einer Dimension und bilden als Liste den Satzbauplan des Verbs "senden".

     

    Verb

    Substantiv

    Zeit

    Raum

     

    Definition

    Senden

    Sender

    Versandt

    Ort

     

    Ware

     

     

     

    Empfänger

     

     

     

    Rekord

    Senden

    Bill

    Montag

    London

     

    Brief

     

     

     

    John

     

     

     

    Definition

    Fahren

    Fahrer

    Abfahrt

    Ziel

     

    Auto

     

     

     

    Rekord

    Fahren

    Bill

    Sonntag

    Berlin

     

    BMW

     

     



    Abbildung 2: Syntax im multidimensionalen Sprach-Raum

    Ein Verb beschreibt also ganz allgemein eine Handlung oder einen Zustand. Die Aussage zum Verb "senden" beschreibt eine Interaktion von Substantiven (Bill, John, Brief) zu einer gewissen Zeit (Montag) und an einem bestimmten Ort (London). Das Verb als Informationsträger der Handlung herrscht also wie ein König über alle anderen Elemente eines Satzes und bestimmt deren Struktur, deren Zusammenwirken und Funktion.

    3. Implementierung des Linguistischen Datenbank Managementsystems (LDBMS)

    Mit LogicDataBase haben wir das beschriebene Datenmodell in eine Software umgesetzt.

    Beliebige Anwendungen

    LogicDataBase, mit eigener Oberfläche

    Datenexport -import als OLAP Würfel
    Datenaustausch in XML - Notation

    Linguistisches Datenmodell,
    Relational modelliert

     

    Abbildung 3: Architektur

    Der Aufbau der Software, Abbildung 3, zeigt drei Schichten: Zuerst das linguistisches Datenmodell basierend auf einer relationalen Datenbank, dann die Datenbank-Anwendung mit Oberfläche zum Editieren, zur Datenanalyse und -manipulation. Darauf basieren dann beliebige Anwendungen. Weiter besteht eine Export Schnittstelle für die grafische Weiterverarbeitung und eine Import Schnittstelle zum Import von operationalen Daten als OLAP Würfel etc. Neben der Aufgabe als Analysedatenbank kann man mit dieser Struktur auch operational Daten verwalten.

    3.1 Modellstruktur
    Die linguistische Modellierung erlaubt es, beliebige Information in ein logisches Modell zu integrieren. Die Tabelle zeigt ihre technischen Strukturelemente. Wichtig ist: Das Modell bleibt von den Dateninhalten und der individuellen Modellierung der Verben unabhängig. Diese Tatsache ermöglicht die Integration unterschiedlicher Information aus verschiedenen Anwendungen in ein einziges logisches System. Dieses logische Modell ist vollkommen redundanzfrei.

     

    Satz, Aussage

    Wortverbände

    Wort & Wert

    Welt Modell

     

    Dimension

    Spezifikation

    Handlung und Zustand

    (Verbdefinition)

    Verb

    Funktion

    Selektion

    Daten und Lexikon

    Rekord

    Aussagen

    Element d.h. Wortverbände als Stammdaten

    Worte und Werte

    (Value), Lexikon

    Vertikal sehen wir die Begriffe: Weltmodell, Handlung und Zustand, Daten und Lexikon. Diese Begriffe trennen die Metabereiche eines Weltmodells und der darin vorkommenden Zustände und Handlungen von reinen Anwendungsdaten, welche als Sprachschatz und dessen Verknüpfungen erscheinen.

    Horizontal sehen wir die Begriffe: Satz & Aussage, Element oder Wortverband, Wort & Wert. Diese Begriffe gliedern jede Information nach der Größe ihrer Strukturelemente. Aus Worten und Werten werden Wortverbände aggregiert. Aus Wortverbänden werden Rekords aggregiert. Durch eine wiederholte Gruppierung werden also aus einem Lexikon zuerst Stammdaten dann Rekords gebildet (siehe Abbildung 4).

    Aussagen (Rekord)

    Stammdaten (Element)

    Geordnetes Lexikon der Begriffe (Value)

    Abbildung 4: Strukturprinzip des linguistischen Datenmodells

    Zusammenfassend kann gesagt werden: Der Bereich der Metadaten enthält das Weltmodell aus orthogonalen Dimensionen und die Verbdefinitionen. Der Datenbereich gliedert sich in ein natürlich geordnetes Lexikon der Begriffe, in die sogenannten Elemente als Stammdaten und in Rekords für beliebige Aussagen über Handlungen und Zustände.

    3.2 Praktische Implementierung Für eine praktische Implementierung muß aus Gründen der Performance dieses logische Modell denormalisiert und zu einem für die Praxis geeigneten ER-Schema umgewandelt werden. Die Anwendung entspricht in ihrer inneren Logik aber durchaus dem dargestellten Modell. Allerdings muß nach einer Änderung von Modelldaten (Dimensionen und Verbdefinitionen) eine Initialisierung erfolgen. Dies ist unproblematisch, da Modelldaten nur geändert werden, wenn eine Anpassung des Datenmodells erfolgen muß.

    4. Erfahrungen

    Im Sommer 2000 fand ein erstes Studienobjekt mit LogicDataBase bei einem namhaften Versandhaus statt. Dabei wollten wir die Datenbank mit Daten aus der Praxis testen. Ein kleiner Ausschnitt aus dem Einkaufsbereich sollte dazu linguistisch modelliert werden. Eine überschaubare Anzahl von ca. 125 000 Rekords mußte importiert werden. Darauf ausbauend wollten wir prüfen, welche Analysen und Fragestellungen in der Praxis möglich sein würden. Besonderes Interesse lag auf folgenden Punkten:
    Ist die Modellabbildung eindeutig? Das heißt: Ergibt die Abbildung eines Weltausschnitt ein einziges Datenmodell? Können Fragen Ad Hoc formuliert werden? Können vom Laien . ohne lange Einweisung . beliebige gewünschte Fragestellungen formuliert werden? Erlaubt das Modell einen transparenten Zugriff auf alle Information ohne Vorkenntnisse der Modellstrukturen? Welche Vorteile ergeben sich gegenüber OLAP-Würfeln?

    4.1 Praktische Modellierung
    Die praktische Modellierung erfolgte problemlos und rasch. Das Verständnis der linguistischen Modellierung mußte allerdings zuerst vermittelt werden. Die Methode erschien anfangs schlicht zu einfach zu sein. Die Modellierung erfolgte parallel durch mehrere Personen. Alle kamen dabei quasi zu demselben Ergebnis. Das heißt: Die erzeugten Modellstrukturen gestalten sich eindeutig. Ein Weltausschnitt erzeugt genau ein Modell. Dies ist nicht der Standard bei relationaler oder objektorientierter Modellierung.

    4.2 Import und Export von Daten
    Der Import von Daten erfolgte in der Form eines OLAP-Würfel. Die Vergabe der Tabellennamen und Attributsnamen mußte dabei gemäß einer linguistischen Klassifikation erfolgen. Diese Klassifikation ist einmalig notwendig und erfolgt gemäß der Struktur der modellierten natürlichen Dimensionen des Weltmodells und gemäß der definierten Funktionen der Verben. 126 000 Rekords wurden dann von dem System in ca. 850 000 Funktionen (Satzteile) zerlegt. Über diese Funktionen erfolgte dann der transparente Zugriff auf die Rekords.

    4.3 Effiziente und transparente Suchen
    Die erwarteten Fragestellungen konnten gut ausgeführt werden. Eine transparente Suche durch alle Datenbereiche hindurch wurde möglich. Dabei konnten übergeordnete Fragestellung Ad Hoc und vom Laien gestellt werden. Beispiele: Die Suche nach den Tätigkeiten einer Person in einem Zeitfenster wurde mit Rekords aus verschiedenen Handlungsbereichen beantwortet. Die Frage nach einem gewissen Artikel lieferte Rekords aus unterschiedlichen Bereichen der Auftragsabwicklung. Verknüpfte Abfragen über mehrere Verben hinweg waren leicht zu gestalten.

    Keine dieser Abfrage wurde dabei mit dem Wissen "wo steht was" vorformuliert. Interessant ist, daß auch Metainformationen, wie hier das Frageprofil selbst, ebenfalls als verbbasierter Satz abgebildet werden. Das heißt: Metainformation und Abbildungsinformation erhalten dieselbe Struktur.

    Allgemein kann man sagen: Mit dem LDBMS kann beliebige Information und Metainformation in einer erweitereten Form von OLAP Würfeln logisch miteinander vernetzt werden, um beliebige Fragestellungen durch mehrerer Würfel hindurch "Ad Hoc" zu ermöglichen. Dies ermöglicht im Gegensatz zur Analyse eines einzelnen OLAP-Würfel eine deutlich erweiterte Datenanalyse.

    4.4 Linguistische Oberfläche: strukturiert, wie der Mensch denkt
    Die Oberfläche von LogicDataBase ist einfach und leicht zu verstehen. Sie enthält die Bereiche Weltmodell und Verbdefinition, auf welche in erster Linie der Modellierer zugreift.

    Im Datenbereich (Browse) arbeitet dann der Anwender. Hier erscheinen wiederum drei zusammengehörige Bereiche in einem einzigen Fenster:
    Die Rekordanzeige zeigt den Rekordaufbau und die in ihr enthaltenen Stammdatenelemente. Hier kann der Satz (Rekord) quasi linguistisch gelesen und verstanden werden.

    Jedes der einzelnen Satzteile-Elemente kann dann in der Elementanzeige in seine Informationsbestandteile zerlegt werden. Beliebige Elemente können nach beliebigen Suchkriterien in der bereitstehenden Elementliste angezeigt und in einen Rekord übernommen werden.

    Damit kann komplexe Information in einer einheitlichen und verständlichen Form vom Anwender betrachtet und bearbeitet werden. Ein einziges verständliches Oberflächenfenster kommt dem Anwender entgegen.

    4.5 Vorteile der linguistischen Datenmodellierung
    Zusammenfassend kann man die Vorteile der linguistischen Datenmodellierung mit folgenden Stichworten skizzieren:

    • Einheitliche Abbildung unterschiedlich strukturierter Information
    • Funktion als operationale und analytische Datenbank
    • Auf natürlichen allgemeingültigen Dimensionen, wie Zeit und Raum aufgebaut
    • Mathematisch geschlossenes konsistentes Modell
    • Einfach, wie wir sprechen & denken - linguistisch
    • Verben und Weltmodell frei konfigurierbar
    • Für beliebige Zustände (statisch) und Handlungen (dynamisch)
    • Logische Ordnung statt individuellem "Modell-Wildwuchs"
    • Einfache Datenstruktur für globalen Datenaustausch in einer verteilten Datenbank
    • Leichte Informationsgewinnung & Transparenz

     

    Inzwischen sind mehrere neue Projekte angelaufen.

Kommentare

Das Kommentarsystem ist zurzeit deaktiviert.