Strategien für effektives Metadaten-Management

In unserem vorangegangenen Blogartikel über das Management von Metadaten haben wir erklärt, warum es nötig ist unseren Umgang mit Daten neu zu denken. Damit Sie in Ihrem Unternehmen Daten auch in Zukunft sinnvoll beschreiben, katalogisieren und visualisieren können, braucht es daher einen neuen, fortschrittlichen Ansatz für die Verwaltung von Metadaten.

In diesem Blogpost lernen Sie daher verschiedene Strategien im Metadaten-Management kennen, die den heutigen Anforderungen an die Geschwindigkeit, das Volumen und die Struktur von Daten gerecht werden. Sie lernen zudem, wie sich die neuen Herausforderungen im Bereich Datenverwaltung mithilfe von Metadaten bewältigen lassen und lesen, wie Ihnen der Ansatz des aktiven Metadaten-Managements dabei helfen kann.

Die häufigsten und grössten Probleme beim herkömmlichen Metadaten-Management

In unserer heutigen, sich schnell verändernden Datenlandschaft scheitern Metadaten-Management-Lösungen, die sich auf ein manuelles Management stützen, kläglich. Warum? Selbst dort, wo Aufgaben zunächst machbar erschienen, stellen Unternehmen mittlerweile schnell fest, dass es nicht mehr so einfach möglich ist, den ständig wachsenden Anforderungen mit einer manuellen Verwaltung hinterherzukommen.

Anbieter für Metadaten-Management-Lösungen haben bisher verschiedene Varianten zu deren Verwaltung angeboten:

Manche Anbieter haben einfach auf künstliche Beschränkungen gesetzt, um die Komplexität in der Verwaltung von Metadaten zu reduzieren oder sogar zu stoppen. Doch dieses Vorgehen behinderte langfristig die Weiterentwicklung. Der „Magic Quadrant for Metadata Management Solutions“ von Gartner aus dem Jahr 2020 gibt einen Überblick über diese Arten von Technologien.

Wieder andere Anbieter haben auf Einzellösungen gesetzt mit einer Programmierschnittstelle (z.B. OWL, RDF, SKOS) für Integrationen auf höherer Ebene. Dieser Ansatz gab Domänen-Spezialisten mehr Freiheit und unterstützte föderale Architekturen. Doch auch dieser Prozess blieb überwiegend manuell.

Anstelle der äusserst ineffizienten manuellen Wartung nutzen einige Anbieter von Metadaten-Management-Lösungen deshalb automatisierte Prozesse, die sogenannte Agents oder Crawler verwenden. Diese sollen an den Datenquellen andocken und relevante Informationen an Metadaten-Management-Dienste weiterreichen. Aufgrund verschiedenartiger Datenstrukturen leiden Agents-basierte Entwicklungen in der Regel jedoch unter einer rasch steigenden Komplexität und werden schnell unbeherrschbar. Darüber hinaus wird es durch die unzureichende Differenziertheit solcher Ansätze im Verlauf der Zeit schwierig, feine Details der Metadaten zu pflegen.

Beschreibung von Teillösungen für effektives Metadaten-Management

Es gibt mittlerweile zahlreiche bewährte Praktiken, um die oben genannten Probleme anzugehen. Zunächst sollte eine Metadaten-Managementlösung Schritt für Schritt entwickelt werden. Jede Weiterentwicklung richtet sich dabei nach den jeweiligen individuellen Anforderungen der Nutzer. Das dafür verantwortliche Team sollte deshalb die gemeinsame Arbeit mit Metadaten fördern und z. B. durch Blueprints gemeinsame Standards erarbeiten.

Auf folgende Dinge ist dabei vor allem zu achten:

Lösungen für das Metadaten-Management sollten zunächst die kritischsten und relevantesten Daten identifizieren und sich auf diese konzentrieren und sich erst danach um den Rest kümmern.
Die Metadaten-Managementlösung sollte ausserdem vorgeben, wie weitere Systeme in der IT-Landschaft eines Unternehmens integriert werden können, beispielsweise mithilfe von Schnittstellen über Streaming.
Um eine wirklich nachhaltige Lösung zu etablieren, sollten Stakeholder aus dem gesamten Unternehmen an diesem Projekt beteiligt werden.
Bei der Metadaten-Managementlösung kann es sich entweder um eine konsolidierte Plattform, eine verteilte Plattform oder aber um eine Mischung aus beidem handeln.
Governance-Regeln, die für die Verwaltung definiert werden, müssen dabei zu jedem Zeitpunkt erfüllt und durchgesetzt werden.
Zugleich muss über eine Reihe von Self-Services und intelligenten Diensten der unmittelbare Zugriff auf hochwertige Daten sichergestellt sein.

Der tatsächliche Metadatenspeicherort kann von der herkömmlichen Speicherung von Eckdaten bis zu Graphdatenbanken reichen und nutzt eine Indizierung, um auch komplexere Anfragen oder sogar ein Analysemodul zu ermöglichen.

Verbindung zwischen Metadaten-Management und Data Governance

Obgleich Data Governance in einer engen Verbindung zum Metadaten-Management steht, geht diese doch wesentlich weiter über Infrastruktur- oder Architekturkonzepte hinaus. Data Governance definiert und berührt Prozesse, die Organisation und Arbeitskultur eines Unternehmens, die Beschäftigten und möglicherweise sogar noch mehr. Es lässt sich aber insgesamt festhalten, dass Data Governance Richtlinien zu Optimierung und Verfügbarkeit von Daten etabliert, während Metadaten eine Möglichkeit darstellen, Governance-Entscheidungen zu kommunizieren.

Die Metadaten-Management-Lösung soll deshalb einen offenen, erweiterbaren Zugriff für alle anbieten, die mit diesen Daten arbeiten, während zugleich die Governance-Richtlinien sicherstellen, dass gewisse Regeln eingehalten werden.

Aktives Metadaten-Management als Lösung für heutige Metadaten-Anforderungen

Das Metadaten-Management gehört zu den zentralen Bestandteilen moderner Datenplattformen. 2021 identifizierte Gartner eine Veränderung bei den Trends im Metadaten-Management und überdachte seinen ursprünglichen Ansatz. Nach Analyse der Probleme mit den zu dieser Zeit beliebten Verfahren beleuchtete das Unternehmen nun einen neuen Trend: aktives Metadaten-Management. Dieses gilt als entscheidendes Konzept moderner, verteilter Datenarchitekturen, die den Prinzipien von Data Mesh und/oder Data Fabric folgen. In den Worten von Gartner: „Aktives Metadaten-Management umfasst eine Reihe von Funktionalitäten, die den kontinuierlichen Zugriff und die kontinuierliche Verarbeitung von Metadaten ermöglichen, welche wiederum fortlaufende Analysen unterstützen – und das über ein breites Spektrum unterschiedlicher Reifegrade, Anwendungsfälle und Anbieterlösungen hinweg.“

Daraufhin identifiziert Gartner die wesentlichen Bestandteile dieses Konzepts:

Machine Learning anstelle von Profiling

Ein solcher Prozess zur Definition von Metadaten in Verbindung mit Datensätzen bestand darin, hierarchisch vorzugehen und nutzte statistische Algorithmen, die auf Attributebene, spalten- und sogar datensatzübergreifend operierten. Dieser wurde üblicherweise als Data Profiling bezeichnet. Er lässt sich mit zunehmender Zahl an Datensätzen jedoch nicht gut skalieren und ist nicht flexibel genug. Laut Gartner sollten Verfahren zur Analyse und zum besseren Verständnis der Rohdaten ML-Algorithmen (Machine Learning) nutzen. Dies sollte als erster Schritt dienen, um die aus Daten gewonnenen Erkenntnisse näher zu bestimmen.

Inhaltsanalyse

Bei dieser Herangehensweise handelt es sich um ein Verfahren für die Erstellung wiederholbarer, valider Inferenzen durch die Interpretation und Kodierung von Textmaterial. Systematisch angewandt können Inhaltsanalyse-Tools echte qualitative Daten liefern, die beliebige Inhalte effektiv und auf messbare Weise abbilden. Diese Basis ist dann Ausgangspunkt für weitere verwertbare Erkenntnisse.

User/Use-Case-Clustering

Durch das Aufdecken von zugrundeliegenden Mustern in der Datennutzung lassen sich proaktiv potenzielle neue Anwendungsfälle, auch Use Cases genannt, erkennen und damit die Performance bestehender Anwendungsfälle optimieren. Diese Fähigkeit beinhaltet die Gruppierung von Usern mit ähnlichen Sehgewohnheiten, wodurch ähnliche Inhalte empfohlen werden können sowie Abweichungen entdeckt werden.

Metriken für die Ressourcenverteilung

Umfangreiche Zahlen zur Ressourcennutzung sind für die dynamische, unabhängige Verteilung von Software- und Hardware-Ressourcen entscheidend.

Warnmeldungen und Empfehlungen

Die Operationalisierung von Analysen erfolgt in Form von Warnmeldungen und Benachrichtigungen. Erkenntnisse werden so unmittelbar verfügbar gemacht.

Der Vergleich mit passiven Metadaten

Ein weiterer entscheidender Prozess im Metadaten-Management dient der Aufdeckung nicht-expliziter Beziehungen und Strukturen innerhalb von Daten. Der kontinuierliche Vergleich mit passiven Metadaten ermöglicht die Anwendung von Qualitätsregeln und stellt Empfehlungen für Benutzer bereit, wodurch die Metadaten-Discovery unterstützt wird.

Orchestrierung von Empfehlungen und Reaktionen

Die Kompatibilität von Datenmanagement-Plattformen ist ein wesentlicher Faktor, um ein vollumfängliches Metadaten-Management zu ermöglichen. Erst die Integration von Design- und Laufzeit-Metadaten über verschiedene Datenplattformen hinweg ermöglicht die Ableitung neuer Informationen.

Aktives Metadaten-Management ist eine Chance für qualitativ hochwertige Datenzugriffe und Governance-Compliance

Ehemals bewährte Strategien sind heute nicht mehr geeignet, um das Metadaten-Management zu bewältigen. In diesem Artikel haben wir verschiedene Strategien zur Bewältigung der neuen Herausforderungen erklärt. Insgesamt lässt sich festhalten, dass es sich bei einer geeigneten Metadaten-Management-Lösung entweder um eine konsolidierte Plattform, eine verteilte Plattform oder aber um eine Kombination aus beidem handeln kann. Zudem sollte die Compliance mit den Governance-Regeln sichergestellt werden. Darüber hinaus soll die Metadaten-Management-Lösung über eine Reihe von Self-Services und intelligenten Diensten sofortigen Zugriff auf hochwertige Daten gewährleisten. Nur dann kann eine effektive Nutzung gewährleistet werden.

Gartner hebt aktives Metadaten-Management als neuen Trend und entscheidendes Konzept in modernen verteilten Datenarchitekturen hervor – und in diesem Beitrag haben wir die wesentlichen Bestandteile dieses Trends aufgezeigt. In unserem nächsten Artikel über Metadaten-Management erklären wir die Prinzipien des Metadaten-Managements in Data-Fabric-Architekturen.

Pawel Wasowicz

Pawel lebt in Bern und ist unser Head of Data Engineering. Er hilft unseren Kunden, durch optimale Nutzung der neuesten Trends, bewährter Technologien und seiner jahrelangen Erfahrung auf diesem Gebiet das meiste aus Ihren Daten zu machen.