Benutzer-Werkzeuge

Webseiten-Werkzeuge


konzepte:prozesse
  • Bookmark "Data Warehouse Prozesse" auf del.icio.us
  • Bookmark "Data Warehouse Prozesse" auf Digg
  • Bookmark "Data Warehouse Prozesse" auf Furl
  • Bookmark "Data Warehouse Prozesse" auf Reddit
  • Bookmark "Data Warehouse Prozesse" auf Ask
  • Bookmark "Data Warehouse Prozesse" auf Google
  • Bookmark "Data Warehouse Prozesse" auf Netscape
  • Bookmark "Data Warehouse Prozesse" auf StumbleUpon
  • Bookmark "Data Warehouse Prozesse" auf Technorati
  • Bookmark "Data Warehouse Prozesse" auf Live Bookmarks
  • Bookmark "Data Warehouse Prozesse" auf Yahoo! Myweb
  • Bookmark "Data Warehouse Prozesse" auf Facebook
  • Bookmark "Data Warehouse Prozesse" auf Newsvine
  • Bookmark "Data Warehouse Prozesse" auf Yahoo! Bookmarks
  • Bookmark "Data Warehouse Prozesse" auf Twitter
  • Bookmark "Data Warehouse Prozesse" auf myAOL
  • Bookmark "Data Warehouse Prozesse" auf Slashdot
  • Bookmark "Data Warehouse Prozesse" auf Mister Wong

Data Warehouse Prozesse

Beschreibung

Die Hauptaufgabe eines Data Warehouse (DWH) ist, relevante Daten und Informationen in einem konsistenten und zuverlässigen Stand zur Verfügung zu stellen. Relevante Informationen aus internen sowie auch externen Datenquellen werden herangezogen, um aus den daraus erhaltenen Informationen Entscheidungshilfen für die verschiedenen Geschäftsbereiche eines Unternehmens zu erstellen. Die DWH-Prozesse befassen sich dabei mit den Vorgängen, wie die zur Verfügung stehenden Rohdaten in einem Datenpool zentral gesammelt, bereinigt und archiviert werden können. Zudem sollen die Anwender auf die relevanten verdichteten Informationen zugreifen können, um Reports, Analysen sowie Charts effektiv und kurzfristig generieren zu können.

Charakteristika

Aus Perspektive der Applikationen soll ein Data Warehouse nach Inmon1) subjekt-orientierte, integrierte, zeitvariante und nicht-volatile Daten zur Verfügung stellen. Diese Kriterien sind notwendig, um den Applikationen konsistente, bereinigte und damit zuverlässige Daten bereitzustellen:

  1. Subjekt-orientiert:
    Die Daten werden gemäß ihrer Anwendungen ausgewählt und in bestimmte Attribute (Subjects) abgespeichert, welche für die spätere Analyse verwendet werden.
  2. Integriert:
    Die Daten aus den unterschiedlichen Quellen werden nach dem im DWH definierten Strukturen umformatiert und in einheitliche Formate abgespeichert und konsistent gehalten. Bei Änderungen der Rohdaten muss sich nicht notwendigerweise die Struktur aus Sicht der Applikationen ändern.
  3. Zeitvariant:
    Die Daten werden zu festgelegten Zeitpunkten akquiriert, d.h. sie werden entweder kurzfristig oder in bestimmten Zeitintervallen in Abhängigkeit ihrer Herkunft aktualisiert und im System historisch archiviert. Verändern sich die Rohdaten, so sehen die Applikationen diese Veränderung erst nach der Übernahme in das DWH. Dies ermöglicht den Applikationen, die Unterschiede vom heutigen Stand zur Vergangenheit aufzuzeigen.
  4. Nicht-Volatil:
    Sind die Daten einmal in das System integriert, hat der Anwender aus Applikationssicht keine Möglichkeit, die Daten in dem DWH auf irgendeiner Weise zu verändern. Somit wird eine zuverlässige Datenkonsistenz für alle Applikationen, die auf dieselben Daten zugreifen, langfristig sichergestellt. Darüber hinaus bietet die Historisierung der Daten eine dauerhafte Speicherung der Daten, so dass stets ein Bild zum Zustand in der Vergangenheit gemacht werden kann.

Prozesse

Aufgrund dieser charakteristischen Anforderungen ergeben sich folgende elementare operative Prozessschritte im Data Warehousing. Die wichtigste Anforderung dabei ist, zu bestimmen, welche Information am Ende der Prozesskette, also für die Applikationen, erforderlich ist. Erst dann kann entschieden werden, welche Rohdaten in Bezug zu der verlangten Information in den Applikationen herangezogen und verdichtet werden muss.

Wie in der Abbildung zu sehen ist, wird das DWH zwischen der Datenakquirierung und den Applikationen als Zwischenstufe implementiert. Erst damit werden die Applikationen von Änderungen oder Problemen bei der Datenakquirierung entkoppelt und können unabhängig von dieser Problematik zu jeder Zeit auf zuverlässige Informationen aus dem Data Warehouse zugreifen. Wie in der Abbildung zu sehen ist, befasst sich das Data Warehouse Konzept mit den folgenden elementaren Datenmanagement-Prozessen, um dieser Aufgabe gerecht zu werden. Alle Schritte benötigen dabei die Metadaten (Metadatenmanagement), die Informationen über die Struktur der akquirierten und abgelegten Daten enthalten:

  1. Datenbeschaffung:
    In Abhängigkeit der Applikationen werden die relevanten Rohdaten aus internen sowie externen Datenquellen ausgesucht und herangezogen. Diese Rohdaten können sich in unterschiedlichen Systemen oder Dokumenten befinden. Einerseits werden dazu die gewöhnlichen Online Transaction Processing Systems (OLTP) oder Enterprise Ressource Systeme (ERP) angekoppelt und die Daten direkt aus den Datenbanken herausgezogen. Die Daten können sich auch in Legacy-Systeme befinden, IT-Landschaften, die schon länger in einem Unternehmen aktiv genutzt werden. Jedoch können Daten auch aus kleineren Windows-Access Datenbanken oder speziellen Web-Services über FTP/http herangezogen werden. Es werden teilweise sogar Daten aus Excel Sheets, Text- oder XML-Dateien automatisch eingelesen und in den DWH-Datenbestand integriert.
  2. Datenintegration:
    Das Einspielen der relevanten Daten aus den Quellen stellt einen wichtigen aber auch den kritischsten Prozess dar und wird ETL-Prozess (Extract-Transform-Load-Prozess) bezeichnet. In diesem essentiellen Prozessschritt finden die nach Inmon gesetzten wichtigen Charakteristika von DWH Anwendung. Die ETL-Prozesse erfolgen zeitlich periodisch, ereignisgesteuert oder nach spezieller Anfrage. Bei der Extraktion werden die Datenprofile anhand der Metadaten der Quellen überprüft. Die Metadaten beinhalten alle Informationen über die bereits akquirierten Daten und gleichen beim Einlesen die Daten mit den vorhandenen Informationen ab. Bei der Transformation werden die Quelldaten validiert und bereinigt (Data Cleansing). Die relevanten Daten werden auf Inhalt und Format überprüft, bspw. werden enthaltene Duplikationen aus den Daten gelöscht oder Format- bzw. Strukturänderungen erkannt. Erst dann wird im Load-Prozess die Daten in die staging area, den Arbeitsbereich des Data Warehouses, nach einheitlichen Regeln geladen.
  3. Datenhaltung:
    Die Daten werden in Datenbanken im Data Warehouse für Analysezwecke gespeichert und langfristig archiviert. Die Historisierung und die nicht-volatile Datenhaltung sind dabei von großer Wichtigkeit. Werden neue Daten in das System eingespielt, so werden alten Daten nicht überschrieben, sondern die neuen Daten nur hinzugefügt.
  4. Versorgung:
    Für die Applikationen werden die Datamarts aus dem Datenbestand zur Verfügung gestellt. In diesem Schritt liegen die Informationen im verdichtetet vor. Je nach Anwendung können mehrere Datamarts hintereinander mit unterschiedlicher Datengranularität generiert und der Datenauswertung bereitgestellt werden.
  5. Datenauswertung:
    Mit Hilfe der Datamarts können nun die Auswertungen der Applikationen in Form von Reports, Charts oder umfangreicheren Analysen erfolgen:
    1. Reports:
      Die Anwendungen, die aus den Datamarts generiert werden, können mit Hilfe eines MIS/BI-Tools automatisch Reports aller Art, in der die gewünschte Informationen verdichtet präsentiert werden. Auch Forecasts oder andere Simulationen können mit Hilfe der BI-Tools generiert werden.
    2. Charts:
      Es können auf Basis der historisierten Daten mit Hilfe von Web-Reporting-Tools Charts oder andere Grafiken automatisiert erstellt werden, um bspw. kurzfristig einen Überblick über die Gesamtsituation des Unternehmens zu sehen.
    3. Analysen:
      Die Daten werden für verschiedenste Anwendungen analysiert. Diese können kurzfristig als Ad-Hoc Anfragen kommuniziert oder als immer wiederkehrende Analysen bsp. für das Marketing durchgeführt. Beispielsweise werden mit Hilfe des Data Minings die Daten auf unerkannte Muster überprüft, um so bestimmte bislang verborgene Informationen zu entdecken. Diese Methodik kann entweder auf die Daten in den Datamarts aber auch direkt auf die im Data Warehouse angewandt werden.

Literatur- und Sachverzeichnis

1)
William Harvey „Bill“ Inmon, gilt als anerkannter Mitbegründer des Data Warehousing
Internet-Link: http://de.wikipedia.org/wiki/Bill_Inmon
  • Bookmark "Data Warehouse Prozesse" auf del.icio.us
  • Bookmark "Data Warehouse Prozesse" auf Digg
  • Bookmark "Data Warehouse Prozesse" auf Furl
  • Bookmark "Data Warehouse Prozesse" auf Reddit
  • Bookmark "Data Warehouse Prozesse" auf Ask
  • Bookmark "Data Warehouse Prozesse" auf Google
  • Bookmark "Data Warehouse Prozesse" auf Netscape
  • Bookmark "Data Warehouse Prozesse" auf StumbleUpon
  • Bookmark "Data Warehouse Prozesse" auf Technorati
  • Bookmark "Data Warehouse Prozesse" auf Live Bookmarks
  • Bookmark "Data Warehouse Prozesse" auf Yahoo! Myweb
  • Bookmark "Data Warehouse Prozesse" auf Facebook
  • Bookmark "Data Warehouse Prozesse" auf Newsvine
  • Bookmark "Data Warehouse Prozesse" auf Yahoo! Bookmarks
  • Bookmark "Data Warehouse Prozesse" auf Twitter
  • Bookmark "Data Warehouse Prozesse" auf myAOL
  • Bookmark "Data Warehouse Prozesse" auf Slashdot
  • Bookmark "Data Warehouse Prozesse" auf Mister Wong
konzepte/prozesse.txt · Zuletzt geändert: 2014/10/19 13:38 (Externe Bearbeitung)