Benutzer-Werkzeuge

Webseiten-Werkzeuge


etl:delta-beladung
  • Bookmark "Delta-Beladung" auf del.icio.us
  • Bookmark "Delta-Beladung" auf Digg
  • Bookmark "Delta-Beladung" auf Furl
  • Bookmark "Delta-Beladung" auf Reddit
  • Bookmark "Delta-Beladung" auf Ask
  • Bookmark "Delta-Beladung" auf Google
  • Bookmark "Delta-Beladung" auf Netscape
  • Bookmark "Delta-Beladung" auf StumbleUpon
  • Bookmark "Delta-Beladung" auf Technorati
  • Bookmark "Delta-Beladung" auf Live Bookmarks
  • Bookmark "Delta-Beladung" auf Yahoo! Myweb
  • Bookmark "Delta-Beladung" auf Facebook
  • Bookmark "Delta-Beladung" auf Newsvine
  • Bookmark "Delta-Beladung" auf Yahoo! Bookmarks
  • Bookmark "Delta-Beladung" auf Twitter
  • Bookmark "Delta-Beladung" auf myAOL
  • Bookmark "Delta-Beladung" auf Slashdot
  • Bookmark "Delta-Beladung" auf Mister Wong

Delta-Beladung


Bei einer Delta-Beladung werden, anders als bei einem Full Load, nur Daten, die seit dem letzten Laden verändert wurden, geladen. Dieses Verfahren eignet sich besonders bei großen Datenmengen da es deutlich effizienter ist als immer alle vorhandenen Daten erneut zu laden. Es kann in zwei Arten von Delta-Beladung unterschieden werden. Zum einen in Source Based Load und zum anderen Target Based Load.

Source Based Load

Beim Source Based Load werden die Daten meist über eine Identifikationsspalte verglichen. Hierfür eignen sich besonders gut inkrementelle Variablen wie „ID“ oder Timestamps wie „created“. Ein Vergleich der Daten kann durch die Slowly Changing Dimensions realisiert werden. Dabei wird zwischen drei Varianten unterschieden: Bei SCD1 werden die alten Daten mit den Neuen überschrieben. Bei SCD2 werden die neuen Daten der Tabelle hinzugefügt und die alten Daten mit einem „Ablaufdatum“ versehen. Bei SCD Typ 3 wird der Tabelle ein neues Attribut angehängt. Allerdings können bei diesem Verfahren gelöschte Daten nicht verarbeitet werden.

Target Based Load

Der Target Based Load eignet sich besonders wenn die Daten ohne Timestamp oder ohne einen anderen Identifikationswert gespeichert sind. Eine Möglichkeit um die veränderten Daten zu bestimmen wäre für jedes Laden eine Kopie der Datenquelle zu erstellen und diese mit dem neuen Extrakt zu vergleichen. Allerdings müssen dann alle Einträge komplett geladen und miteinander verglichen werden was sehr zeit- und datenintensiv ist. Eine andere Möglichkeit veränderte Datensätze zu identifizieren ist durch die Verwendung eines Look-Ups. Dabei muss die Datenquelle nicht kopiert werden, sondern es werden alle eingehenden Einträge mit bestimmten Einträgen der Zieldatenquelle verglichen um neue oder veränderte Datensätze zu identifizieren.

Behandlung gelöschter Daten

Es sollten aber nicht nur veränderte Datensätze sondern auch gelöschte Datensätze berücksichtigt werden. Von daher muss der Prozess eine Reihe von Business Regeln folgen die bestimmen wie gelöschte Daten zu behandeln sind. Wenn Daten physisch aus der Datenquelle gelöscht wurden, kann man nicht wissen ob bei einer Delta-Beladung wirklich nur veränderte Daten geladen wurden da diese Prozesse dazu dienen nur Veränderungen von bereits vorhandenen Daten zu laden. Sie können keine Veränderungen laden von Daten die nicht existieren.

Quellen:

  • Bookmark "Delta-Beladung" auf del.icio.us
  • Bookmark "Delta-Beladung" auf Digg
  • Bookmark "Delta-Beladung" auf Furl
  • Bookmark "Delta-Beladung" auf Reddit
  • Bookmark "Delta-Beladung" auf Ask
  • Bookmark "Delta-Beladung" auf Google
  • Bookmark "Delta-Beladung" auf Netscape
  • Bookmark "Delta-Beladung" auf StumbleUpon
  • Bookmark "Delta-Beladung" auf Technorati
  • Bookmark "Delta-Beladung" auf Live Bookmarks
  • Bookmark "Delta-Beladung" auf Yahoo! Myweb
  • Bookmark "Delta-Beladung" auf Facebook
  • Bookmark "Delta-Beladung" auf Newsvine
  • Bookmark "Delta-Beladung" auf Yahoo! Bookmarks
  • Bookmark "Delta-Beladung" auf Twitter
  • Bookmark "Delta-Beladung" auf myAOL
  • Bookmark "Delta-Beladung" auf Slashdot
  • Bookmark "Delta-Beladung" auf Mister Wong
etl/delta-beladung.txt · Zuletzt geändert: 2016/05/05 20:47 von bley