Benutzer-Werkzeuge

Webseiten-Werkzeuge


big_data
  • Bookmark "Big Data Vielfalt" auf del.icio.us
  • Bookmark "Big Data Vielfalt" auf Digg
  • Bookmark "Big Data Vielfalt" auf Furl
  • Bookmark "Big Data Vielfalt" auf Reddit
  • Bookmark "Big Data Vielfalt" auf Ask
  • Bookmark "Big Data Vielfalt" auf Google
  • Bookmark "Big Data Vielfalt" auf Netscape
  • Bookmark "Big Data Vielfalt" auf StumbleUpon
  • Bookmark "Big Data Vielfalt" auf Technorati
  • Bookmark "Big Data Vielfalt" auf Live Bookmarks
  • Bookmark "Big Data Vielfalt" auf Yahoo! Myweb
  • Bookmark "Big Data Vielfalt" auf Facebook
  • Bookmark "Big Data Vielfalt" auf Newsvine
  • Bookmark "Big Data Vielfalt" auf Yahoo! Bookmarks
  • Bookmark "Big Data Vielfalt" auf Twitter
  • Bookmark "Big Data Vielfalt" auf myAOL
  • Bookmark "Big Data Vielfalt" auf Slashdot
  • Bookmark "Big Data Vielfalt" auf Mister Wong

Big Data Vielfalt

Der Begriff Vielfalt bei Big Data verweist auf die vielen verschiedenen Datenformate und Datenquellen, mit denen sich auseinander gesetzt werden muss.

Bei Datenquellen werden Grundsätzlich zwei Quellarten unterschieden. Zum einen gibt es die internen Datenquellen. Dies sind zum Beispiel operative Systeme aber auch Textdokumente die angelegt werden. Zum anderen gibt es die externen Datenquellen, wie Fremdsysteme, Satelliten oder Daten die nicht aus dem eigenen Unternehmen stammen.

Datenformate können zum Beispiel strukturierte, semistrukturierte oder unstrukturierte Daten sein. Unter die unstrukturierten Formate fallen Texte, Webdaten, Tweets, Audio, Video, Klickstreams, Protokolldaten uvw.

Die hohe Vielfalt der Datenformate kommt daher zustande, dass verschiedene Browser verschiedene Daten senden, unterschiedliche Softwareversionen produzieren verschiedene Datenformate und Lieferanten und Kunden kommunizieren durch verschiedenen Kanälen. Dazu kommt das Maschinendaten in den verschiedensten Formaten produziert werden. Zum Beispiel können Log-Files aus der IT oder Wetterdaten vom Satelliten in das Unternehmen gelangen. Texte können von den verschiedensten Medien, wie zum Beispiel interne Briefe oder aus den verschiedensten sozialen Netzwerken, stammen. Auch die Mitarbeiter in einem Unternehmen produzieren eine Vielzahl an Daten. Meist sind diese Daten strukturiert, zum Beispiel wenn es sich um Bestellungen oder Datensätze handelt. Doch werden auch von Mitarbeitern unstrukturierte Daten produziert, wenn sie Briefe verfassen oder Excel Tabellen erstellen, die auch ausgewertet werden sollen.

Diese hohe Vielfalt an Datenformaten stellen die relationalen Datenbanksysteme vor Probleme, denn die Daten können nicht mehr so einfach in die Datenbank geschrieben werden, weil die Daten nicht gleich sind und so keine genauen Relationen mehr hergestellt werden können.

Bei den strukturierten Daten, wie zum Beispiel Kundenstammsätze, ist dies noch einfach, da die Struktur der Daten eindeutig ist, Bei den semistrukturierten Daten ist noch ein Teil der Daten strukturiert, wie zum Beispiel bei einer E-Mail, doch bei unstrukturierten Daten gibt es keine genaue Struktur, da sie von Datei zu Datei andere Merkmale auweisen.

Die Vielfalt der Datenformate muss dann erstmal aufbereitet werden, damit aus den Daten Informationen gewonnen und auf der Grundlage dann Entscheidungen getroffen werden können.

Das Problem bei der Aufbereitung der Daten ist, dass Informationen, die man evtl. benötigt, durch verschiedene Prozesse verloren gehen und man sie nicht bekommt. Aber nicht alle Datenformate werden in der zentralen Datenbank gehalten, damit Informationen nicht verloren gehen. So können zum Beispiel Dokumente im XML-Format in einem eigenen XML-Speicher gehalten werden, so müssen die Dokumente nicht in das Schema der Datenbank gepresst werden.

Die Vielfalt der Daten bestimmt daher den Aufwand der Aufbereitung der Daten. Um die Daten vernünftig und schnell aufzubereiten benötigt man daher eine gute Big Data Lösung und ein schnelles System, da die Daten teilweise in Echtzeit in die Systeme kommen und daher auch in Echtzeit aufbereitet und weiterverarbeitet werden müssen.

  • Bookmark "Big Data Vielfalt" auf del.icio.us
  • Bookmark "Big Data Vielfalt" auf Digg
  • Bookmark "Big Data Vielfalt" auf Furl
  • Bookmark "Big Data Vielfalt" auf Reddit
  • Bookmark "Big Data Vielfalt" auf Ask
  • Bookmark "Big Data Vielfalt" auf Google
  • Bookmark "Big Data Vielfalt" auf Netscape
  • Bookmark "Big Data Vielfalt" auf StumbleUpon
  • Bookmark "Big Data Vielfalt" auf Technorati
  • Bookmark "Big Data Vielfalt" auf Live Bookmarks
  • Bookmark "Big Data Vielfalt" auf Yahoo! Myweb
  • Bookmark "Big Data Vielfalt" auf Facebook
  • Bookmark "Big Data Vielfalt" auf Newsvine
  • Bookmark "Big Data Vielfalt" auf Yahoo! Bookmarks
  • Bookmark "Big Data Vielfalt" auf Twitter
  • Bookmark "Big Data Vielfalt" auf myAOL
  • Bookmark "Big Data Vielfalt" auf Slashdot
  • Bookmark "Big Data Vielfalt" auf Mister Wong
big_data.txt · Zuletzt geändert: 2015/03/18 16:15 (Externe Bearbeitung)