Video: Data Lakes in the Cloud (November 2024)
Die Big-Data-Revolution hat die Arbeitsweise von Unternehmen neu definiert. Daten untermauern alles. Open-Source-Tools wie Apache Hadoop und Spark haben nicht nur das Sammeln, Verarbeiten und Speichern großer Datenmengen in Echtzeit vereinfacht, sondern auch Business Intelligence (BI) - und Datenvisualisierungstools haben begonnen, die Analyseoberfläche zu verbessern und Transformation dieser Daten, um wichtige Geschäftsentscheidungen zu treffen.
Obwohl sich die Big Data- und BI-Technologie weiterentwickelt hat, haben wir es immer noch mit so großen Datenmengen zu tun, dass es sich anfühlt, in einem nie endenden Heuhaufen nach Nadeln zu suchen, um die richtigen Analysepunkte zu finden. Die Lösung? Heuhaufen neu gestalten.
Enter Data Lakes, eine neue Art von Cloud-basierter Unternehmensarchitektur, die Daten skalierbarer strukturiert und das Experimentieren erleichtert. macht es offener für Erkundungen und Manipulationen, anstatt sich auf starre Schemata und Silos festzulegen. Nasry Angel, Enterprise Architecture Researcher bei Forrester Research, erklärte, warum Unternehmen Data Lake-Architekturen bevorzugen.
"Es klingt klischeehaft, aber wenn Sie über eine effektive moderne Datenumgebung nachdenken, ist dies viel experimenteller", sagte Angel. "Sie müssen in der Lage sein, schnell zu lernen und schnell zu scheitern. In der Vergangenheit drehte sich bei der Datenverwaltung, insbesondere in einem Lagerhaus, alles um Qualität bis zum Komma. Stellen Sie sicher, dass alles absolut genau und wahr ist. Es heißt, einer einzelnen zu folgen." version of the truth. Anschließend wird ein pixelgenauer Bericht erstellt und an 5.000 Benutzer gesendet.
"Heutzutage ist es ein eher wissenschaftlicher Prozess. Sie gehen von einer Hypothese über die Daten aus, die Sie testen möchten, und Sie möchten in der Lage sein, mit den Daten zu spielen, sie zu mischen und zu vergleichen, verschiedene Dinge auszuprobieren, bevor Sie loslegen und etwas produzieren."
Was ist in einem Data Lake?
Ein Data Lake ist ein Speicherort. Im Gegensatz zu einem Data Warehouse oder "Data Mart" erklärte Angel, dass Data Lakes über mehrere Knoten verteilt sind und nicht in der festen, strukturierten Umgebung eines Data Warehouse, das auf Schemata basiert (siehe Infografik unten).
"Ein Data Lake ermöglicht es Ihnen, ein Schema anzuwenden, wenn Sie die Daten im Vergleich zu einem Data Warehouse schreiben, bei dem Sie ein Schema beim Lesen ausführen müssen. Daher müssen Sie bei einem Data Warehouse die Daten im Wesentlichen modellieren, bevor Sie den Kontext verstehen, was nicht der Fall ist Das ergibt keinen Sinn ", sagte Angel.
Quelle: JustOne Database, Inc. (Klicken Sie auf die Grafik oben, um eine vollständige Ansicht zu erhalten.)
"In der Regel lassen sich IT-Experten in einem Lager die für sie besten Datenmodelle einfallen, und sie sind nicht die späteren Benutzer der Daten. Sie können schnell erkennen, wie dies die Produktivität und den geschäftlichen Nutzen beeinträchtigt", fügte er hinzu. "Letztendlich müssen Sie und die Geschäftsbenutzer diejenigen sein, die Entscheidungen über die Struktur von Daten treffen, und in einem Datensee können Sie zuerst untersuchen und herausfinden, was da ist, und dann ein Schema finden, um es am besten zu organisieren."
Data Lakes werden normalerweise auf Hadoop erstellt, und Enterprise-Hadoop-Distributionen wie Hortonworks und MapR bieten Data Lake-Architekturen. Unternehmen können mithilfe von Infrastructure-as-a-Service-Clouds (IaaS), einschließlich Amazon Web Services (AWS) und Microsoft Azure, auch Data Lakes erstellen. Die Elastic Compute Cloud (EC2) von Amazon unterstützt Data Lakes, während Microsoft über eine dedizierte Azure Data Lake-Plattform zum Speichern und Analysieren von Echtzeitdaten verfügt. Angel sagte, Data Lakes reifen bis zu einem Punkt innerhalb des Big-Data-Bereichs, an dem Unternehmen mit angemessenem Vertrauen in sie investieren können.
"Vor ein paar Jahren war Hadoop der letzte Schrei. Jetzt sind wir an einem Punkt angelangt, an dem Hadoop zur Ware wird", sagte Angel. "Die Frage ist nicht, ob Hadoop, sondern wann und was Sie damit machen. Welche Arten von Anwendungen werden Sie auf Hadoop aufbauen, wenn Sie die Daten an einem gemeinsamen Ort wie einem Datensee gespeichert haben? An dieser Stelle geht es darum, mithilfe der Daten Anwendungen zu entwickeln, die Ihren spezifischen Geschäftsanforderungen entsprechen."
Gebäude auf einem Datenreservoir
Das Aufregendste an Big Data ist die Möglichkeit, die es bietet. Sobald Sie einen Datensee eingerichtet haben, in dem Sie mit verschiedenen Datenkombinationen und Geschäftsergebnissen spielen und experimentieren können, können Sie beginnen, innovative Analysetechniken darüber zu legen.
Algorithmen für maschinelles Lernen (ML) werden bereits Teil der Cloud-Infrastruktur, und die Forscher verbessern kontinuierlich Deep-Learning-Techniken und neuronale Netze, um Maschinen und Datensysteme auf das Erkennen komplexer Muster vorzubereiten. Predictive Analytics wird in immer mehr Datentools und Unternehmensplattformen integriert, die von Predictive Scoring und automatisierter Segmentierung für Customer Relationship Management (CRM) bis hin zur Ermittlung von Finanzmarkttrends und zur präventiven Erkennung mechanischer Ausfälle in Maschinen reichen.
All dies geschieht zusätzlich zu dem Datenspeicher, den Ihr Unternehmen entsprechend seinen Anforderungen speist und skaliert. Angel sprach über einige der realen Anwendungsfälle, in denen Data Lakes die Funktionsweise von Organisationen verändern.
"Ich habe mit einem Verlag zusammengearbeitet, der über ein Portfolio verschiedener Magazine verfügt - sie haben eine Publikation für Anwälte, eine andere für Buchhalter, eine andere für Berater usw. - und jede Publikation hatte ihr eigenes Data Warehouse. Tatsächlich hatte jede Publikation ihr eigenes Silo ", erklärte Angel.
"Also haben wir alle Daten aus einem Warehouse extrahiert und in einen Datensee gestellt, und der Datensee ermöglichte es ihnen, über Silos hinweg zu sehen. Sie konnten die Daten untersuchen und Daten ermitteln und erkannten, dass all diese verschiedenen Veröffentlichungen Kunden aus jeder Zeitschrift interessierten sich für Cybersicherheit. Die Leserschaft für Cybersicherheit war in all diesen verschiedenen Rollen stark. Was haben sie also getan? Sie haben Cybersicherheit zum Thema ihrer jährlichen Konferenz gemacht."
Ein weiteres Beispiel, von dem Angel sprach, ist E-Commerce. Ein anderer Kunde, ein Online-Kunsthändler, schüttete eine Menge Informationen in einen Datensee und nutzte ihn nicht nur als Aufbewahrungsort, sondern auch als eine Art Arbeitsfläche, um geschäftliche Erkenntnisse zusammenzustellen. Der Einzelhändler brachte Transaktionsdaten (Bestellungen, Rechnungen, Zahlungen usw.), Clickstream-Daten (die Reihenfolge der Klicks und Seiten jedes Website-Besuchers) und Daten aus dem Data Warehouse des Einzelhändlers in den See und verwendete sie gemeinsam, um den Warenkorb zu bekämpfen Verlassenheit und Umbauten.
"Sie möchten auf einem Datensee aufbauen und daraus komplexe Geschäftserkenntnisse ableiten", sagte Angel. "Der Kunsthändler war in der Lage, die Clickstream-Daten eines Kunden zu überprüfen und Klicks mit Kundenprofilen abzugleichen. Anschließend konnte er anhand von Transaktionsdaten feststellen, was der Kunde in der Vergangenheit gekauft hat, und anhand dieser Erkenntnisse ganz bestimmte E-Mail-Kampagnen durchführen Nach zwei Stunden konnte der Einzelhändler ihren Einkaufswagen abrufen und sagen: "Wir haben gesehen, dass Sie sich diesen Picasso angesehen haben. Hier ist der Link, wenn Sie ihn sich noch einmal ansehen möchten."
Data Lakes sind universell für alle Arten von Geschäftsanwendungsfällen einsetzbar. Für einen Chief Technical Officer (CTO) oder Chief Information Security Officer (CISO), die eine Migration auf die Architektur in Betracht ziehen, betonte Angel jedoch, dass Data Warehouses noch lange nicht veraltet sind. Unabhängig davon, ob Sie einen Cloud-Anbieter oder eine benutzerdefinierte Hadoop-Distribution verwenden, benötigen Unternehmen in den meisten Unternehmensorganisationen immer noch beides.
Mithilfe von Data Lakes erhalten Sie Zugriff auf beispiellose Erkenntnisse, indem Sie die Grenzen der Datenanpassung an ein bestimmtes Schema aufheben und die Gesamtbetriebskosten erheblich senken, da kostengünstiger, flexibler Cloud-Speicher wie AWS für die Skalierung auf- und abgebaut werden kann Bezahlen für die tatsächlich genutzte Rechenleistung. Der Betrieb eines Data Warehouse ist teurer und macht IT-Experten daher gezielter, welche Daten ein- und ausgegeben werden. Für die geschäftskritischsten Daten eines Unternehmens ist dies jedoch keine schlechte Sache.
"Das Data Warehouse bietet Vorteile in Bezug auf die Sicherheit und ist ein sehr einfaches Instrument zur Kontrolle der Datenverwaltung", sagte Angel. "Sie möchten Ihre vertraulichsten Informationen also weiterhin im Warehouse aufbewahren, dem unternehmenskritischen Material. Wenn es jedoch um neue Geschäftsmöglichkeiten und das Erkennen verborgener Erkenntnisse geht, möchten Sie einen Datensee nutzen."