Video: Getting Started with Data Governance – Some Practical Guidance (November 2024)
Wir haben viel über die Rolle von Daten in modernen Unternehmen geschrieben. Von Startups und kleinen bis mittelständischen Unternehmen (SMBs) bis hin zu großen Unternehmen sind Datenerkennungen und -analysen für Unternehmen aller Größenordnungen zugänglicher als je zuvor. Dies ist zum Teil dem Aufkommen von Self-Service-Business-Intelligence- und Datenvisualisierungstools zu verdanken.
Bevor Sie BI-Tools einsetzen oder Vorhersageanalysen für einen Datensatz ausführen können, müssen Sie eine Reihe von Faktoren ausgleichen. Es beginnt damit, einfach zu verstehen, was Big Data ist, was nicht (Hinweis: keine Kristallkugel) und wie Datenspeicherung, Organisation, Berechtigungen und Sicherheit in Ihrer Unternehmensdatenarchitektur verwaltet werden. Hier kommt Data Governance ins Spiel. Die Prozesse, mit denen Sie die Governance innerhalb eines Unternehmens sicherstellen, hängen davon ab, mit wem Sie sprechen. Im Kern geht es bei Data Governance jedoch um Datenvertrauen und -verantwortung, verbunden mit umfassenden Best Practices für die Datensicherheit.
Ich habe mit Hortonworks und MapR gesprochen, zwei der größten Unternehmen, die Hadoop auf dem Markt anbietet. Scott Gnau, Chief Technology Officer bei Hortonworks, und Jack Norris, Senior Vice President für Daten und Anwendungen bei MapR, erläuterten jeweils, was Data Governance für ihre Organisationen bedeutet. Sie diskutierten, wie die komplexe Herausforderung der Sicherstellung der Datenverwaltung in den komplexen Datenarchitekturen und Organisationshierarchien eines großen Unternehmens angegangen werden kann.
Was genau ist Data Governance und warum brauchen wir sie?
Governance bedeutet, sicherzustellen, dass Unternehmensdaten in einer Datenbank mit so wenig Fehlern wie möglich autorisiert, organisiert und autorisiert werden, wobei Datenschutz und Sicherheit gewahrt bleiben. Es ist kein leichtes Gleichgewicht zu finden, insbesondere wenn die Realität, wo und wie Daten gespeichert und verarbeitet werden, ständig im Fluss ist. Norris von MapR erklärte, warum Unternehmen die Datenverwaltung von einer höheren Ebene aus betrachten und sich auf die größere Datenpipeline konzentrieren müssen.
"Wenn Sie anfangen, die Vielfalt und Geschwindigkeit der Big Data-Prozesse zu skalieren, müssen Sie über eine Daten-Governance verfügen, dies steht jedoch in einem breiteren Kontext. Welche Daten haben Sie, wer hat Zugriff darauf und wie geht es Ihnen?" Verwalten der Herkunft dieser Daten im Laufe der Zeit? " sagte Norris. "Vom Standpunkt der Data Governance aus können Sie verschiedene Phasen der in einem System vorhandenen Daten erfassen, sodass Sie zu jedem Zeitpunkt in der Pipeline zurückkehren können. Es geht darum, die Überprüfbarkeit und Zugriffskontrolle für die Datenplattform zu verbessern." Stellen Sie sicher, dass die Datenerfassung und -analyse transparent sind, unabhängig davon, ob Sie ein Manager sind, der sich Finanzdaten ansieht, oder ein Datenwissenschaftler, der mit vorgelagerten Rohdaten arbeitet."
Quelle: Rimes. Klicken Sie auf das Bild, um es zu vergrößern.
Hortonworks 'Gnau sprach einen ähnlichen Punkt an. Ganz gleich, ob es sich um ein Data Warehouse oder eine Data Lake-Architektur handelt, bei der Data Governance geht es darum, die gegensätzlichen Kräfte auszugleichen. Es geht um einen uneingeschränkten Datenzugriff, um Innovationen voranzutreiben und Erkenntnisse zu gewinnen, und um differenzierte Berechtigungen und Datenschutz, um diese Daten gleichzeitig von Ende zu Ende zu schützen.
"Vergleichen und kontrastieren Sie die alte Welt der traditionellen Governance im Datenraum. Es war ein bisschen einfacher", sagte Gnau. "Früher waren die Daten nach Aufgabenbereich oder Bewerbung klar definiert. In der neuen Welt erhalten Sie den größten Nutzen, wenn Datenwissenschaftler auf so viele Daten wie möglich zugreifen können und es sehr wichtig ist, das richtige Medium zu finden."
"Es ist ein völlig neues Paradigma, wie Sie sich der Governance nähern müssen", fügte Gnau hinzu. "In dieser neuen Welt denke ich über Governance- und Sicherheitsthemen nach, die gemeinsam behandelt werden müssen. Viele Unternehmen haben immer noch Mühe, dies durchzuarbeiten, damit ihre Datenwissenschaftler diese neuen Anwendungsfälle gleichzeitig effektiv finden können Verständnis für den Umgang mit Sicherheit, Datenschutz und Unternehmensführung - all die Dinge, die unter dem Strich und auch unter dem Gesichtspunkt der Unternehmensreputation wichtig sind."
Wie soll ein Enterprise-Data-Governance-Plan all diese gegnerischen Kräfte umfassen und befriedigen? Indem Sie jede Anforderung Schritt für Schritt methodisch angehen.
Erstellen eines Data Governance-Plans
Hortonworks, MapR und Cloudera sind die drei größten unabhängigen Akteure im Hadoop-Bereich. Die Unternehmen haben ihre eigenen Einflussbereiche, wenn es um Data Governance geht. MapR hat eine Reihe von Whitepapers zu diesem Thema veröffentlicht und Data Governance auf der gesamten Converged Data Platform aufgebaut, während Hortonworks über eine eigene Datensicherheits- und Governance-Lösung verfügt und 2015 die Data Governance Initiative (DGI) mitbegründet hat -Quellen-Apache-Atlas-Projekt, das ein Open-Data-Governance-Framework für Hadoop bereitstellt.
Aber wenn es darum geht, wie jeder Anbieter umfassende Strategien für die Verwaltung und Sicherheit von Daten entwickelt, haben Gnau und Norris sich ähnlich geäußert. Im Folgenden sind die kombinierten Schritte aufgeführt, die Hortonworks und MapR Unternehmen bei der Erstellung eines Data Governance-Plans empfehlen.
Der Große: Granularer Datenzugriff und -autorisierung
Beide Unternehmen sind sich einig, dass eine effektive Datenverwaltung ohne differenzierte Kontrollen nicht möglich ist. MapR erreicht dies hauptsächlich durch Access Control Expressions (ACEs). Wie Norris erklärte, verwenden ACEs Gruppierungs- und Boolesche Logik, um den flexiblen Datenzugriff und die Berechtigung mit rollenbasierten Berechtigungen und Sichtbarkeitseinstellungen zu steuern.
Er sagte, es sei wie ein Gartner-Modell. Auf der Y-Achse am unteren Ende befinden sich strenge Steuerung und geringe Beweglichkeit, und auf der X-Achse am oberen Ende befinden sich höhere Beweglichkeit und geringere Steuerung.
"Auf der niedrigen Ebene schützen Sie vertrauliche Daten, indem Sie sie verschleiern. Oben haben Sie vertrauliche Verträge für Datenwissenschaftler und BI-Analysten", sagte Norris. "Wir tun dies in der Regel mit Maskierungsfunktionen und verschiedenen Ansichten, in denen Sie die Rohdaten so weit wie möglich unten sperren und nach und nach mehr Zugriff gewähren, bis Sie den Administratoren am oberen Ende eine breitere Sichtbarkeit bieten. Aber wie geben Sie dies?" Zugang zu den richtigen Leuten?
"Wenn Sie sich heute eine Zugriffssteuerungsliste ansehen, wird dort so etwas wie" Jeder in der Technik kann darauf zugreifen "stehen", fügte Norris hinzu. "Wenn Sie jedoch möchten, dass einige ausgewählte Direktoren eines IT-Projekts oder alle außer Personen Zugriff haben, müssen Sie eine spezielle Gruppe erstellen. Dies ist eine übermäßig komplizierte und komplizierte Methode, um den Zugriff zu betrachten."
Hier kommt laut Norris die Gewährung von Zugriffsrechten für verschiedene Ebenen und Gruppen ins Spiel. "Wir haben ACEs mit den verschiedenen Möglichkeiten kombiniert, wie Sie auf Daten zugreifen können - über Dateien, Tabellen, Streams usw. - und Ansichten ohne separate Kopien der Daten implementiert. Daher bieten wir Ansichten für dieselben Rohdaten und Ansichten an Sie können über verschiedene Zugriffsebenen verfügen. Dadurch erhalten Sie mehr integrierte Sicherheit, die direkter ist."
Hortonworks handhabt den granularen Zugriff auf ähnliche Weise. Durch die Integration von Apache Atlas for Governance und Apache Ranger übernimmt Gnau die Autorisierung auf Unternehmensebene über eine einzige Glasscheibe. Der Schlüssel sei die Möglichkeit, mithilfe tagbasierter Richtlinien kontextuell Zugriff auf die Datenbank und auf bestimmte Metadaten-Tags zu gewähren.
"Sobald jemand in der Datenbank ist, geht es darum, ihn durch die Daten zu führen, auf die er relevanten Zugriff haben sollte", sagte Gnau. "Die Sicherheitsrichtlinien von Ranger auf Objektebene, feinkörnig und überall dazwischen, können damit umgehen. Die Einbindung dieser Sicherheit in die Governance ist der Punkt, an dem die Dinge wirklich interessant werden.
"Um in großen Organisationen skalieren zu können, müssen Sie diese Rollen in Governance und Metadaten-Tagging integrieren", fügte Gnau hinzu. "Wenn ich mich von Singapur aus anmelde, gibt es möglicherweise unterschiedliche Regeln, die auf den lokalen Datenschutzgesetzen oder der Unternehmensstrategie basieren. Sobald ein Unternehmen diese Regeln aus einer ganzheitlichen Top-down-Perspektive definiert, festlegt und versteht, können Sie den Zugriff auf der Grundlage von trennen bestimmte Regelsätze, während alles innerhalb der Kernplattform ausgeführt wird."
Quelle: IBM Big Data & Analytics Hub. Klicken Sie auf das Bild für eine vollständige Ansicht.
2. Perimetersicherheit, Datenschutz und integrierte Authentifizierung
Governance geschieht nicht ohne Endpunktsicherheit. Gnau sagte, es sei wichtig, einen guten Perimeter und eine Firewall um die Daten herum aufzubauen, die sich in bestehende Authentifizierungssysteme und -standards integrieren lassen. Norris war sich einig, dass es bei der Authentifizierung für Unternehmen wichtig ist, sich mit bewährten Systemen zu synchronisieren.
"Bei der Authentifizierung geht es darum, wie Sie LDAP, Active Directory und Verzeichnisdienste von Drittanbietern integrieren", sagte Norris. "Wir unterstützen auch Kerberos-Benutzernamen und -Kennwörter. Wichtig ist nicht, dass eine separate Infrastruktur erstellt wird, sondern dass Sie diese in die vorhandene Struktur integrieren und Systeme wie Kerberos nutzen."
3. Datenverschlüsselung und Tokenisierung
Der nächste Schritt nach dem Sichern Ihres Perimeters und dem Authentifizieren des gesamten von Ihnen gewährten granularen Datenzugriffs: Stellen Sie sicher, dass Dateien und personenbezogene Daten (PII) durch Ihre Daten-Pipeline von Ende zu Ende verschlüsselt und mit einem Token versehen sind. Gnau diskutierte, wie Hortonworks PII-Daten sichert.
"Wenn Sie erst einmal am Umfang vorbeigekommen sind und Zugriff auf das System haben, ist es äußerst wichtig, PII-Daten schützen zu können", sagte Gnau. "Sie müssen diese Daten verschlüsseln und mit einem Token versehen, damit sie, unabhängig davon, wer Zugriff darauf hat, die erforderlichen Analysen ausführen können, ohne dass diese PII-Daten auf der ganzen Linie verfügbar gemacht werden."
In Bezug auf den sicheren Zugriff auf verschlüsselte Daten in Bewegung und in Ruhe erklärte MapRs Norris, dass es wichtig ist, auch Anwendungsfälle wie Backup und Disaster Recovery (DR) zu berücksichtigen. Er erörterte ein Konzept der sogenannten logischen Volumes von MapR, mit denen Governance-Richtlinien auf einen wachsenden Cluster von Dateien und Verzeichnissen angewendet werden können.
"Auf der untersten Ebene hat MapR die WAN-Replikation für DR und zeitkonsistente Snapshots für alle Daten erstellt, die je nach Verzeichnis oder Volume auf verschiedenen Frequenzen eingerichtet werden können", so Norris. "Es ist umfassender als nur die Verwaltung von Daten. Sie können einen physischen Cluster mit Verzeichnissen haben, und dann ist das Konzept des logischen Datenträgers eine wirklich interessante Verwaltungseinheit und eine Möglichkeit, Dinge zu gruppieren und gleichzeitig den Datenschutz und die Häufigkeit zu kontrollieren. Es ist ein weiterer Pfeil in den Daten des IT-Administrators Governance-Köcher."
4. Ständige Prüfung und Analyse
Hortonworks und MapR gaben an, dass die Strategie ohne Auditing nicht funktioniert. Dieses Maß an Vergleichbarkeit und Rechenschaftspflicht in jedem Schritt des Prozesses ermöglicht es der IT, Daten tatsächlich zu "regeln", anstatt einfach Richtlinien und Zugriffskontrollen festzulegen und das Beste zu erhoffen. Auf diese Weise können Unternehmen ihre Strategien in einem Umfeld auf dem neuesten Stand halten, in dem sich die Daten und die Technologien, mit denen wir sie verwalten und analysieren, täglich ändern.
"Das letzte Stück einer modernen Governance-Strategie ist das Protokollieren und Verfolgen", sagte Gnau. "Wir stecken noch in den Kinderschuhen von Big Data und IoT. Daher ist es wichtig, den Zugriff zu verfolgen und Muster in den Daten zu erkennen, damit wir bei der Aktualisierung der Strategie immer einen Schritt voraus sind."
Laut Norris können Audits und Analysen so einfach sein wie das Verfolgen von JSON-Dateien (JavaScript Object Notation). Nicht alle Daten sind es wert, nachverfolgt und analysiert zu werden, aber Ihr Unternehmen wird nie wissen, welche - bis Sie eine bahnbrechende Erkenntnis oder eine Krise feststellen und einen Audit-Trail durchführen müssen.
"Jede JSON-Protokolldatei wird zur Analyse geöffnet, und wir haben Apache Drill, um JSON-Dateien mit den Schemas abzufragen. Daher ist es kein manueller IT-Schritt, um die Metadatenanalyse einzurichten", sagte Norris. "Wenn Sie alle Datenzugriffsereignisse und alle Verwaltungsaktionen einbeziehen, ist eine breite Palette von Analysen möglich."
5. Eine einheitliche Datenarchitektur
Letztendlich sollte der Technologieverantwortliche oder IT-Administrator, der eine Strategie zur Unternehmensdatenverwaltung überwacht, über die Besonderheiten des granularen Zugriffs, der Authentifizierung, Sicherheit, Verschlüsselung und Überwachung nachdenken. Aber der Technologieverantwortliche oder IT-Administrator sollte hier nicht aufhören. Vielmehr sollte diese Person auch darüber nachdenken, wie sich jede dieser Komponenten in ihre größere Datenarchitektur einfügt. Er oder sie sollte auch darüber nachdenken, wie diese Infrastruktur skalierbar und sicher sein muss - von der Datenerfassung und -speicherung bis hin zu BI-, Analyse- und Drittanbieter-Services. Gnau sagte, bei Data Governance gehe es ebenso um das Überdenken von Strategie und Ausführung wie um die Technologie selbst.
" Es geht über eine einzige Scheibe oder eine Sammlung von Sicherheitsregeln hinaus", sagte Gnau. "Es ist eine einzelne Architektur, in der Sie diese Rollen erstellen und sie über die gesamte Plattform und alle darin enthaltenen Tools synchronisieren. Das Schöne an einer sicher verwalteten Infrastruktur ist die Flexibilität, mit der neue Methoden erstellt werden. Auf jeder Plattformebene oder sogar in In einer hybriden Cloud-Umgebung haben Sie nur einen einzigen Bezugspunkt, um zu verstehen, wie Sie Ihre Regeln implementiert haben. Alle Daten durchlaufen diese Sicherheits- und Governance-Ebene."