Video: Big Data in AWS | Building Big Data Application on AWS | AWS Tutorial for Beginners | Edureka (November 2024)
Jedes Unternehmen möchte eine Fülle von Business Intelligence (BI) sammeln, und so viele Daten wie Führungskräfte, Marketingfachleute und jede andere Abteilung in der Organisation können sie in die Hand nehmen. Sobald Sie diese Daten haben, besteht die Schwierigkeit nicht nur darin, den riesigen Datensee zu analysieren, um die wichtigsten Einsichten zu finden, nach denen Sie suchen (ohne von der bloßen Informationsmenge überschwemmt zu werden), sondern auch all diese Daten zu sichern.
Während Ihre IT-Abteilung und Ihre Data Scientists Predictive Analytics-Algorithmen, Datenvisualisierungen und eine Vielzahl anderer Datenanalysetechniken für die von Ihnen gesammelten Big Data-Daten ausführen, muss Ihr Unternehmen sicherstellen, dass keine Lecks oder Schwachstellen vorliegen im Stausee.
Zu diesem Zweck hat die Cloud Security Alliance (CSA) kürzlich das Handbuch für Big Data-Sicherheit und Datenschutz veröffentlicht: 100 Best Practices für Big Data-Sicherheit und Datenschutz. Die lange Liste der Best Practices ist auf 10 Kategorien verteilt. Daher haben wir die Best Practices auf 10 Tipps reduziert, damit Ihre IT-Abteilung Ihre wichtigsten Geschäftsdaten sicherstellt. In diesen Tipps wird ein Arsenal an Datenspeicherungs-, Verschlüsselungs-, Governance-, Überwachungs- und Sicherheitstechniken verwendet.
1. Schützen Sie verteilte Programmierframeworks
Verteilte Programmierframeworks wie Hadoop machen einen großen Teil der modernen Big Data-Distributionen aus, sind jedoch mit einem erheblichen Risiko für Datenlecks verbunden. Sie werden auch mit sogenannten "nicht vertrauenswürdigen Zuordnern" oder Daten aus mehreren Quellen geliefert, die möglicherweise fehlerbehaftete aggregierte Ergebnisse liefern.
Der CSA empfiehlt, dass Organisationen zunächst mithilfe von Methoden wie der Kerberos-Authentifizierung Vertrauen herstellen und gleichzeitig die Konformität mit vordefinierten Sicherheitsrichtlinien sicherstellen. Anschließend "entkoppeln" Sie die Daten, indem Sie alle personenbezogenen Daten (PII) von den Daten entkoppeln, um sicherzustellen, dass die Privatsphäre nicht beeinträchtigt wird. Von dort aus autorisieren Sie den Zugriff auf Dateien mit vordefinierten Sicherheitsrichtlinien und stellen mithilfe der obligatorischen Zugriffssteuerung (MAC) wie dem Sentry-Tool in Apache HBase sicher, dass nicht vertrauenswürdiger Code keine Informationen über Systemressourcen verliert. Danach ist der schwierige Teil erledigt, denn alles, was zu tun bleibt, ist, durch regelmäßige Wartung vor Datenverlust zu schützen. Die IT-Abteilung sollte Worker-Knoten und Mapper in Ihrer Cloud oder virtuellen Umgebung überprüfen und nach gefälschten Knoten und geänderten Duplikaten von Daten Ausschau halten.
2. Sichern Sie Ihre nicht relationalen Daten
Nicht relationale Datenbanken wie NoSQL sind weit verbreitet, aber anfällig für Angriffe wie NoSQL-Injection. die CSA listet eine Vielzahl von Gegenmaßnahmen auf, um sich davor zu schützen. Beginnen Sie mit der Verschlüsselung oder dem Hashing von Passwörtern und stellen Sie sicher, dass die End-to-End-Verschlüsselung erfolgt, indem Sie ruhende Daten mit Algorithmen wie AES (Advanced Encryption Standard), RSA und Secure Hash Algorithm 2 (SHA-256) verschlüsseln. Auch TLS-Verschlüsselung (Transport Layer Security) und SSL-Verschlüsselung (Secure Sockets Layer) sind nützlich.
Über diese zentralen Maßnahmen hinaus und auf Ebenen wie Datenkennzeichnung und Sicherheit auf Objektebene können Sie auch nicht relationale Daten sichern, indem Sie sogenannte Plug-in-Authentifizierungsmodule (PAM) verwenden. Dies ist eine flexible Methode zur Authentifizierung von Benutzern, bei der sichergestellt wird, dass Transaktionen mithilfe eines Tools wie NIST-Protokoll protokolliert werden. Schließlich gibt es sogenannte Fuzzing-Methoden, die Cross-Site-Scripting und das Injizieren von Schwachstellen zwischen NoSQL und dem HTTP-Protokoll mithilfe der automatisierten Dateneingabe auf Protokoll-, Datenknoten- und Anwendungsebene der Distribution aufdecken.
3. Sichere Datenspeicherung und Transaktionsprotokolle
Das Speichermanagement ist ein wichtiger Bestandteil der Big-Data-Sicherheitsgleichung. Der CSA empfiehlt, signierte Message Digests zu verwenden, um eine digitale Kennung für jede digitale Datei oder jedes digitale Dokument bereitzustellen, und ein Verfahren namens Secure Untrusted Data Repository (SUNDR) zu verwenden, um nicht autorisierte Dateiänderungen durch böswillige Serveragenten zu erkennen.
Das Handbuch listet auch eine Reihe anderer Techniken auf, darunter verzögerte Sperrung und Schlüsselrotation, Broadcast- und richtlinienbasierte Verschlüsselungsverfahren sowie Digital Rights Management (DRM). Es gibt jedoch keinen Ersatz dafür, einfach einen eigenen sicheren Cloud-Speicher auf der vorhandenen Infrastruktur aufzubauen.
4. Endpunktfilterung und -validierung
Die Sicherheit von Endgeräten ist von größter Bedeutung, und Ihre Organisation kann zunächst vertrauenswürdige Zertifikate verwenden, Ressourcentests durchführen und mithilfe einer MDM-Lösung (Mobile Device Management) (zusätzlich zu Antivirus- und Malware-Schutzsoftware) nur vertrauenswürdige Geräte mit Ihrem Netzwerk verbinden. Von dort aus können Sie statistische Ähnlichkeitserkennungstechniken und Ausreißererkennungstechniken verwenden, um böswillige Eingaben zu filtern, während Sie sich vor Sybil-Angriffen (dh einer Entität, die sich als mehrere Identitäten tarnt) und ID-Spoofing-Angriffen schützen.
5. Echtzeit-Compliance und Sicherheitsüberwachung
Compliance bereitet Unternehmen immer Kopfzerbrechen, vor allem, wenn es sich um eine ständige Datenflut handelt. Es ist am besten, direkt mit Echtzeitanalysen und -sicherheit auf allen Ebenen des Stapels umzugehen. Der CSA empfiehlt Unternehmen, Big Data-Analysen mithilfe von Tools wie Kerberos, Secure Shell (SSH) und Internetprotokollsicherheit (IPsec) durchzuführen, um die Echtzeitdaten in den Griff zu bekommen.
Anschließend können Sie Protokollierungsereignisse überprüfen, Front-End-Sicherheitssysteme wie Router und Firewalls auf Anwendungsebene bereitstellen und Sicherheitssteuerungen im gesamten Stapel auf Cloud-, Cluster- und Anwendungsebene implementieren. Der CSA warnt Unternehmen auch davor, Ausweichattacken, die versuchen, Ihre Big-Data-Infrastruktur zu umgehen, und so genannten "Datenvergiftungsattacken" (dh gefälschte Daten, die Ihr Überwachungssystem täuschen), vorsichtig zu sein.
6. Wahrung des Datenschutzes
Die Wahrung des Datenschutzes in ständig wachsenden Mengen ist wirklich schwierig. Laut CSA soll der Schlüssel "skalierbar und zusammensetzbar" sein, indem Techniken wie differenzieller Datenschutz - Maximierung der Abfragegenauigkeit bei Minimierung der Datensatzidentifikation - und homomorphe Verschlüsselung zum Speichern und Verarbeiten verschlüsselter Informationen in der Cloud implementiert werden. Sparen Sie darüber hinaus nicht an den Grundnahrungsmitteln: Der CSA empfiehlt, eine Schulung zur Sensibilisierung der Mitarbeiter einzubeziehen, die sich auf die aktuellen Datenschutzbestimmungen konzentriert, und sicherzustellen, dass die Software-Infrastruktur mithilfe von Autorisierungsmechanismen gewartet wird. Schließlich empfehlen die Best Practices die Implementierung einer so genannten "datenschutzschonenden Datenzusammensetzung", die den Datenverlust aus mehreren Datenbanken durch Überprüfen und Überwachen der Infrastruktur, die die Datenbanken miteinander verbindet, kontrolliert.
7. Big-Data-Kryptographie
Die mathematische Kryptographie ist nicht aus der Mode gekommen. in der Tat ist es weit fortgeschrittener geworden. Durch den Aufbau eines Systems zum Suchen und Filtern verschlüsselter Daten, z. B. des durchsuchbaren Protokolls für symmetrische Verschlüsselung (SSE), können Unternehmen tatsächlich Boolesche Abfragen für verschlüsselte Daten ausführen. Nach der Installation empfiehlt der CSA eine Vielzahl von Verschlüsselungstechniken.
Mit der relationalen Verschlüsselung können Sie verschlüsselte Daten vergleichen, ohne Verschlüsselungsschlüssel gemeinsam zu nutzen, indem Sie Bezeichner und Attributwerte abgleichen. Die identitätsbasierte Verschlüsselung (IBE) erleichtert die Schlüsselverwaltung in Systemen mit öffentlichen Schlüsseln, indem die Verschlüsselung von Klartext für eine bestimmte Identität ermöglicht wird. Attributbasierte Verschlüsselung (ABE) kann Zugriffssteuerungen in ein Verschlüsselungsschema integrieren. Schließlich gibt es eine konvergierte Verschlüsselung, bei der Cloud-Anbieter mithilfe von Verschlüsselungsschlüsseln doppelte Daten identifizieren können.
8. Granulare Zugriffskontrolle
Die Zugriffskontrolle umfasst laut CSA zwei Kernaspekte: Einschränken des Benutzerzugriffs und Gewähren des Benutzerzugriffs. Der Trick besteht darin, eine Richtlinie zu erstellen und zu implementieren, die in jedem Szenario die richtige auswählt. Für das Einrichten granularer Zugriffskontrollen bietet der CSA eine Reihe von Quick-Hit-Tipps:
Normalisiere veränderbare Elemente und denormalisiere unveränderbare Elemente,
Verfolgen Sie die Geheimhaltungsanforderungen und stellen Sie die ordnungsgemäße Implementierung sicher.
Zugangskennzeichen pflegen,
Admin-Daten verfolgen,
Verwenden Sie Single Sign-On (SSO) und
Verwenden Sie ein Beschriftungsschema, um einen ordnungsgemäßen Datenverbund aufrechtzuerhalten.
9. Audit, Audit, Audit
Granulares Auditing ist ein Muss für die Sicherheit von Big Data, insbesondere nach einem Angriff auf Ihr System. Der CSA empfiehlt, dass Organisationen nach jedem Angriff eine zusammenhängende Audit-Ansicht erstellen und einen vollständigen Audit-Trail bereitstellen, während gleichzeitig sichergestellt wird, dass auf diese Daten problemlos zugegriffen werden kann, um die Reaktionszeit auf Vorfälle zu verkürzen.
Integrität und Vertraulichkeit von Prüfungsinformationen sind ebenfalls von wesentlicher Bedeutung. Audit-Informationen sollten separat gespeichert und durch differenzierte Benutzerzugriffskontrollen und regelmäßige Überwachung geschützt werden. Stellen Sie sicher, dass Ihre Big Data- und Überwachungsdaten getrennt sind, und aktivieren Sie alle erforderlichen Protokollierungen, wenn Sie die Überwachung einrichten (um möglichst detaillierte Informationen zu sammeln und zu verarbeiten). Ein Open-Source-Audit-Layer oder ein Query Orchestrator-Tool wie ElasticSearch können dies alles einfacher machen.
10. Datenprovenienz
Datenherkunft kann eine Reihe von verschiedenen Dingen bedeuten, je nachdem, wen Sie fragen. Der CSA bezieht sich jedoch auf Provenienz-Metadaten, die von Big Data-Anwendungen generiert wurden. Dies ist eine ganz andere Kategorie von Daten, die erheblichen Schutz benötigen. Der CSA empfiehlt, zunächst ein Infrastrukturauthentifizierungsprotokoll zu entwickeln, das den Zugriff steuert, dabei regelmäßige Statusaktualisierungen einrichtet und die Datenintegrität mithilfe von Mechanismen wie Prüfsummen kontinuierlich überprüft.
Darüber hinaus wiederholen die übrigen Best Practices des CSA für die Datenherkunft den Rest unserer Liste: Implementierung dynamischer und skalierbarer granularer Zugriffskontrollen und Implementierung von Verschlüsselungsmethoden. Es gibt keinen geheimen Trick, um die Sicherheit von Big Data in Ihrem Unternehmen und auf jeder Ebene Ihrer Infrastruktur und Ihres Anwendungsstapels zu gewährleisten. Wenn Sie mit so großen Datenmengen arbeiten, bietet nur ein umfassendes IT-Sicherheitsschema und ein unternehmensweites Benutzer-Buy-In Ihrem Unternehmen die beste Chance, die letzten 0 und 1 sicher zu verwahren.