Zuhause Geschäft Ai-Datenbanken: Was sind sie und warum sollte sich Ihr Unternehmen darum kümmern?

Ai-Datenbanken: Was sind sie und warum sollte sich Ihr Unternehmen darum kümmern?

Inhaltsverzeichnis:

Video: 13.04 Warum Datenbanksysteme? (November 2024)

Video: 13.04 Warum Datenbanksysteme? (November 2024)
Anonim

Daten und Business Intelligence (BI) sind zwei Seiten einer Medaille. Fortschritte bei der Speicherung, Verarbeitung und Analyse haben Daten so stark demokratisiert, dass Sie kein Datenbankprofi oder Datenwissenschaftler mehr sein müssen, um mit umfangreichen Datensätzen zu arbeiten und Erkenntnisse zu gewinnen. Es gibt noch eine Lernkurve, aber Self-Service-BI- und Datenvisualisierungstools definieren die Art und Weise neu, in der Unternehmen alle gesammelten Daten in umsetzbare Analysen umsetzen. Es gibt jedoch einen Unterschied zwischen einem BI- oder Datenbankunternehmen, das Advanced Analytics anbietet, und einer Datenbank für künstliche Intelligenz (KI), die speziell für das Training von maschinellem Lernen (ML) und Deep Learning-Modellen entwickelt wurde.

ML-Algorithmen werden in die Struktur eines Großteils der heutigen Software eingewebt. Kundenerfahrungen verschmelzen mit KI durch virtuelle Assistenten, und in Unternehmenssoftware gibt es Beispiele wie Salesforce Einstein, die als intelligente Schicht unter dem gesamten CRM-Portfolio (Customer Relationship Management) des Unternehmens fungieren. Technologie-Giganten, darunter Google und Microsoft, treiben unsere intelligente Zukunft noch weiter voran, und zwar nicht nur durch Forschung, sondern auch durch Umschreiben der Funktionsweise ihrer Technologie von Grund auf mit AI.

Eine der Herausforderungen bei Trainingsgeräten und Deep-Learning-Modellen ist das reine Datenvolumen und die Verarbeitungsleistung, die Sie zum Trainieren eines neuronalen Netzwerks benötigen, beispielsweise für die Erkennung komplexer Muster in Bereichen wie der Bildklassifizierung oder der Verarbeitung natürlicher Sprache (NLP). Daher tauchen KI-Datenbanken auf dem Markt auf, um den KI-Lern- und Trainingsprozess für Unternehmen zu optimieren. Wir haben mit dem GPU-beschleunigten relationalen Datenbankanbieter Kinetica, der eine eigene AI-Datenbank erstellt hat, und der in PCMag ansässigen BI- und Datenbankexpertin Pam Baker gesprochen, um zu entmystifizieren, was eine AI-Datenbank ist und wie sie im Vergleich zu herkömmlichen Datenbanken funktioniert. Noch wichtiger ist, dass wir sie um Hilfe gebeten haben, um den Hype und das Marketing zu klären und festzustellen, ob diese aufstrebende Technologie einen echten geschäftlichen Wert hat oder nicht.

Was sind AI-Datenbanken?

Die sich schnell ändernde Natur des KI-Raums kann es schwierig machen, eine Terminologie zu etablieren. Man hört oft Begriffe wie ML, Deep Learning und KI, die synonym verwendet werden, wenn sie tatsächlich noch Techniken sind, die unter dem größeren Dach der KI entwickelt werden. Aus diesem Grund gibt es laut Baker zwei sehr unterschiedliche Definitionen für eine KI-Datenbank, die davon abhängt, mit wem Sie sprechen: eine praktische und die andere mehr.

"In der Branche herrscht eine Art lockerer Konsens darüber, dass eine AI-Datenbank vollständig aus Abfragen in natürlicher Sprache bestehen würde. Die Benutzeroberfläche ist so gestaltet, dass Sie sich nicht auf Suchbegriffe und Schlüsselphrasen verlassen müssen, um die zu finden Informationen, die Sie benötigen, damit der Benutzer Datensätze mit NLP abrufen kann ", sagte Baker. "Sie könnten ein sehr begrenztes Argument dafür vorbringen, dass IBM Watson Abfragen in natürlicher Sprache an das System richten kann, aber Sie müssen bereits mit den Daten verbunden sein und die Daten selbst auswählen. Im Moment ist diese Definition also eine Herausforderung."

Die praktischere Definition und das Thema dieses Erklärers verwenden im Wesentlichen eine speziell erstellte Datenbank, um das ML-Modelltraining zu beschleunigen. Eine Reihe von Technologieunternehmen entwickelt bereits dedizierte AI-Chips, um die hohe Verarbeitungslast neuer Hardwareprodukte zu verringern, da die Anbieter mehr AI-basierte Funktionen einführen, die eine erhebliche Rechenleistung erfordern. Auf der Datenseite können Sie mithilfe einer AI-Datenbank die mit dem Training von ML- und Deep-Learning-Modellen verbundenen Herausforderungen in Bezug auf Umfang, Geschwindigkeit und komplexe Datenverwaltung besser bewältigen, um Zeit zu sparen und Ressourcen zu optimieren.

Bildnachweis: Todd Jaquith bei Futurism.com. Klicken Sie, um die vollständige Infografik zu vergrößern

"Im Moment gibt es viele Anstrengungen, um das ML-Training durch verschiedene Taktiken zu beschleunigen", erklärte Baker. "Eine besteht darin, die Infrastruktur von den KI-Forschern zu trennen, die das Codieren durchführen, damit automatisierte Funktionen die Infrastruktur handhaben und das ML-Modell trainieren. Anstatt etwa drei Monate zu verbringen, sollten Sie sich also 30 Tage oder 30 Minuten ansehen."

Kinetica zerlegt diese Idee in eine integrierte Datenbankplattform, die für ML- und Deep-Learning-Modellierung optimiert ist. Die AI-Datenbank kombiniert Data Warehousing, erweiterte Analysefunktionen und Visualisierungen in einer In-Memory-Datenbank. Mate Radalj, Vice President und Principal Software Engineer der Advanced Technology Group von Kinetica, erklärte, dass eine AI-Datenbank in der Lage sein sollte, schnelllebige, komplexe Daten innerhalb von Millisekunden gleichzeitig aufzunehmen, zu untersuchen, zu analysieren und zu visualisieren. Ziel ist es, Kosten zu senken, neue Einnahmen zu generieren und ML-Modelle zu integrieren, damit Unternehmen effizientere, datengesteuerte Entscheidungen treffen können.

"Eine AI-Datenbank ist eine Teilmenge einer allgemeinen Datenbank", sagte Radalj. "Momentan sind AI-Datenbanken sehr beliebt. Viele Lösungen verwenden jedoch verteilte Komponenten. Spark, MapReduce und HDFS drehen sich immer hin und her und nicht im Arbeitsspeicher. Sie haben nicht den Zusammenfluss von Faktoren wie unserer Datenbank, die wurde von Grund auf mit eng integrierten CPUs und GPUs auf einer einzigen Plattform entwickelt. Der große Vorteil für uns ist eine schnellere Bereitstellung und ein geringerer Hardwareaufwand für modellbasierte Schulungen mit einer in dieselbe Plattform integrierten schnellen Abwicklung und Analyse."

So funktioniert eine AI-Datenbank

In der Praxis gibt es eine Reihe von Beispielen für AI-Datenbanken. Microsoft Batch AI bietet eine cloudbasierte Infrastruktur für das Training von Deep Learning- und ML-Modellen, die auf Microsoft Azure-GPUs ausgeführt werden. Das Unternehmen verfügt außerdem über das Azure Data Lake-Produkt, das es Unternehmen und Datenwissenschaftlern erleichtert, Daten in einer verteilten Architektur zu verarbeiten und zu analysieren.

Ein weiteres Beispiel ist Googles AutoML-Ansatz, bei dem die Art und Weise, wie ML-Modelle trainiert werden, grundlegend überarbeitet wird. Google AutoML automatisiert das ML-Modelldesign, um neue neuronale Netzwerkarchitekturen basierend auf bestimmten Datensätzen zu generieren, und testet und iteriert diese dann tausende Male, um bessere Systeme zu codieren. Tatsächlich kann die KI von Google jetzt bessere Modelle als menschliche Forscher erstellen.

"Schauen Sie sich Google AutoML an: ML schreibt ML-Code, sodass Sie nicht einmal Leute brauchen", sagte Baker. "Dies gibt Ihnen eine Vorstellung davon, was für ein extremer Unterschied zwischen den Anbietern besteht. Einige versuchen, fortgeschrittene Analysen als ML auszugeben - und das ist es nicht. Andere tun ML auf einem so fortgeschrittenen Niveau, das über das Meiste hinausgeht Unternehmen können im Moment verstehen."

Dann gibt es Kinetica. Das in San Francisco ansässige Start-up, das 63 Millionen US-Dollar an Risikokapital (VC) eingeworben hat, bietet eine leistungsstarke SQL-Datenbank, die für eine schnelle Datenaufnahme und -analyse optimiert ist. Kinetica ist eine von Radalj als MPP (Massively Parallel Processing) bezeichnete verteilte Datenbank- und Computerplattform, bei der jeder Knoten über gemeinsam im Speicher befindliche Daten, eine CPU und eine GPU verfügt.

Was eine KI-Datenbank von einer herkömmlichen Datenbank unterscheidet, erklärt Radalj, besteht aus drei Kernelementen:

  • Beschleunigte Datenaufnahme
  • Co-Lokalität von speicherinternen Daten (parallele Verarbeitung über Datenbankknoten hinweg) und
  • Eine gemeinsame Plattform für Datenwissenschaftler, Softwareentwickler und Datenbankadministratoren, um Modelle schneller zu iterieren und zu testen und Ergebnisse direkt auf Analysen anzuwenden.

Für alle Experten, die dies nicht in der Datenbank und im KI-Modelltraining lesen, hat Radalj jedes dieser drei Kernelemente aufgeschlüsselt und erklärt, wie die KI-Datenbank mit dem konkreten Geschäftswert zusammenhängt. Datenverfügbarkeit und Datenerfassung seien der Schlüssel, sagte er, weil die Fähigkeit, Echtzeit-Streaming-Daten zu verarbeiten, es Unternehmen ermöglicht, schnell auf AI-gesteuerte Erkenntnisse zu reagieren.

"Wir haben einen Einzelhandelskunden, der alle fünf Minuten die Verkaufsraten nach Geschäften verfolgen wollte", sagte Radalj. "Wir wollten AI verwenden, um basierend auf den letzten Stunden historischer Daten zu prognostizieren, ob das Inventar wieder aufgefüllt und dieser Prozess optimiert werden soll. Um diese maschinengesteuerte Auffüllung des Inventars zu erreichen, müssen jedoch 600-1200 Abfragen pro Sekunde unterstützt werden. Wir Da es sich um eine SQL- und eine AI-Datenbank handelt, können wir Daten mit dieser Geschwindigkeit erfassen. Die Erfüllung dieser Geschäftsaufgabe führte zu einer Anwendung, die einen höheren ROI erzielte."

Baker stimmte zu, dass ML eine große Menge an Daten benötigt, so dass eine schnelle Datenaufnahme für eine AI-Datenbank sehr wichtig wäre. Der zweite Faktor, das Konzept der "Co-Lokalität von In-Memory-Daten", bedarf einer genaueren Erläuterung. Eine speicherinterne Datenbank speichert Daten im Hauptspeicher und nicht in einem separaten Plattenspeicher. Dadurch werden Abfragen schneller verarbeitet, insbesondere in Analytics- und BI-Datenbanken. Radalj erklärte, dass Kinetica CPU- und GPU-Rechenknoten nicht von Speicherknoten trenne.

Infolgedessen unterstützt die AI-Datenbank die parallele Verarbeitung, die die Fähigkeit des menschlichen Gehirns nachahmt, mehrere Stimuli zu verarbeiten, und gleichzeitig über eine skalierbare Datenbankinfrastruktur verteilt bleibt. Dies verhindert den größeren Hardware-Platzbedarf, der sich aus dem von Radalj als "Datenversand" bezeichneten Datenversand oder der Notwendigkeit ergibt, Daten zwischen verschiedenen Datenbankkomponenten hin und her zu senden.

"Einige Lösungen verwenden einen Orchestrator wie IBM Symphony, um die Arbeit über verschiedene Komponenten hinweg zu planen, während Kinetica den Funktionsversand auf die am selben Ort befindlichen Ressourcen konzentriert und die Optimierung zur Minimierung des Datenversands vorsieht", sagte Radalj. "Diese gemeinsame Lokalität bietet sich für eine überlegene Leistung und einen überragenden Durchsatz an, insbesondere für stark gleichzeitige Abfragen großer Datenmengen."

In Bezug auf die tatsächliche Datenbankhardware arbeitet Kinetica mit Nvidia zusammen, das über eine wachsende Anzahl von AI-GPUs verfügt und Möglichkeiten mit Intel auslotet. Radalj sagte auch, dass das Unternehmen ein Auge auf aufkommende KI-Hardware und Cloud-basierte Infrastruktur wie die Tensor Processing Units (TPUs) von Google hat.

Schließlich gibt es die Idee eines einheitlichen Modellschulungsprozesses. Eine AI-Datenbank ist nur dann effektiv, wenn die Vorteile einer schnelleren Einnahme und Verarbeitung größeren, geschäftsorientierten Zielen für die ML eines Unternehmens und intensiven Lernbemühungen dienen. Radalj bezeichnet Kinetics AI-Datenbank als "Modell-Pipeline-Plattform", die datenwissenschaftlich gesteuertes Modell-Hosting durchführt.

Dies alles ermöglicht schnellere Tests und Iterationen, um genauere ML-Modelle zu entwickeln. Zu diesem Punkt, so Baker, könne eine einheitliche Zusammenarbeit allen Ingenieuren und Forschern helfen, ein ML- oder Deep-Learning-Modell zu trainieren, indem sie das, was funktioniert, schneller iterieren, anstatt alle Schritte im Trainingsprozess ständig neu zu erfinden. Laut Radalj besteht das Ziel darin, einen Workflow zu erstellen, in dem die schnellere Stapelaufnahme, das Streaming und die Abfrage Modellergebnisse generieren, die sofort auf BI angewendet werden können.

"Datenwissenschaftler, Softwareentwickler und Datenbankadministratoren haben eine einzige Plattform, auf der die Arbeit in Bezug auf die Datenwissenschaft selbst, das Schreiben von Softwareprogrammen sowie SQL-Datenmodelle und -Anfragen klar abgegrenzt werden kann", sagte Radalj. "Menschen arbeiten in diesen verschiedenen Bereichen sauberer zusammen, wenn es sich um eine gemeinsame Plattform handelt. Das Ziel bei der Ausführung von ML und Deep Learning ist häufig, dass Sie die Ergebnisse - die Koeffizienten und Variablen - in Verbindung mit der Analyse verwenden möchten, und verwenden Sie die Ausgabe, um beispielsweise Punkte zu erzielen oder um etwas Nützliches vorherzusagen."

Hype oder Realität?

Der Grundwert einer AI-Datenbank besteht, zumindest in der Weise, wie Kinetica sie definiert, in der Optimierung der Rechen- und Datenbankressourcen. Auf diese Weise können Sie bessere ML- und Deep-Learning-Modelle erstellen, diese schneller und effizienter trainieren und einen Überblick darüber behalten, wie diese KI auf Ihr Unternehmen angewendet wird.

Radalj nannte als Beispiel ein Flottenmanagement oder eine Spedition. In diesem Fall könnte eine AI-Datenbank riesige Ströme von Echtzeitinformationen aus einer Fahrzeugflotte verarbeiten. Durch die Modellierung dieser Geodaten und die Kombination dieser Daten mit Analysen kann die Datenbank dann Lastwagen dynamisch umleiten und Routen optimieren.

"Es ist einfacher, Prototypen und Tests schnell bereitzustellen. Das Wort" Modellierung "wird in der KI verwendet, aber es geht darum, verschiedene Ansätze zu durchlaufen - je mehr Daten, desto besser -, sie immer wieder auszuführen, zu testen, zu vergleichen und Wir haben die besten Modelle entwickelt ", sagte Radalj. "Neuronale Netze wurden mit Leben erfüllt, weil es mehr Daten als jemals zuvor gibt. Und wir lernen, damit rechnen zu können."

Letztendlich sind Kinetics Datenbank und Modell-Pipeline-Plattform nur ein Ansatz in einem Bereich, der je nach Fragestellung viele verschiedene Dinge bedeuten kann. Baker sagte, die Herausforderung für den Käufer in einem sich noch entwickelnden und experimentellen Markt bestehe darin, genau herauszufinden, was ein Anbieter von AI-Datenbanken anbietet.

"Als Geschäftskonzept ist Deep Learning, ML und all das ein solides Konzept. Wir arbeiten an technischen Problemen, die lösbar sind, auch wenn wir sie noch nicht gelöst haben", sagte Baker. "Das soll nicht heißen, dass dies ein ausgereifter Bereich ist, da dies definitiv nicht der Fall ist. Ich würde sagen, 'Käufer aufgepasst', da etwas, das als ML eingestuft wird, möglicherweise nicht vorhanden ist. Es kann sich lediglich um eine erweiterte Analyse der Gartensorte handeln."

In Bezug auf die Frage, ob AI-Datenbanken derzeit ein Hype sind oder ob sie einen wichtigen Trend für den Geschäftsverlauf darstellen, sagte Baker, dass sie ein bisschen von beidem sind. Sie sagte, dass Big Data als Marketingbegriff derzeit nicht in Frage käme. Baker sagte, es gebe jetzt eine gewisse Marktverschränkung zwischen fortschrittlichen, datengetriebenen Analysen und echten ML- und Deep-Learning-Algorithmen. Egal, ob es sich um eine Datenbank für ML-Modellierung oder um die von der Popkultur erfundenen, selbstbewussten AIs handelt, alles beginnt und endet mit Daten.

"Daten werden im Geschäft bis zum Ende der Zeit verwendet; es ist nur so wichtig, um Geschäfte zu machen", sagte Baker. "Wenn man von Science-Fiction spricht, ist KI eine selbsterkannte Intelligenz. Dann spricht man von Singularitäten und Robotern, die die Welt erobern. Ob das passiert oder nicht, weiß ich nicht. Ich werde gehen." das an Stephen Hawking."

Ai-Datenbanken: Was sind sie und warum sollte sich Ihr Unternehmen darum kümmern?