Video: Apple HomePod auf Deutsch: Ist Siri klüger als Alexa und Google Assistant? (November 2024)
Intelligente Assistenten - Siri, Google Now, Cortana und dergleichen - haben sich vor wenigen Jahren von Kuriositäten und Zaubertricks zu wichtigen Tools entwickelt, die viele Menschen in ihrem täglichen Leben verwenden. Letzte Woche besuchte ich die Intelligent Assistants Conference in New York, die von Opus Research vorgestellt wurde, und war beeindruckt von den Fortschritten, die die Software in einer Vielzahl von Branchen erzielt, einschließlich der Fortschritte von Finanz-, Versicherungs- und Medizinunternehmen beim Aufbau spezifischer Agenten.
Dan Miller, Gründer von Opus Research, erklärte, dass es viele der Kerntechnologien wie die Spracherkennung seit mehr als 20 Jahren gibt. Obwohl er in letzter Zeit einige große Verbesserungen statt einer Revolution gesehen hat, sagte er, "wir sind auf einem evolutionären Weg", mit vielen Produkten auf einem Kontinuum mit unterschiedlichen Fähigkeiten. Er merkte an, dass es Hunderte von intelligenten Unternehmensassistenten gibt, die für eine einfache textbasierte Konversation in einfachem Englisch unter Verwendung eines festen Datensatzes und zum Navigieren auf einer Website oder in einer FAQ verwendet werden können. Am anderen Ende des Spektrums gibt es wahrscheinlich nur ein paar Dutzend "dynamische Apps, die sich menschlich anfühlen", die gesprächiger und kontextbezogener sind.
Miller wies auf Bewerbungen hin, die auf der Konferenz ausgezeichnet wurden. Julie von Amtrak hat vor Jahren als interaktiver Voice-Response-Telefondienstagent begonnen, hat sich aber jetzt zu einem Agenten entwickelt, der auf der Website arbeitet und Reisende auf der Basis eines Agenten von Next IT durch Amtrak.com führt. Telefonica Mexico hat einen Agenten namens Nico, der einen Avatar hat und auf der Basis der AgentBot-Plattform auch Support über Twitter und Facebook bietet. ING Netherlands hat Inge, eine App, mit der Sie Ihren Kontostand überprüfen oder Geld per Sprache überweisen können. Dabei wird die sprachbiometrische Technologie von Nuance verwendet, um Ihre Identität zu authentifizieren.
Lobende Erwähnungen sind Anwendungen im Gesundheitswesen, z. B. eine App, mit der Sie einen Krankenversicherungsplan auswählen können. Andere Anwendungen, von denen ich auf der Messe gehört habe, sind Domino's Pizza mit einer App namens Dom, mit der Sie mit der Stimme Pizza bestellen können. und BMW, das im Rahmen seiner Up2drive-Autofinanzierung einen virtuellen Agenten hat.
Brett Beraneck von Nuance sprach darüber, wie die Fortschritte beim Erlernen neuronaler Netze Dinge wie das Verständnis natürlicher Sprachen sowie die Spracherkennung verbessert haben und wie dies nun zusammenkommt, um viel mehr Interesse auf diesem Gebiet zu wecken. Die Nina-Assistentin von Nuance war ein frühes Beispiel und hat sich seitdem zu einer Vielzahl spezifischer Anwendungen entwickelt, angefangen von interaktiven Sprachausgabesystemen bei Versicherungsunternehmen bis hin zu Einkaufs-Apps. Jede dieser Anwendungen hat eine andere Persönlichkeit, je nachdem, was sie Ihnen dabei helfen sollen.
Eine große Neuerung, die er besprach, war die Sprachbiometrie, bei der Ihre Stimme ein Passwort ersetzt. Er sprach darüber, wie Unternehmen wie ING in Europa Agenten entwickeln, die nicht nur die Spracherkennung und die Verarbeitung natürlicher Sprachen verwenden, sondern auch die Sprache für die Erkennung der anrufenden Person einsetzen. Er sagte, dies sei sowohl sicherer als auch natürlicher als ein traditionelles Passwort.
Während kürzlich durchgeführte Studien befürchteten, dass Sprachaufzeichnungen solche Systeme zum Narren halten könnten, stellte Nuance fest, dass die heutige Technologie Funktionen zum Auffinden von Anomalien bei aufgezeichneten Stimmen enthält, und verwies auf andere Studien, die einen anderen Standpunkt einnahmen. Außerdem können Designer verschiedene Stufen der Sprachbiometrie für verschiedene Funktionen verwenden, z. B. die einfache Erkennung zur Überprüfung des Kontostands oder die Wiederholung einer zufälligen Folge von Wörtern für wichtige Geldtransfers.
Die Stimmbiometrie scheint sicherlich etwas an Fahrt zu gewinnen. Auf dem Gartner Symposium in der vergangenen Woche wurde in einer Sitzung zu "coolen Kundenfällen" bei Finanzdienstleistungen eine Citibank-App vorgestellt, die diese Funktion verwendet.
MyWave hat einen Assistenten namens Frank, der von mehreren Unternehmen unterstützt werden soll, damit Sie mit ihnen auf eine unterhaltsamere Art und Weise interagieren können, anstatt jedes Unternehmen für sich selbst entwickeln zu lassen. Zu den ersten Verwendungszwecken gehören eine neuseeländische Bank und eine App namens Saveawatt, mit der Sie Ihren Stromanbieter auswählen können.
CEO Geraldine McBride erklärte, das Unternehmen versuche, Assistenten zu schaffen, die die Lücke zwischen Kunden- und Service-Apps schließen, und zwar mit sogenannten "Customer-Managed Relationships" (CMR), einem Spin gegenüber herkömmlichen CRM-Anwendungen. Ein großer Unterschied, sagte sie, ist, dass der Kunde für alle seine oder ihre Daten verantwortlich ist und nicht für das Geschäft.
Expect Labs, ein relativ neues Unternehmen, hat ein Produkt namens MindMeld, das als Backend für eine Reihe von Unternehmen fungiert, die eine Sprachschnittstelle anbieten möchten, um herkömmliche Schnittstellen zu ersetzen und Fragen und Antworten zu bearbeiten. Dies kann für eine Vielzahl von Anwendungen verwendet werden, z. B. zum Ansehen von Fernsehsendungen, indem nur der Name abgefragt wird und das System mehrere Systeme abfragt. (Amazon Fire TV bietet einige dieser Funktionen, ist jedoch nicht in Ihre Kabel-Set-Top-Box integriert, während einer der Investoren in Expect Labs das Kabelunternehmen Liberty Global ist.)
CEO Tim Tuttle erklärte, dass MindMeld in der Regel die Spracherkennung verwendet, die bereits auf den meisten Geräten verfügbar ist, und sich stattdessen auf das Verständnis der natürlichen Sprache und die Erstellung eines Wissensdiagramms der verfügbaren Informationen konzentriert. Er sagte, die Firma versuche, das System so zu skalieren, dass es mehr Informationen aus mehreren Quellen enthält und die Hierarchien der verschiedenen Kategorien von Informationen, die Teil der meisten derartigen Systeme sind, aufzulösen. Um Fragen wirklich zu verstehen, muss man in der Lage sein, Absichten in einer Vielzahl von Kategorien zu verstehen, sagte er.
Eine Sache, die ich von einer Reihe von Teilnehmern gehört habe, waren Statistiken, aus denen hervorgeht, dass ungefähr 10 Prozent aller Websuchen jetzt über Geheimdienstagenten durchgeführt werden. (AI-Pionier Andrew Ng sagte, dass dies letztes Jahr für die Sprachsuche bei Baidu zutrifft, und einige Leute sagten, dass dies jetzt auch bei Google zutrifft, aber ich habe keine Bestätigung aus erster Hand gehört.)
Mit Blick auf die Zukunft sagte Miller von Opus Research, dass noch viel zu tun sei. Die Grundgenauigkeit der Systeme bietet viel Raum für Verbesserungen, insbesondere wenn es darum geht, von dem, was Sie sagen, zu dem, was Sie meinen, zu dem, was als Ergebnis zu tun ist. Er erwähnte einen Vortrag von Stephen Hoover, CEO von Xerox PARC, auf der Konferenz, der sagte, dass die Systeme heute zu 90 Prozent genau verstehen, was wir meinen, aber dass 10 Prozent immer noch ein Problem sind, weil sich die meisten Menschen daran erinnern, wie sie damit umgehen ein System. Und Miller sagte, es gibt Raum für eine bessere Personalisierung, denn wenn das System weiß, mit wem es spricht, kann es bessere Ergebnisse liefern. Beispielsweise stellte er fest, dass Facebook weiß, wer das System verwendet, weil Sie angemeldet sind. und sagte, dass dies nahtlos mit mehr Agenten zu tun wichtiger wird.
Es ist sicherlich eine faszinierende Kategorie, und ich gehe davon aus, dass wir alle viel mehr Zeit damit verbringen werden, mit unseren Telefonen und Computern zu sprechen und mit Agenten zu interagieren, die nicht ganz menschlich sind. Ich halte dies für einen der faszinierendsten Trends beim Rechnen in diesen Tagen.