Sie sind hier:

Intelligente Assistenten und Sprachapplikationen: Voice-Technologie im Überblick

14 Nov

Mittlerweile ist klar sichtbar, wie groß das Potenzial der intelligenten Assistenten und der dazugehörigen Plattformen ist. In einer Umfrage von Pindrop unter 500 IT- und Wirtschaftsentscheidern aus Großbritannien, Frankreich, Deutschland und den USA gaben stattliche 84 Prozent der befragten Unternehmen an, in Zukunft Voice-Technologien in Verbindung mit ihren Kunden einsetzen zu wollen.(x)

Voice-Technologie in Zahlen und Fakten

Spätestens seit letztem Jahr halten Amazons Alexa, Google Assistant oder Siri von Apple in exponentieller Geschwindigkeit Einzug in die Haushalte von Millionen Menschen auf der ganzen Welt. Auf Platz eins findet sich Google mit seinem Google Assistant, der auf über einer Milliarde Geräten weltweit abrufbar ist.(x). Auf Google folgt Amazon mit dem Assistenten Alexa, welcher auf über 100 Millionen Devices läuft, von den eigenen Smart Speakern der Echo-Serie bis hin zu Hardware von Drittanbietern, wie beispielsweise Sonos oder Harman Kardon.(x) Die Smart Speaker von Google Home, der HomePod von Apple und eine Reihe weiterer Speaker anderer Anbieter werden direkt danach zusammengenommen auf über 120 Millionen Geräten genutzt. Prognosen gehen von einem Wachstum in Höhe von 82 Prozent allein in 2019 aus, was einen Anstieg auf über 200 Millionen Geräte weltweit bedeutet.(x) Davon werden allein in den USA um die 40 Prozent Anteil erwartet. Das würde bedeuten, dass jeder vierte Amerikaner einen Smart Speaker nutzt. In Deutschland werden derzeit über 12 Millionen aktive Nutzer gezählt.(x) Diese enormen Zahlen verdeutlichen das Potenzial, das in der Voice-Technologie steckt.

Bild: www.live-karikaturen.ch

Die Evolution intelligenter Assistenten

Im Jahre 1962 hat William Dersch von IBM auf der Weltausstellung in Seattle eine bis dahin unbekannte Technologie vorgestellt, die den Grundstein für die Zukunft legen sollte. Die Technologie "Shoebox" war ein Vorläufer moderner Spracherkennungssoftware und reagierte auf 16 gesprochene Wörter und die Zahlen 0 bis 9. Diese Technologie wurde in Zusammenarbeit mit IBM in den kommenden Jahrzehnten weiterentwickelt. 1971 erkannte "Harpy" erstmals ganze Sätze und Mitte der 80er Jahre entstand die erste sprachgesteuerte Schreibmaschine "Tangora", die zu dieser Zeit beeindruckende 20.000 Wörter zu verarbeiten verstand.

1997 war die Entwicklung so weit fortgeschritten, dass Microsoft als Erster einen virtuellen Office-Assistenten, Clippy, mit dem Betriebssystem Windows 97 auslieferte. Integration und Nutzerfreundlichkeit waren nicht sonderlich erfolgreich, bildete jedoch später die Grundlage für Assistenten wie Apples Siri. Maschinelles Lernen wurde in den folgenden Jahren immer weiter trainiert und durch die technische Entwicklung konnten immer größere Datenmengen verarbeitet werden. Google läutete mit seiner Voice Search App für iOS ein neues Zeitalter für Sprachassistenten ein. Cloud Computing stellte die benötigten Ressourcen sicher und durch die Google-Suchanfragen konnten umfangreiche Datenanalysen der menschlichen Sprache durchgeführt werden. Ab 2010 wurde diese Software auch für Android-Geräte eingeführt sowie 2011 für die sprachbasierte Suche im Google Chrome-Browser. Siri von Konkurrent Apple wurde 2011 zusammen mit dem iPhone 4s gelauncht.  

Erst 2013 brachte Microsoft mit Cortana einen eigenständigen Sprachassistenten heraus, welcher auch in das eigene Betriebssystem integriert war. Recht unerwartet trat Amazon Ende 2014 in den Markt ein und sorgte mit dem Launch von Alexa und seiner eigenen Devices der Echo-Serie für einen Überraschungsmoment. Ab Oktober 2016 war Alexa mit dem Echo-Speaker auch in Deutschland verfügbar, kurz danach folgte Google mit dem Google Assistant. Relativ neu am Markt ist Bixby von Samsung, der seit 2019 auch auf Deutsch verfügbar ist und im Laufe dieses Jahres um einen eigenen Smart Speaker ergänzt werden soll.

Übersicht der Anbieter und Plattformen am Markt

Bei dem Tempo, das die Entwicklung in der Voice-Technologie derzeit vorlegt, ist die Wahrscheinlichkeit groß, dass die hier genannte Liste an Anbietern schon bald wieder veraltet sein wird. Da viele Unternehmen an einem eigenen Assistenten arbeiten, dürfte ein allgemeingültiger Überblick schwierig sein. Spannend bleibt, welche der heutigen Plattformen sich letztendlich durchsetzen werden.



Auf welche Datengrundlage greifen intelligente Assistenten zurück?

Mit der Verbreitung der Cloud Spaces und den skalierbaren Ressourcen ist die Verarbeitung riesiger Datenmengen kein Problem mehr. In der Interaktion mit dem Nutzer, greifen intelligente Assistenten auf verschiedene Quellen zurück, um geeignete Lösungen für die Fragestellungen und Probleme zu finden. Zu diesen Datenquellen zählen die Google-Suche, insbesondere die Daten aus den Featured Snippets, Answer Boxes sowie dem Google Knowledge Graph, die Bing Suche, hier ebenfalls  Featured Snippets, Answer Boxes sowie Knowledge Graph, aber auch Daten aus Wikipedia, Wolfram Alpha oder Pinterest. Alles darüber hinaus wird durch Third-Party-Applikationen bereitgestellt, durch Sprachapplikationen, die derzeit für Alexa (sogenannte Skills), Google Assistant (sogenannte Actions on Google) und Bixby (hier Capsules genannt) erstellt werden können. Für Siri gibt es derzeit sogenannte Siri Shortcuts, welche aber mehr als Bedienhilfe für Mobile-Apps verstanden werden können und keine richtigen Sprachapplikationen sind.  Sie werden auf den Websites der jeweiligen Anbieter, sprich über die Amazon Website, den Bixby Marketplace und so weiter angeboten.

Und Action: Third-Party-Applikationen und deren Bedeutung

Wie es in den Anfangsjahren von iOS und Android in den App-Stores aussah, so sieht es heute in den Skill- und Actions-Stores aus. Damals wie heute sind die Applikationen der ersten Stunde geprägt von Spielereien, meist sehr simplen bis hin zu völlig sinnfreien Anwendungen. Waren es im Jahr 2008 Anwendungen, die Furzgeräusche nachahmten, Luftpolsterfolie imitierten oder den Bildschirm in ein Bierglas verwandelten, sind es heute erneut Applikationen wie der "Pups-Generator", "Tiergeräusche" oder "Rülpsen", die sich großer Beliebtheit erfreuen und eine Vielzahl an Nutzerbewertungen auf sich vereinen. Die aktuelle Verteilung verfügbarer Skills im Amazon Skill Store verdeutlicht dies.



Jetzt handeln und eigene Skills/Actions entwickeln

Unternehmen sollten sich vom derzeitigen Stand der Technologie, dem aktuellen Hardware-Fokus sowie den verspielten Applikationen in den Stores nicht irritieren lassen. Intelligente Assistenten stellen die nächste große Entwicklungsstufe in der Mensch-Maschinen-Kommunikation dar. Nachdem bisher stets der Mensch mit der Maschine sprach, wird zukünftig auch die Maschine mit dem Menschen sprechen. Das die Sprachtechnologie und die Intelligenz dahinter heute noch nicht dort stehen, wo der Nutzer sie gerne sehen würde, sprich dieser die Maschine erst einmal anlernen muss, ist dabei Teil dieser Evolution.  Daher empfiehlt es sich für Unternehmen bereits jetzt, das Thema Sprachtechnologie auf die eigene Agenda zu setzen. Ziel sollte sein, die ersten Use Cases zu extrahieren, Sprachmodelle zu entwickeln und zu testen, um zu lernen und im Gleichschritt mit der Technik zu wachsen. Frühzeitiges Experimentieren, schmale Lösungen und modulare Integrationen ermöglichen dabei eine anhaltend hohe Lernkurve. Flexibilität und Schnelligkeit sollten als Erfolgsfaktoren betrachtet werden. Die optimale akustische Kundeninteraktion beginnt sich gerade erst herauszubilden, täglich werden Updates von Amazon, Google und Co. veröffentlicht. Unternehmen können also von einem frühen Einstieg profitieren.

Prozess zur Entwicklung einer Sprachapplikation

Die Entwicklung einer Sprachapplikation lässt sich in einem Prozess abbilden, der aus zehn aufeinanderfolgenden Schritten basiert. Dabei können die zehn Einzelschritte wiederrum in die vier Bereiche Strategie, Voice Design, Development und Optimization gruppiert werden. In der Strategiephase werden User Personas und Use Cases definiert sowie technische Möglichkeiten und etwaige Limitierungen zusammen mit Format und Qualität vorliegender Daten synchronisiert. Darauffolgend wird in der Designphase die System-Persona etabliert, sprich der Sound einer Marke, sowie das Interaction-Model kreiert und über Testing und Iteration auf Robustheit geprüft. Ziel ist es, für den Nutzer ein intuitiv zu bedienendes Sprachmodell zu entwerfen, welches zum einen die Absichten des Nutzers vorhersieht, zum anderen aber ebenso die Redewendungen und Phrasen, mit denen der Nutzer sein Bedürfnis mitteilt, korrekt versteht und zuzuordnen vermag. Das Sprachmodell gut zu designen ist von zentraler Bedeutung und stellt den größten Aufwand innerhalb des Prozesses dar. Hat sich das Modell bewährt, folgt die Skalierungsphase, in welcher der Long Tail ausgestaltet wird und das Modell etwaig multimodal erweitert wird. Im laufenden Livebetrieb schließt sich die Phase der fortlaufenden Analyse und Optimierung an. Denn über die Interaktion mit dem Nutzer werden immer wieder neue Wörter und Phrasen, sprich die Art wie etwas gesagt wird, aufkommen, die im Sprachmodell noch nicht berücksichtigt wurden. Eine Sprachapplikation lernt praktisch nie aus.

Gute Use Cases extrahieren: Wann eine Sprachapplikation sinnvoll ist

Die Interaktion zwischen Mensch und Maschine via Sprache, Mimik und Gestik („beyond touch“) hat gleich mehrere entscheidende Vorteile gegenüber dem Keyboard. Zuallererst einmal ist Sprache barrierefrei. Der Nutzer muss nicht lernen, wie er mit der Maschine interagiert, sondern er versteht es bereits intuitiv. Neben der Einfachheit ist die Spracheingabe der Eingabe über ein Keyboard weiter in puncto Schnelligkeit und Bequemlichkeit überlegen. On top kann die Spracheingabe via Multitasking erfolgen. Sprache ist die natürlichste Form der Interaktion und doch eignet sie sich nicht für alle Use Cases gleichermaßen. Entscheidend ist auch immer der Kontext, in dem sich ein Nutzer gerade befindet. Die Frage nach dem Kontext stellt sich dabei in verschiedene Richtungen. Befindet sich der Nutzer an einem Ort, an dem er über Sprache interagieren kann oder möchte? Ist es komfortabel für den Nutzer über sein Anliegen zu sprechen? Ist er überhaupt imstande über ein Thema zu sprechen, kennt etwaige Fachtermini? Erfordert die Eingabe eine kurze oder lange Interaktionszeit, sprich: Ist ein ausschweifender Dialog nötig? Bedarf es für die Interaktion die Augen und Hände des Nutzers? Ist die Aktion multitaskingfähig? All das sind grundlegende Fragen, die darüber entscheiden, ob und inwiefern eine Sprachapplikation sinnvoll ist oder eben nicht. Am Ende sollte für jeden Use Case die Frage beantwortet werden, ob die Eingabe mittels Sprache gegenüber dem Keyboard überlegen ist.

Seminar: Online-Marketing-Trends 2020

Voice Search ist ein heißer Trend im kommenden Jahr - aber keineswegs der einzige. Auf unserem alljährlichen Neujahrsgespräch „Online-Marketing-Trends“ wählen wir für Sie seit Jahren die aus unserer Sicht wichtigsten Trends aus. Jedes Thema wird von einem ausgewiesenen Experten präsentiert, jeweils mit Chancen und Risiken speziell aufbereitet für kleine und mittlere Unternehmen. Melden Sie sich an!

BIEG-Leitfaden: In 7 Schritten zur richtigen SEO-Strategie

Wenn Sie jetzt immer noch nicht wissen, ob Voice Search für Sie relevant ist, kann das eigentlich nur an Unklarheiten bei Ihrer SEO-Strategie liegen. Unser Leitfaden hilft Ihnen dabei, die richtige SEO-Strategie festzulegen. Er steht wie all unsere Publikationen zum kostenfreien Download bereit: In 7 Schritten zur richtigen SEO-Strategie.

Quelle Karikatur: www.Live-Karikaturen.ch, Lizenz: CC BY-SA 4.0 international
Quelle Illustrationen: Konopka / beyto.com

Gastautor

Claudius Konopka

Claudius Konopka ist Gründer und Geschäftsführer der Beyto GmbH, einer auf Voice und Conversational AI spezialisierten Beratungsagentur. Seit über 10 Jahren im Bereich Digitalmarketing tätig, verantwortete er zuvor als CMO den Marketingbereich von Lieferando, Emesa und Avenso.

https://www.beyto.com

Archiv

Der BIEG Newsletter

Immer auf dem Laufenden bleiben Sie mit unserem monatlichen Newsletter. Wir informieren Sie über aktuelle Veranstaltungen und unsere neuesten Leitfäden!