„Liebes Auto, bitte rufe Stefan Mayer an!“ „Tut mir leid, ich kann die Adresse Eierstraße leider nicht finden.“ Solche Dialoge mit Sprachsteuerungssystemen sind den meisten Menschen genauso bekannt wie leidig. Die Möglichkeiten von Spracheingabe waren immer so verlockend wie begrenzt. Nur ganz bestimmte Begriffe in festgelegter Reihenfolge, langsam und unnatürlich gesprochen wie von einem Roboter und ganz ohne Nebengeräusche führten zum Erfolg. Die neueste Generation dieser Sprachsteuerungssysteme ist ihren Vorgängern einen großen Schritt voraus. Erstmals sind so etwas ähnliches wie natürliche Gespräche mit diesen Systemen möglich und mehrere gesprochene Wege führen zum Ziel.

ASR und NLU – Begriffe die man kennen sollte

Bei der automatischen Spracherkennung “ASR” (Automatic Speech Recognition) werden Computerhardware und softwarebasierte Techniken zur Erkennung und Verarbeitung der menschlichen Stimme verwendet. ASR wird verwendet um die Wörter zu identifizieren, die eine Person gesprochen hat, oder um die Identität der in das System sprechenden Person zu authentifizieren. Natural Language Verständnis “NLU” (Natural Language Understanding) ist ein Zweig der künstlichen Intelligenz, der Computersoftware verwendet, um die Eingabe in Form von Sätzen im Text- oder Sprachformat zu verstehen. ASR verwandelt Sprache also zu Text – kann es folglich “lesen”. NLU versteht aber erst die Bedeutung dahinter.

Was brachte den Durchbruch?

Der große Beschleuniger der Technologie war die Verlagerung der Spracherkennungssoftware in die Cloud. Den Anfang machte damals Apple mit der Einführung des Spracherkennungsassistenten “Siri” auf den iPhones. Amazon zog mit „Alexa“ nach. Auch Google mit seinem „Google Assistant“, Samsung mit „Bixby“ und Microsoft mit „Cortona“ sind neben anderen kleineren Herstellern die Haupttreiber der Entwicklung. Wird der Sprachassistent mit einem Codewort aktiviert und eine Frage gestellt, dann wird diese Anfrage zu einem Server des Anbieters gesendet, wo nach Analyse durch eine künstliche Intelligenz eine wahrscheinlich passende Antwort generiert und zurück beim Fragesteller über einen Lautsprecher ausgegeben wird. Internet basiertes maschinelles Lernen ist die technische Voraussetzung für ein möglichst natürliches Erlebnis mit Sprachsteuerung. Ein Zusammenspiel von Deep Learning, Cloud Computing, Neuronalen Netzwerken und künstlicher Intelligenz führt hierbei zu immer besseren Ergebnissen.

Welche Anwendungsmöglichkeiten ergeben sich?

Grundsätzlich geht es bei der Nutzung von Spracherkennung schon lange nicht mehr um das bloße Diktieren von Text, sondern darum, einen Computer zu steuern und ihn mit bestimmten Services zu beauftragen. Die Sprache wird hierbei zu einer weiteren Schnittstelle, welche die Interaktion von Mensch und Gerät erleichtern und verbessern soll. Anstatt sich in einem Auto umständlich durch verschachtelte Menüs klicken zu müssen, genügt ein einziger gesprochener Satz, um z.B. die Navigation mit einer neuen Zielführung zu beauftragen. Das spart Zeit, Nerven und es lenkt den Fahrer im Zweifel deutlich weniger vom Verkehrsgeschehen ab. Auch bei Betrachtung der Angebote von Amazon oder Google steht eine vereinfachte Nutzung der eigenen Dienste im Mittelpunkt. So lassen sich Suchanfragen zu Sportereignissen, Nachrichten oder dem Wetter durchführen, Musiktitel abspielen, Bestellungen aller Art aufgeben sowie Anrufe und Textnachrichten versenden und empfangen. Vereinfacht zeichnet sich folgendes Szenario für Spracherkennungen ab: MBUX kann alles was ein Mercedes kann, Google Home kann alles was Google kann und Alexa kann alles was Amazon kann.

Potenzierte Nutzungsmöglichkeiten durch Integration von Drittanbietern

Besonders spannend wird es, wenn die Sprachsteuerungssysteme “offen” sind auch die Geräte von Drittanbietern zu steuern. Smart Home ist hier ein wichtiges Stichwort. Dabei geht es darum, möglichst alle Funktionen eines Haushalts per Sprachbefehl zu steuern: Heizung, Licht, Rollläden, Musik, Backöfen, die Kaffeemaschine, die Verriegelung der Türen, den Staubsaugroboter oder die Überwachungskameras. Wöchentlich werden weltweit neue Produkte lanciert, die sich durch die zentralen Sprachsteuerungssysteme der großen Hersteller im wahrsten Sinne des Wortes ansprechen lassen. Somit sind Sprachsteuerung und das Internet of Things zwei große Technologietrends, die sich gegenseitig verstärken.

Integrierte Sprachassistenten im Fahrzeug

Neben Assistenten für reines Infotainment, die über das Smartphone funktionieren, also ohne direkten Zugriff auf das Fahrzeug wie beispielsweise Apple CarPlay und der Sprachassistent Chris von German Autolabs, spielen integrierte Sprachassistenten, die Zugriff auf das Fahrzeug haben eine immer wichtiger werdende Rolle in der Automobilbranche. Zu diesen integriertem Sprachassistenten zählen z.B. MBUX “Hey, Mercedes!” von Daimler unter Mitwirkung der Firma Nuance, der Sprachassistent Casey von Bosch sowie Android Auto von Volvo. Auch Amazons virtueller und sprachgesteuerter Assistent Alexa geht unter die Autofahrer. Alexa ist “offen” und steht auch anderen Hardwareherstellern zur Verfügung.

So hat zum Beispiel VW eine Partnerschaft mit dem Online-Händler Amazon angekündigt und Anfang des Jahres (2018) skizziert, wie man aus dem Auto heraus mit Hilfe von Alexa daheim die Jalousien öffnen oder die Vorräte im Kühlschrank überprüfen kann. Continental zeigte in Las Vegas ein neu entwickeltes Infotainmentsystem, das in Zukunft sowohl mit der On-Board-Diagnose des Autos verbunden als auch mit der Alexa Sprachsteuerung ausgestattet sein soll. Ford integriert Amazon Alexa per Software-Update in allen Autos mit Sync 3 Entertainment System – vorerst aber nur in den USA. Seat hat Alexa in den Ibiza, den Leon, den Ateca und Ende August auch in den Arona geholt. BMW und Mini haben Alexa seit Mitte 2018 in alle neuen Modelle integriert. Beispielsweise kann der Autofahrer das aktuelle Kinoprogramm oder das Wetter am Zielort erfragen, die Lieblings-Playlist abspielen oder shoppen – einfach per Sprachbefehl in die Cloud. Heute sind Sprachsteuerungssysteme schon in 55 Millionen Autos (Statista) sowie in der Headunit integriert. Auch im Aftersalesbereich spielt die Integration von Alexa eine immer größere Rolle. Laut einer Veröffentlichung der FAZ im Januar 2019 hat Amazon die Marke von 100 Millionen verkauften Geräten mit seiner Sprachassistentin Alexa an Bord geknackt. In der StudieAn outlook on INTELLIGENCE in 2024 finden sich weitere Informationen und Zahlen zum Thema Sprachassistenten.  

Welche Einschränkungen gibt es?

Neben den vielen bereichernden Möglichkeiten von Spracherkennungssoftware gibt es noch einige Hindernisse zu überwinden. So ist es für die Erkennung eindeutiger Befehle immer noch hinderlich, wenn Anweisungen kontextbasiert erfolgen, wenn undeutlich gesprochen wird oder der eigene lokale Akzent allzu dominant ausgeprägt ist. Sehr vereinzelt verbreiten sich ab und an Zeitungsmeldungen über fehlgeleitete Sprachbefehle, so wurde laut Businessinsider einmal angeblich das Gespräch eines Ehepaares aufgenommen und automatisch per Email versandt. Noch deutlicher werden die Risiken bei Betrachtung der Datensicherheit. Die Hersteller beteuern zwar, dass Daten erst nach Aktivierung durch das Codewort an die eigenen Server gesendet werden. Kritische Konsumenten werden dennoch hellhörig, wenn beispielsweise Google durch personalisierte zielgenaue Werbung seine Umsätze erzielt. Je mehr ein digitaler Assistent über seinen Nutzer weiß, desto besser funktioniert er. Es gibt hier also einen klassischen Zielkonflikt zwischen dem Sammeln von persönlichsten Daten und der reibungslosen Funktionalität eines Produktes welches den Alltag erleichtern soll.

Das Wichtigste in Kürze

  • “ASR” (Automatic Speech Recognition) wird zur automatischen Spracherkennung und Verarbeitung der menschlichen Stimme verwendet.
  • “NLU” (Natural Language Understanding) ist ein Zweig der künstlichen Intelligenz, um die Eingabe in Form von Sätzen im Text- oder Sprachformat zu verstehen. 
  • Für ein möglichst natürliches Erlebnis mit Sprachsteuerung ist die technische Voraussetzung das Internet basierte maschinelle Lernen. 
  • Die Sprache wird zu einer weiteren Schnittstelle, welche die Interaktion von Mensch und Gerät erleichtern und verbessern soll.
  • Integrierte Sprachassistenten, die Zugriff auf das Fahrzeug haben spielen eine immer wichtiger werdende Rolle in der Automobilbranche.
  • Gefahren werden bei der Datensicherheit deutlich: Je mehr ein digitaler Assistent über seinen Nutzer weiß, desto besser funktioniert er.

Was erwartet uns noch in der Zukunft?

Die künstliche Intelligenz der digitalen Assistenten soll den Nutzer beobachten, von ihm lernen und sich ihm anpassen. Nur so kann das entstehen was wir von einer Menschlichen Stimme erwarten: Nähe. Nur so kann aber auch das entstehen was viele fürchten: der gläserne Mensch, vollkommene Überwachung und das Vorhersagen sowie die Beeinflussung unserer Gedanken und Handlungen. Gleichzeitig erhöht sich dadurch die Effizienz der Kommunikation zwischen Mensch und Maschine. Denn nur mit Intuition ist ein gegenseitiges menschliches Verstehen möglich. Wir alle versuchen die Gedanken unseres Gegenübers zwischen den gesprochenen Zeilen zu lesen. Warum sollten wir es also fürchten, wenn unser guter alter Gehilfe Computer dasselbe tut? Vielleicht darum, weil diese Dienste und Services jemandem gehören der mit unseren Daten sein Geld verdienen will. Die Angst vor der finanziellen Ausschlachtung des eigenen Lebens bleibt also. Vielleicht ist dies aber auch die angemessene nächste Stufe – hin zu neuer Lebensqualität mit digitalen Helfern.

Was sprechen die Zahlen?

Laut einer von Tracticta erhobenen und von Statista im August 2016 veröffentlichten Studie, steigen die weltweiten Nutzer virtueller digitaler Assistenten von 390 Millionen im Jahr 2015 auf 1831 Millionen Nutzer bis zum Jahr 2021 an. Für das Jahr 2019 wurde die Zahl der weltweiten Nutzer von virtuellen digitalen Assistenten dabei auf rund 1,4 Milliarden prognostiziert. Laut Handelsblatt wurden im Jahr 2018 weltweit bereits 7,5 Milliarden Dollar mit Spracherkennungssoftware umgesetzt. 2015 waren es laut einer von Horizont veröffentlichten Erhebung von Tracticta (Horizont Nr. 9, 02.03.2017, Seite 18) noch 17,7 Millionen US-Dollar. Laut des Artikels im Handelsblatt lassen weitere Studien von Canalys und IDC einen Anstieg auf 27,8 Milliarden Dollar im Jahr 2022 erwarten. Das entspräche einer durchschnittlichen jährlichen Wachstumsrate von über 20%.

Neben der Sprachsteuerung in Fahrzeugen und den Services von Google, Apple und Amazon zählt auch der Gesundheitsbereich zu einer Industrie, der bedeutend zum Wachstum beiträgt. Auch bei mobilen Bankgeschäften ist die Authentifizierung über die Stimme ein Trend. Viele Experten nehmen inzwischen an, dass der gesamte Customer Service Bereich branchenübergreifend vor einer Revolution durch sprechende künstliche Intelligenzen steht.

Was kommt auf Ihr Unternehmen zu und wie profitieren Sie von den neuen Entwicklungen und Technologien? Kontaktieren Sie uns gerne und wir erörtern gemeinsam neue Wachstumschancen für ihr Unternehmen.