Nach oben

Sprachsteuerung mit Alexa, Google, Siri & Co. – «Voice first» kommt!

«Voice first» ist einer der nächsten grossen Entwicklungsschritte in der digitalen Welt. Es geht um Sprachsteuerung. Also darum, dass man künftig zuerst mit der Stimme technische Geräte oder Services steuern wird und erst in zweiter Linie über einen Screen. Ferne Zukunftsmusik? Wohl kaum – ich habe im folgenden Fakten & Fakes zusammengetragen.

Junge singt in ein Mikrofon. Sprachsteuerung / Voice first mit Alexa, Google Assitant, Siri, Cortana & Co.
Die Kraft der Stimme. Foto: Jason Rosewell / Unsplash

Am bekanntesten in punkto Sprachsteuerung sind aktuell die sogenannten Smart Speakers (Lautsprecher mit Mikrofon und Internetverbindung). Sie bieten Zugang  zu digitalen Assistenten wie Alexa von Amazon, dem Google Assistant oder Siri von Apple (warum die per Default alle weiblich sind, ist ein Artikelthema für sich ;-).

Diese Smart Speakers boomen im angelsächsischen Raum, Amazon beispielsweise hat Anfang Jahr bereits das 100-millionste Gerät verkauft.

Die Vision

Alle diese digitalen Assistentinnen hören zu und lösen dann einen Prozess aus oder geben Antwort – mehr oder weniger passend. Im Film ist die Idee der Sprachsteuerung schon viel weiter, sei es in Space Odyssee, in dem HAL 9000 sich sogar selbständig macht, hier im entscheidenden Gespräch mit dem Astronauten Dave. Im Film «HER», verliebt sich Joaquim Phoenix gar in seine digitale Assistentin. Ja, im Film ist eine Computersteuerung ohne Stimme schlicht nicht mehr vorstellbar, wie im folgenden Ausschnitt aus «Startrek»:

Die Realität

Die Realität hinkt da hinterher, Gespräche sind nicht wirklich möglich. Vor einem Jahr wurde der Google Assistant gefeiert, weil er am Telefon einen Coiffure-Termin abmachen konnte.
Ausschnitt aus der Google Entwicklerkonferenz I/O 2018 (links Google / rechts Mensch):

Ganz abgesehen davon, dass sich hier der Computer als Mensch ausgibt – ein kapitaler Denkfehler, vgl. den Blogpost meiner Kollegin Sibylle Peuker. Denn in punkto Gesprächsfähigkeit ist heute jeder Erstklässler der digitalen Assistenz (noch) weit überlegen.

Warum sich Sprachsteuerung durchsetzen wird

Aber das sind lediglich Entwicklungsschritte, die noch fehlen. Die Sprachsteuerung wird sich durchsetzen und zwar aus diesen zwei Gründen:

  • Einfachste Bedienung. Einfacher als über Sprache können wir uns die Bedienung eines Geräts nicht vorstellen. Wir können deutlich früher sprechen als schreiben und Sprache ist auch im digitalen Zeitalter unsere häufigste und bevorzugte Kommunikationsform. Sprachsteuerung ist intuitiv, schnell und im Wortsinn kinderleicht. Schon kleine Kinder können Amazon Alexa bedienen (Video, 51 s) – sofern das Sprechen schon klappt.
  • Freihändig oder «Hands-free». Eine Bedienung mit Stimme kann nebenbei erfolgen, also gleichzeitig mit anderen Tätigkeiten wie Arbeiten, Kochen, Autofahren etc. Es ist keine ungeteilte Aufmerksamkeit notwendig wie bei einer Gerätesteuerung über einen Bildschirm.

Diese zwei Gründe werden der Sprachsteuerung und den Smart Speakers auch in nicht-englischsprachigen Ländern früher oder später zum Durchbruch verhelfen.

Disruptive Auswirkungen

Aber die Auswirkungen der Sprachsteuerung sind disruptiv und zwar auf drei Ebenen:

  • Navigation. Bei der Sprachsteuerung gibt es keinen Screen mehr. Die Usability-Regeln, wie wir sie heute kennen, machen Platz für neue. Schon ein einfaches Hauptmenü mit je ein paar Untermenü-Punkten zur Auswahl vorgelesen, kann ein Mensch nicht mehr als Auswahl verarbeiten. Wir sind in der Lage, uns beim Zuhören eine Auswahl von drei Dingen zu merken, bei mehr Punkten wissen wir noch den ersten und den letzten, die zwischendurch vergessen wir meistens. Also wie navigiert man mit Sprachsteuerung? In einem Gespräch bilden die Fragen und Antworten eine natürliche Navigation. Solange das so nicht möglich ist, bleibt als Alternative nur, den Inhalt in einfache und verständliche Teile aufzuteilen.
  • Gesprochene Sprache. Gesprochene Sprache ist nicht gleich geschriebene Sprache. Wohl übertrumpfen sich gerade Zeitungsverlage momentan damit, dass man ihre Artikel auch hören kann, jüngst grad stolz die NZZ. Bei einer Interaktion über Sprache müssen Inhalte in gesprochener Sprache produziert werden, damit sie verständlich werden. Geschriebene Texte einfach automatisiert abzulesen ist zwar einfacher und billiger, aber nicht verständlich und somit sinnlos.
  • Emotion. Mit Klangfarbe, Dynamik oder Tonalität transportiert die Stimme viele Informationen, die nicht ausgesprochen werden: Alter, Geschlecht, Herkunft, emotionale Verfassung der Sprecherin etc. Deshalb ist die Wahl der Stimme von grosser Wichtigkeit (wieder ein Thema für den Beitrag zu den weiblichen Assistenzstimmen). Stimmen und Interaktionen mit Stimmen sind immer deutlich emotionaler als ein Text für den Screen es je sein kann. Mit allen Vor- und Nachteilen. Das haben unsere User Experience Studien zu Conversational Interfaces bestätigt.In der aktuellen Ausgabe von «Marketing & Kommunikation» spricht man sogar von einer «Renaissance des Brandings» durch Smart Speaker Anwendungen.

Geschriebene Texte einfach automatisiert abzulesen ist zwar einfacher und billiger, aber nicht verständlich und somit sinnlos.

Die Macht der Stimmen

Das Beispiel macht den Unterschied zwischen gesprochener und geschriebener Sprache klar und zeigt die Wirkung von Stimmen.

Zuerst ein Audioauschnitt eines NZZ-Artikels vor den letzten Regierungsratswahlen im Kanton Zürich:

Die vielen Namen kann sich kein Mensch merken. Hinzu kommt, dass die Aussprache ein Problem darstellt: Carmen Walker-Späh mutiert in dem Beispiel zur Schwester des Texas Rangers. Und strahlt diese Sprecher-Stimme wirklich aus, wofür die NZZ als Marke steht?

 

Ein anderes Audiobeispiel zum Thema Zürcher Regierungsratswahl hier:

Im Beitrag von Radio SRF 1 ist die Sprache verständlich und durch die Aussage eines Kandidaten (O-Ton) kriegt man einen sehr direkten Eindruck. Der Kandidat ist einem, abgesehen vom inhaltlich Gesagten, sofort sympathisch oder eben nicht.

Ist Walker der Texas Ranger Carmen Walker Späh's Bruder? Sprachsteuerung / Voice first mit Alexa, Google Assitant, Siri, Cortana & Co.
Computerstimme sei Dank: Carmen Walker Späh's Bruder?

It's the Use-Case, stupid!

Frei nach Bill Clintons Wahlkampf-Slogan von 1992.

Ein Piegan Indianer hört sich 1916 eine Aufnahme an – das Zeitalter der Tondatenträger hat begonnen. Sprachsteuerung / Voice first mit Alexa, Google Assitant, Siri, Cortana & Co.
Ein Piegan Indianer hört sich 1916 eine Aufnahme an – das Zeitalter der Tondatenträger hat begonnen.

Fazit: Vorbereitung ist alles

Die Sprachsteuerung wird kommen, jetzt ist die Zeit da, sich vorzubereiten, aber wie?

1. Es gibt dafür ein zutiefst analoges Knowhow, welches eine wichtige Hilfestellung leisten kann, das klassische Radiohandwerk. Radiomacher kennen sich mit gesprochener Sprache und mit der Wirkung von Stimmen bestens aus, nutzen Sie dies.

2. Die Abfrage-Navigation von sprachgesteuerten Geräten hat Auswirkungen auf die Datenstruktur. Die kann man bereits heute bei Neuentwicklungen vorbereiten.

Bleibt das Implizite im Begriff «Voice first», das wie bei «Mobile first» suggeriert, bald werde alles zuerst über Sprache gesteuert. Frei nach Bill Clinton meine ich dazu: «It’s the Use-Case, stupid!» Letztlich kommt es auf den Business Case und auf den konkreten Anwendungsfall an. Es gilt herauszufinden, welcher Inhalt für die Sprachsteuerung fit gemacht werden muss, welche Chancen sich dadurch ganz neu eröffnen und für welche Fälle man weiterhin über Screens die bessere User Experience anbietet. Deshalb:

3. Anwendungsfälle für Interaktionen über die Stimme lassen sich gut im Rahmen von Innovationsprozessen aufnehmen und zu ersten Gedankenspielen, Prototypen und User Acceptance Tests ausbauen.

Klar ist – die Zeichen der Zeit zeigen den Wandel deutlich an – mit Experimenten heute können Sie nur gewinnen.

Ramón Bill ist Senior User Experience Architect. Er hat Erfahrung mit Smart Speakern und eine über 10jährige Radio-Vergangenheit (SRF 3 und SRF 1).

Als Bonus noch ein Video, welches die Emotionalität einer Sprachsteuerung deutlich macht. Eine Schottin nutzt in der Küche Amazons Alexa: Ärger mit Alexa und hier die Auflösung dazu 😂.

Kommentare

Kommentar schreiben

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert