Voice First ist die Zukunft – die Entwicklung von Siri und Co.

mentoren-xlhealth-rafael-otero
Rafael Otero ist Mitgründer und CTO des Mobile-Payment-Anbieters Payleven.

Von Rafael Otero

Große Erwartungen

Seit der Erfindung der ersten Computer ist den Nutzern versprochen worden, dass die Maschinen uns erstens Arbeit abnehmen werden und wir zweitens mit dem Computer natürlich interagieren könnten. Die Realität aber war in den letzten Jahrzehnten leider ernüchternd.

Die Softwarehersteller haben von Beginn an versucht, die Interaktion mit dem Computer und den Betriebssystemen mit Metaphern aus der realen Welt zu vereinfachen. Die berühmtesten Beispiele dürften die Schreibtisch- und Fenster-Metaphern sein, die sowohl Apple als auch Microsoft nutzten. Diese bunten Oberflächen machten es für die Nutzer einfacher (und augenschonender) sich auf den Computer einzulassen und sich zurecht zu finden.

Interaktion mit Computern nur mit Hilfsmitteln

Die Interaktion mit Computern (als diese ein Massenphänomen wurden) beschränkte sich auf die Eingabe von Befehlen über die Tastatur. Bald darauf versuchte man sich allerdings schon an einer Interaktion per Stimme. Bereits beim Commodore 64 gab es erste “Sound-Eingabegeräte”. Diese Geräte waren weit entfernt von normalen Mikrofonen jener Zeit, gruselig zu bedienen und hatten eine miserable Trefferquote. Die Revolution in der Interaktion mit dem Computer war die Maus (wieder eine Metapher), die zuerst auf dem Apple II verfügbar war.

Vorspulen in die 2000er – die Interaktion mit dem Computer blieb beschränkt auf die o.g. Geräte und die Betriebssysteme waren weiterhin gespickt mit Metaphern aus der realen Welt. Immerhin hatten die meisten Computer nun Soundkarten und auch Mikrofone, diese wurden für Spiele und Musik genutzt. Ab und an “verirrte” sich ein Programm auf den Markt, das versprach, dass man nun mit seiner Stimme Aufgaben auf dem Computer erledigen könnte. „DragonSpeech“ war vermutlich das bekannteste Diktierprogramm dieser Zeit. Die Interaktion mit diesem Programm verlangte vom Nutzer, dass er das Programm auf seine Stimme trainieren müsse. Selbst nach diesem Schritt durfte man nicht erkältet sein oder undeutlich sprechen sonst würde das Diktierprogramm nur Kraut und Rüben verstehen.

Das Smartphone als Evolution

Dann kam das Jahr 2007 mit dem iPhone und die “Touchscreen-Revolution” begann. Eine neue “natürlichere” Form der Interaktion mit Computern / Gadgets begann. Man konnte nun einem Computer-Neuling ein iPhone / iPad in die Hand drücken und derjenige würde sich relativ fix zurecht finden (wieviele Oma und iPhone-Stories haben wir alle gehört?). Allerdings blieben einige archaische Metaphern bestehen. Wir haben immer noch einen “Schreibtisch”, ob wir den nun Desktop oder Home Screen nennen.

In den letzten 50 Jahren bedeutete Mensch-Computer-Interaktion, dass dem Nutzer fast absolute Aufmerksamkeit abgefordert wurde und dass man ein Gerät (PC, Laptop, Smartphone, Tablet) vor sich haben muss, mit dem interagiert. Das letzte halbe Jahrhundert haben wir Menschen uns also dem Computer angepasst und gelernt mit ihm zu interagieren.

siriIm Jahr 2011 brachte Apple mit Siri plötzlich etwas vollkommen Neues auf den Markt. Man bekam plötzlich eine Möglichkeit mit dem Gadget per Stimme zu interagieren, und das Ganze ohne das System großartig zu trainieren. Die Interaktion mit Siri war jedoch recht eingeschränkt und machte eher durch Situationskomik auf sich aufmerksam (erstaunlicherweise war Siri deutlich mächtiger bevor es von Apple gekauft wurde). Kurz darauf (2012) brachte Google mit Voice Search und “OK,Google” ein ähnliches System auf den Markt und auch mehr und mehr Autohersteller integrierten Stimmbefehle in ihre Premium Modelle. Diese Voice-Systeme der neuen Generation waren immer noch sehr belastet mit den alten Interaktionsmustern. Wenn man Siri nach dem Wetter fragt, dann zeigt es einem das Wetter auf dem iPhone an, statt zu antworten.

Der Grundstein für die Voice-First-Revolution wurde dann komplett unbemerkt, von den “Experten” aus dem Silicon Valley unbeachtet und unterschätzt mit einem sehr unscheinbaren Gerät gelegt – dem Amazon Echo. Hierbei handelt es sich um ein schwarzes zylindrisches Etwas, das man sich in sein Zuhause stellt und mit dem man reden kann – nebenbei beinhaltet der Echo auch einen Lautsprecher, sodass man auch Musik abspielen kann. Amazon verschickte die ersten Echos von November 2014 an ihre besten Kunden und nach und nach kauften so 3 Mio der Amazon-Prime-Nutzer in den USA dieses Gerät.

Amazon Echo ist anders

Es bricht mit allem, was wir bisher an Computer-Interaktion gewohnt sind. Man spricht mit Alexa (dem Assistenten auf dem Echo) und Alexa antwortet! Sie zeigt einem nicht irgendwas auf einem Gerät an, denn das Echo hat nichts worauf es etwas anzeigen könnte. Das Echo hat keine Benutzeroberfläche! Kein Schreibtisch, keinen Papierkorb, keine Fenster. Man interagiert mit Alexa auch nicht, in dem man alles andere stehen und liegen lässt, sondern man steht vor dem geöffneten Kühlschrank und sagt Alexa was alles auf die Einkaufsliste soll (und in den USA bestellt man das Fehlende dann gleich bei Amazon). Jeder der sich jetzt an den Computer von Raumschiff Enterprise erinnert fühlt, merkt plötzlich dass Alexa und Echo das ist, was uns vor Urzeiten versprochen wurde! Man kann auf natürliche Weise mit dem Computer interagieren und er nimmt einem Arbeit ab.

Amazon und Apple starteten die Revolution der Voice-Systeme in dem sie ihre Nutzer langsam an das neue Zeitalter von Voice First heranführten. Siri, Google Voice und Echo sind keine überteuerten Nerd-only-Systeme, sondern sie sind mit Absicht der breiten Masse zur Verfügung gestellt worden. Die technische Entwicklung in den letzten Jahrzehnten in Punkto Spracherkennung, künstlicher Intelligenz und “Fern-Spracherkennung” (far-field voice recognition) haben diese Systeme überhaupt erst möglich gemacht.

Fazit: Die Zukunft ist Voice First

In sehr naher Zukunft werden wir mehr und mehr solcher intelligenten Systeme ohne Nutzeroberfläche sehen und in unseren Haushalten wiederfinden. Apple hat auf der WWDC am Montag gerade das Siri SDK für Entwickler vorgestellt (analog zu den APIs von Amazon) und Siri auch auf MacOS verfügbar gemacht. Zusätzlich wurden noch Maps Extensions und das iMessage SDK vorgestellt. Es fällt einem sehr leicht sich vorzustellen, dass Siri dann auch in diesen Kontexten funktionieren wird. Später im Jahr dürfte dann mit Siri 2.0 ein Gerät vorgestellt werden, das Amazon Echo ähnelt (vermutlich als neues AppleTV als HomeKit Hub). Google hat bereits mit SmartHome ein analoges Gerät auf der Google I/O angekündigt und auch Microsoft dürfte bald mit einem System auf den Markt gehen.

Amazon Logo_bearbeitet-1Die Auswirkungen auf die Softwarehersteller und Diensteanbieter wird dramatisch sein. Alles was die Entwickler in den letzten 50 Jahren gelernt haben, dass es irgendeine Form von Benutzeroberfläche zur Anzeige gibt, ist hinfällig. Programme, Apps, Bots – all das wird plötzlich ohne Oberfläche auskommen müssen.

Der E-Commerce wird sich wandeln. Amazon Echo gibt jetzt schon einen Ausblick in diese Welt. Es gibt keine Warenkörbe mehr, sondern das System wird intelligent genug sein um nicht jede Bestellung einzeln aufzugeben. Gleichzeitig eröffnen sich damit aber auch unglaubliche und wundersame Möglichkeiten für die Anbieter. Wenn es keine Warenkörbe mehr gibt, wird es auch keine Warenkorbabbrüche mehr geben. Conversion Optimierung wird vollkommen neu erfunden werden müssen.

Last but not least: Shopping wird sozial werden! Seit der E-Commerce-Revolution ist das Shoppen mehr und mehr zu einem einsamen Erlebnis geworden. Die Anbieter haben ihre Seiten optimiert auf den einzelnen Nutzer und es gab hunderte Versuche social E-Commerce zu etablieren, indem man mit mehreren Nutzern auf den gleichen Produktkatalog guckt (einen Produktkatalog gibt es übrigens auch nicht mehr in dieser Welt 🙂 ). In einer VoiceFirst-Welt kann man nun auf dem Sofa sitzen, sich unterhalten und gemeinsam shoppen. “Alexa, ich will die Schuhe von Maik und Maik will meine Socken haben. Bitte bestell die.” Essensbestellungen werden ähnlich ablaufen. Kein Mensch will mehr mit Dutzenden von Klicks in drei Apps chinesisches, italienisches und amerikanisches Essen bestellen, sondern es passiert dies: “Alexa, Maik will Frühlingsrollen von A, André will Pizza SuperDuper von B und Rafael will einen CheeseBurger von C”.

Diese Zukunft existiert bereits hier und jetzt und wird gerade in gewaltigen Schritten weiter entwickelt und verbessert. Jeff Bezos hat vor wenigen Tagen in einem Interview gesagt, dass momentan 1.000 Entwickler an Alexa arbeiten. Apple hat in den letzten 12 Monaten alleine 6 Firmen aus diesem Bereich gekauft, darunter mit Emotient auch eine Firma, die die Emotionen (glücklich, traurig, wütend) von Menschen erkennen kann und in eine künstliche Intelligenz gegossen hat (jeder der die Fernsehserie “Lie to me” gesehen hat, kann sich ungefähr vorstellen was das heißen kann). Die Erfinder von Siri sind von Apple weg und haben Viv gegründet, ein System dem man wie einem Kind Verhalten beibringt.

Ich freue mich auf diese Zukunft wo ich nicht nur Alexa „Danke“ sage (das ist mir wirklich passiert!) nachdem sie etwas für mich erledigt, sondern in der Google Home, Siri und Alexa ausbaldowern was es heute Abend zu essen gibt oder meiner Freundin Blumen bestellen, weil ich den Jahrestag wieder verbummelt habe.

Diesen Artikel teilen

2 Antworten zu “Voice First ist die Zukunft – die Entwicklung von Siri und Co.”

Mobilbranche.de Newsletter

Hiermit akzeptiere ich die Datenschutzbestimmungen.