Die Zahl der Anwendungen und die Bedeutung von Sprachschnittstellen wächst rasant

Inhalt

große Vier
Amerikaner wollen kaufen
Waschen, backen, putzen!
Altes Konzept. Ist ihre Zeit endlich gekommen?
Technisch schwierige Frage
Stimme? Grafik? Oder vielleicht beides?
Bleib sicher!

Eine amerikanische Familie in Portland, Oregon, erfuhr kürzlich, dass die Sprachassistentin Alexa ihre privaten Chats aufgezeichnet und an einen Freund gesendet hatte. Die Besitzerin des Hauses, die von den Medien Danielle genannt wird, sagte Reportern, dass sie „dieses Gerät nie wieder anschließen würde, weil man ihr nicht trauen könne“.

Alexa, das von Echo-Lautsprechern (1) und anderen Geräten in zig Millionen US-Haushalten bereitgestellt wird, beginnt mit der Aufnahme, nachdem der Benutzer seinen Namen oder sein „Rufwort“ gesprochen hat. Dies bedeutet, dass das Gerät möglicherweise mit der Aufnahme beginnt, selbst wenn das Wort „Alexa“ in einer Fernsehwerbung erwähnt wird. Genau das sei in diesem Fall passiert, sagt Hardware-Händler Amazon.

„Der Rest des Gesprächs wurde vom Sprachassistenten als Befehl zum Senden einer Nachricht interpretiert“, heißt es in einer Erklärung des Unternehmens. „Irgendwann fragte Alexa laut: ‚Wer?‘ Die Fortsetzung eines Familiengesprächs über Hartholzböden hätte von der Maschine als Punkt auf der Kontaktliste des Kunden wahrgenommen werden müssen.“ Zumindest denkt Amazon das. Somit läuft die Übersetzung auf eine Reihe von Zufällen hinaus.

Die Angst bleibt jedoch bestehen. Denn aus irgendeinem Grund müssen wir in einem Haus, in dem wir uns noch wohl fühlten, eine Art „Sprachmodus“ einführen, aufpassen, was wir sagen, was der Fernseher sendet und natürlich, was dieser neue Lautsprecher auf der Brust hat Schubladen sagt . uns.

dennoch, Trotz mangelhafter Technologie und Bedenken hinsichtlich des Datenschutzes gewöhnen sich die Menschen mit der wachsenden Beliebtheit von Geräten wie dem Amazon Echo allmählich an die Idee, mit Computern über ihre Stimme zu interagieren..

Wie Werner Vogels, CTO von Amazon, während seiner AWS re:Invent-Sitzung Ende 2017 feststellte, hat die Technologie bisher die Art und Weise eingeschränkt, wie wir mit Computern interagieren können. Wir geben Schlüsselwörter über die Tastatur in Google ein, da dies immer noch die gebräuchlichste und einfachste Möglichkeit ist, Informationen in eine Maschine einzugeben.

sagte Vogels. -

große Vier

Bei der Nutzung der Google-Suchmaschine am Telefon ist uns dort vermutlich schon vor längerer Zeit ein Mikrofonschild mit der Aufforderung zum Reden aufgefallen. Das Google jetzt (2), mit dem Sie eine Suchanfrage diktieren, eine Nachricht per Spracheingabe eingeben usw. In den letzten Jahren haben Google, Apple und Amazon große Fortschritte gemacht Spracherkennungstechnologien. Sprachassistenten wie Alexa, Siri und Google Assistant zeichnen nicht nur Ihre Stimme auf, sondern verstehen auch, was Sie ihnen sagen und beantworten Fragen.

Google Now ist für alle Android-Nutzer kostenlos verfügbar. Die Anwendung kann beispielsweise einen Alarm einstellen, die Wettervorhersage und Routen auf Google Maps überprüfen. Google Now Conversational State-Erweiterung Google Assistant() – virtuelle Unterstützung für den Benutzer der Ausrüstung. Es ist hauptsächlich auf mobilen und Smart-Home-Geräten verfügbar. Im Gegensatz zu Google Now kann es an einem wechselseitigen Austausch teilnehmen. Der Assistent debütierte im Mai 2016 als Teil der Google Messaging-App Allo sowie im Google Home-Sprachlautsprecher (3).

3. Google-Startseite

IOS verfügt außerdem über einen eigenen virtuellen Assistenten. Siri, also ein Programm, das in den Apple-Betriebssystemen iOS, watchOS, tvOS homepod und macOS enthalten ist. Siri debütierte mit iOS 5 und dem iPhone 4s im Oktober 2011 auf der Let's Talk iPhone-Konferenz.

Die Software basiert auf einer Konversationsschnittstelle: Sie erkennt die natürliche Sprache des Benutzers (mit iOS 11 ist es auch möglich, Befehle manuell einzugeben), beantwortet Fragen und erledigt Aufgaben. Dank der Einführung des maschinellen Lernens ein Assistent im Laufe der Zeit analysiert persönliche Vorlieben Benutzer, um relevantere Ergebnisse und Empfehlungen bereitzustellen. Siri benötigt eine ständige Internetverbindung – die wichtigsten Informationsquellen sind hier Bing und Wolfram Alpha. iOS 10 führt Unterstützung für Erweiterungen von Drittanbietern ein.

Noch einer der großen Vier Kortana. Es handelt sich um einen intelligenten persönlichen Assistenten, der von Microsoft entwickelt wurde. Es wird auf den Plattformen Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android und iOS unterstützt. Cortana wurde erstmals auf der Microsoft Build Developer-Konferenz im April 2014 in San Francisco vorgestellt. Der Name des Programms leitet sich vom Namen einer Figur aus der Halo-Spielereihe ab. Cortana ist in Englisch, Italienisch, Spanisch, Französisch, Deutsch, Chinesisch und Japanisch verfügbar.

Benutzer des bereits erwähnten Programms Alexa Sie müssen auch sprachliche Einschränkungen berücksichtigen – der digitale Assistent spricht nur Englisch, Deutsch, Französisch und Japanisch.

Der virtuelle Assistent von Amazon wurde erstmals in den von Amazon Lab126 entwickelten intelligenten Lautsprechern Amazon Echo und Amazon Echo Dot eingesetzt. Es bietet Sprachinteraktion, Musikwiedergabe, das Erstellen von To-Do-Listen, das Einstellen von Alarmen, das Streamen von Podcasts, das Abspielen von Hörbüchern und die Bereitstellung von Echtzeitinformationen über Wetter, Verkehr, Sport und andere Nachrichteninformationen wie Nachrichten (4). Alexa kann mehrere Smart-Geräte steuern, um ein Hausautomationssystem zu erstellen. Darüber hinaus lassen sich damit auch bequeme Einkäufe bei Amazon tätigen.

4. Warum Benutzer Echo verwenden (laut Forschung)

Benutzer können die Fähigkeiten von Alexa erweitern, indem sie Alexa-„Skills“ installieren, zusätzliche Funktionen, die von Dritten entwickelt wurden und üblicherweise als Apps bezeichnet werden, wie z. B. Wetter- und Audio-Apps in anderen Einstellungen. Bei den meisten Alexa-Geräten können Sie den virtuellen Assistenten mithilfe eines Wake-Passworts, einem sogenannten Wake-Passwort, aktivieren.

Amazon dominiert heute eindeutig den Markt für intelligente Lautsprecher (5). IBM, das den neuen Dienst im März 2018 eingeführt hat, versucht, unter die ersten vier zu kommen. Watsons Assistent, konzipiert für Unternehmen, die selbst sprachgesteuerte virtuelle Assistentensysteme erstellen möchten. Was ist der Vorteil der IBM-Lösung? Nach Angaben von Unternehmensvertretern geht es vor allem um deutlich größere Möglichkeiten zur Personalisierung und zum Schutz der Privatsphäre.

Erstens hat Watson Assistant keine aufgezwungene Marke. Unternehmen können auf dieser Plattform eigene Lösungen erstellen und diese mit ihrer eigenen Marke versehen.

Zweitens können sie ihre unterstützenden Systeme mithilfe ihrer eigenen Datensätze trainieren, was laut IBM das Hinzufügen von Funktionen und Befehlen zu diesem System einfacher macht als andere VUI-Technologien (Voice User Interface).

Drittens stellt Watson Assistant IBM keine Informationen über Benutzeraktivitäten zur Verfügung – Entwickler von Lösungen auf der Plattform können wertvolle Daten nur für sich behalten. In der Zwischenzeit sollte jeder, der beispielsweise Geräte mit Alexa baut, bedenken, dass seine wertvollen Daten irgendwann bei Amazon landen.

Watson Assistant verfügt bereits über mehrere Implementierungen. Das System wurde beispielsweise von der Firma Harman genutzt, die einen Sprachassistenten für das Maserati-Konzeptauto entwickelte (6). Am Flughafen München treibt ein IBM-Assistent den Pepper-Roboter an, um Besuchern bei der Fortbewegung zu helfen. Das dritte Beispiel ist Chameleon Technologies, wo Sprachtechnologie in einem Smart-Home-Zähler zum Einsatz kommt.

6. Watson-Assistent im Maserati-Konzeptauto

Es ist erwähnenswert, dass die zugrunde liegende Technologie auch hier nicht neu ist. Watson Assistant umfasst Verschlüsselungsfunktionen für bestehende IBM-Produkte, Watson Conversation und Watson Virtual Agent, sowie APIs für Sprachanalyse und Chat.

Amazon ist nicht nur führend in der intelligenten Sprachtechnologie, sondern macht daraus auch ein Direktgeschäft. Einige Unternehmen haben jedoch schon viel früher mit der Echo-Integration experimentiert. Sisense, ein Unternehmen der BI- und Analysetools-Branche, führte im Juli 2016 die Echo-Integration ein. Im Gegenzug beschloss das Startup Roxy, eigene sprachgesteuerte Soft- und Hardware für das Gastgewerbe zu entwickeln. Anfang des Jahres stellte Synqq eine Notizen-App vor, die Sprach- und natürliche Sprachverarbeitung nutzt, um Notizen und Kalendereinträge hinzuzufügen, ohne sie auf einer Tastatur eingeben zu müssen.

Alle diese kleinen Unternehmen haben große Ambitionen. Was sie jedoch am meisten gelernt haben, ist, dass nicht jeder Benutzer seine Daten an Amazon, Google, Apple oder Microsoft weitergeben möchte, die die wichtigsten Akteure beim Aufbau von Sprachkommunikationsplattformen sind.

Amerikaner wollen kaufen

Im Jahr 2016 machte die Sprachsuche 20 % aller mobilen Google-Suchen aus. Menschen, die diese Technologie täglich nutzen, nennen ihre Bequemlichkeit und Multitasking als ihre größten Vorteile. (zum Beispiel die Möglichkeit, beim Autofahren eine Suchmaschine zu nutzen).

Die Analysten von Visiongain schätzen den aktuellen Wert des Marktes für intelligente digitale Assistenten auf 1,138 Milliarden US-Dollar. Es gibt immer mehr solcher Mechanismen. Laut Gartner bis Ende 2018 30 % unserer Interaktionen Mit der Technologie wird es durch Gespräche mit Sprachsystemen geschehen.

Das britische Forschungsunternehmen IHS Markit schätzt, dass der Markt für digitale Assistenten mit KI (künstliche Intelligenz) bis Ende dieses Jahres 4 Milliarden Geräte erreichen wird und diese Zahl bis 2020 auf 7 Milliarden steigen könnte.

Berichten von eMarketer und VoiceLabs zufolge nutzten 2017 35,6 Millionen Amerikaner mindestens einmal im Monat die Sprachsteuerung. Dies entspricht einer Steigerung von fast 130 % im Vergleich zum Vorjahr. Allein der Markt für digitale Assistenten soll im Jahr 2018 um 23 % wachsen. Das bedeutet, dass Sie sie bereits verwenden werden 60,5 Millionen Amerikaner, was ihren Herstellern konkretes Geld bringen wird. RBC Capital Markets schätzt, dass die Alexa-Schnittstelle Amazon bis 2020 einen Umsatz von bis zu 10 Milliarden US-Dollar bescheren wird.

Waschen, backen, putzen!

Sprachschnittstellen halten zunehmend Einzug in den Markt für Haushaltsgeräte und Unterhaltungselektronik. Zu sehen war dies bereits auf der letztjährigen IFA 2017. Das amerikanische Unternehmen Neato Robotics präsentierte beispielsweise einen Roboterstaubsauger, der sich mit einer von mehreren Smart-Home-Plattformen verbindet, darunter dem Amazon Echo-System. Indem Sie mit Ihrem Echo-Smart-Lautsprecher sprechen, können Sie die Maschine anweisen, Ihr gesamtes Zuhause zu bestimmten Tages- und Nachtzeiten zu reinigen.

Weitere ausgestellte sprachgesteuerte Produkte reichten von Smart-TVs, die unter der Marke Toshiba vom türkischen Unternehmen Vestel verkauft werden, bis hin zu Heizdecken des deutschen Unternehmens Beurer. Viele dieser elektronischen Geräte können auch per Smartphone aus der Ferne aktiviert werden.

Allerdings ist es laut Bosch-Vertretern noch zu früh, um zu sagen, welche Home-Assistenz-Option sich durchsetzen wird. Der deutsche Technologiekonzern zeigte auf der IFA 2017 Waschmaschinen (7), Backöfen und Kaffeemaschinen, die sich mit Echo verbinden lassen. Bosch möchte, dass seine Geräte künftig auch mit den Sprachplattformen von Google und Apple kompatibel sind.

7. Bosch-Waschmaschine, die eine Verbindung zu Amazon Echo herstellt

Unternehmen wie Fujitsu, Sony und Panasonic entwickeln ihre eigenen KI-gestützten Sprachassistentenlösungen. Sharp fügt diese Technologie zu Öfen und kleinen Robotern hinzu, die auf den Markt kommen. Nippon Telegraph & Telephone beauftragt Hardware- und Spielzeughersteller mit der Anpassung eines sprachgesteuerten künstlichen Intelligenzsystems.

Altes Konzept. Ist ihre Zeit endlich gekommen?

Tatsächlich gibt es das Konzept des Voice User Interface (VUI) schon seit Jahrzehnten. Jeder, der vor vielen Jahren Star Trek oder 2001: Odyssee im Weltraum gesehen hat, hat wahrscheinlich damit gerechnet, dass wir um das Jahr 2000 herum alle Computer mit unserer Stimme steuern würden. Darüber hinaus erkannten nicht nur Science-Fiction-Autoren das Potenzial dieser Art von Schnittstelle. Im Jahr 1986 fragten Nielsen-Forscher IT-Experten, was ihrer Meinung nach die größte Veränderung bei Benutzeroberflächen bis zum Jahr 2000 sein würde. Sie verwiesen am häufigsten auf die Entwicklung von Sprachschnittstellen.

Es gibt Grund zur Hoffnung auf eine solche Lösung. Verbale Kommunikation ist schließlich die natürlichste Möglichkeit für Menschen, bewusst Gedanken auszutauschen, daher scheint es derzeit die beste Lösung zu sein, sie für die Mensch-Maschine-Interaktion zu nutzen.

Einer der ersten VUIs namens Schuhkarton, wurde in den frühen 60er Jahren von IBM entwickelt. Es war der Vorläufer der heutigen Spracherkennungssysteme. Die Entwicklung von VUI-Geräten wurde jedoch durch die Grenzen der Rechenleistung begrenzt. Das Analysieren und Interpretieren menschlicher Sprache in Echtzeit erfordert viel Aufwand, und es dauerte mehr als fünfzig Jahre, bis dies tatsächlich möglich war.

Geräte mit Sprachschnittstelle tauchten Mitte der 90er Jahre erstmals in Massenproduktion auf, erfreuten sich jedoch nicht großer Beliebtheit. Das erste Telefon mit Sprachsteuerung (Wählfunktion) war Philips Spark, veröffentlicht im Jahr 1996. Dieses innovative und einfach zu bedienende Gerät war jedoch nicht frei von technologischen Einschränkungen.

Regelmäßig kamen andere Telefone auf den Markt, die mit Formen der Sprachschnittstelle ausgestattet waren (entwickelt von Unternehmen wie RIM, Samsung oder Motorola), die es Benutzern ermöglichten, per Sprachbefehl eine Nummer anzuwählen oder Textnachrichten zu senden. Sie alle erforderten jedoch das Auswendiglernen spezifischer Befehle und deren Aussprache in einer erzwungenen, künstlichen Form, angepasst an die Fähigkeiten der damaligen Geräte. Dies führte zu einer Vielzahl von Fehlern, die wiederum zu Unzufriedenheit bei den Nutzern führten.

Allerdings betreten wir jetzt ein neues Zeitalter der Datenverarbeitung, in dem Fortschritte im maschinellen Lernen und in der künstlichen Intelligenz das Potenzial der Konversation als neue Art der Interaktion mit Technologie eröffnen (8). Die Anzahl der Geräte, die Sprachinteraktion unterstützen, ist zu einem wichtigen Faktor geworden, der einen großen Einfluss auf die Entwicklung von VUI hatte. Bereits heute besitzt fast ein Drittel der Weltbevölkerung Smartphones, die für diese Art von Verhalten genutzt werden können. Es sieht so aus, als ob die meisten Benutzer endlich bereit sind, ihre Sprachschnittstellen anzupassen.

8. Moderne Geschichte der Entwicklung der Sprachschnittstelle

Bevor wir jedoch frei mit einem Computer sprechen können, wie es die Charaktere in „A Space Odyssey“ taten, müssen wir eine Reihe von Problemen überwinden. Maschinen sind immer noch nicht sehr gut darin, mit sprachlichen Nuancen umzugehen. Außerdem Viele Menschen fühlen sich immer noch unwohl, wenn sie einer Suchmaschine Sprachbefehle erteilen.

Statistiken zeigen, dass Sprachassistenten hauptsächlich zu Hause oder im engen Freundeskreis genutzt werden. Keiner der Befragten gab zu, die Sprachsuche an öffentlichen Orten zu nutzen. Diese Blockade wird jedoch wahrscheinlich mit der Verbreitung dieser Technologie verschwinden.

Technisch schwierige Frage

Das Problem von (ASR-)Systemen besteht darin, nützliche Daten aus einem Sprachsignal zu extrahieren und sie einem bestimmten Wort zuzuordnen, das für eine Person eine bestimmte Bedeutung hat. Die ausgesprochenen Laute sind jedes Mal unterschiedlich.

Sprachsignalvariabilität ist seine natürliche Eigenschaft, dank derer wir beispielsweise Akzent oder Intonation erkennen. Jedes Element des Spracherkennungssystems hat eine bestimmte Aufgabe. Basierend auf dem verarbeiteten Signal und seinen Parametern wird ein akustisches Modell erstellt, das dem Sprachmodell zugeordnet wird. Das Erkennungssystem kann auf der Grundlage einer kleinen oder großen Anzahl von Mustern arbeiten, die die Größe des Wörterbuchs bestimmen, mit dem es arbeitet. Sie können sein kleine Wörterbücher bei Systemen, die einzelne Wörter oder Befehle erkennen, sowie große Datenbanken enthält das Äquivalent eines Sprachsatzes und berücksichtigt das Sprachmodell (Grammatik).

Die Herausforderungen, vor denen Sprachschnittstellen stehen, sind in erster Linie Sprache richtig verstehen, in denen beispielsweise häufig ganze grammatikalische Abfolgen weggelassen werden, es zu sprachlichen und phonetischen Fehlern, Fehlern, Auslassungen, Sprachfehlern, Homonymen, ungerechtfertigten Wiederholungen etc. kommt. Alle diese ACP-Systeme müssen schnell und zuverlässig funktionieren. Zumindest ist das die Erwartung.

Eine Schwierigkeit besteht auch darin, dass neben der erkannten Sprache auch akustische Signale in den Eingang des Erkennungssystems gelangen, d. h. alle Arten Interferenzen und Lärm. Im einfachsten Fall braucht man sie Aussortieren. Diese Aufgabe erscheint routinemäßig und einfach – schließlich werden verschiedene Signale gefiltert und jeder Elektroniker weiß, was in einer solchen Situation zu tun ist. Dies muss jedoch sehr sorgfältig und sorgfältig erfolgen, wenn das Ergebnis der Spracherkennung unseren Erwartungen entsprechen soll.

Die derzeit verwendete Filterung ermöglicht es, neben dem Sprachsignal auch die vom Mikrofon aufgenommenen externen Geräusche und die internen Eigenschaften des Sprachsignals selbst zu entfernen, die die Erkennung erschweren. Ein wesentlich komplexeres technisches Problem entsteht jedoch, wenn die Störung des analysierten Sprachsignals ... ein anderes Sprachsignal ist, also beispielsweise laute Diskussionen in der Umgebung. Diese Frage ist in der Literatur als sogenanntes bekannt. Dies erfordert bereits den Einsatz komplexer Methoden, der sogenannten. Entfaltung (entschlüsselt) das Signal.

Die Probleme mit der Spracherkennung enden hier jedoch nicht. Es ist wichtig zu wissen, dass Sprache viele verschiedene Arten von Informationen enthält. Die menschliche Stimme deutet auf Geschlecht, Alter, unterschiedliche Charaktere des Besitzers oder seinen Gesundheitszustand hin. Es gibt einen großen Zweig der biomedizinischen Technik, der sich der Diagnose verschiedener Krankheiten auf der Grundlage der charakteristischen akustischen Phänomene im Sprachsignal widmet.

Es gibt auch Anwendungen, bei denen der Hauptzweck der akustischen Analyse eines Sprachsignals darin besteht, den Sprecher zu identifizieren oder zu überprüfen, ob er der ist, für den er sich ausgibt (Stimme statt Schlüssel, Passwort oder PUK-Code). Dies könnte insbesondere für intelligente Gebäudetechnologien wichtig sein.

Die erste Komponente eines Spracherkennungssystems ist микрофон. Das vom Mikrofon aufgenommene Signal bleibt jedoch meist von geringem Nutzen. Untersuchungen zeigen, dass Form und Verlauf der Schallwelle je nach Person, Sprechgeschwindigkeit und teilweise auch der Stimmung des Gesprächspartners stark variieren – während sie in geringem Maße den eigentlichen Inhalt der gesprochenen Befehle widerspiegeln.

Daher muss das Signal korrekt verarbeitet werden. Moderne Akustik, Phonetik und Informatik bieten zusammen eine Fülle von Werkzeugen, mit denen Sprachsignale verarbeitet, analysiert, erkannt und verstanden werden können. Das dynamische Spektrum des Signals, das sogenannte dynamische Spektrogramme. Sie sind recht einfach zu erhalten, und Sprache, dargestellt in Form eines dynamischen Spektrogramms, ist mit Techniken, die denen der Bilderkennung ähneln, relativ leicht zu erkennen.

Einfache Sprachelemente (z. B. Befehle) lassen sich an der einfachen Ähnlichkeit ganzer Spektrogramme erkennen. Beispielsweise enthält ein sprachaktiviertes Mobiltelefonwörterbuch nur einige Dutzend bis einige Hundert Wörter und Phrasen, die normalerweise so voreingestellt sind, dass sie leicht und effizient identifiziert werden können. Für einfache Steuerungsaufgaben ist dies ausreichend, schränkt die Gesamtanwendung jedoch stark ein. Nach dem Schema aufgebaute Systeme unterstützen in der Regel nur bestimmte Sprecher, für die die Stimmen speziell trainiert sind. Wenn es also jemanden Neues gibt, der seine Stimme zur Steuerung des Systems nutzen möchte, wird er höchstwahrscheinlich nicht akzeptiert.

Das Ergebnis dieser Operation wird aufgerufen Spektrogramm 2-W, also ein zweidimensionales Spektrum. In diesem Block gibt es noch eine weitere Lektion, die es wert ist, beachtet zu werden: Segmentierung. Im Allgemeinen handelt es sich um die Aufteilung eines kontinuierlichen Sprachsignals in einzeln erkennbare Teile. Erst diese Einzeldiagnosen machen das Erkennen des Ganzen aus. Dieses Verfahren ist notwendig, da es unmöglich ist, lange und komplexe Sprache auf einmal zu identifizieren. Es wurden bereits ganze Bände darüber geschrieben, welche Segmente in einem Sprachsignal unterschieden werden sollten, daher werden wir jetzt nicht entscheiden, ob die zu unterscheidenden Segmente Phoneme (Lautäquivalente), Silben oder vielleicht Allophone sein sollen.

Der automatische Erkennungsprozess bezieht sich immer auf bestimmte Merkmale von Objekten. Hunderte verschiedener Parametersätze wurden für das Sprachsignal getestet. Das Sprachsignal hat in erkannte Frames unterteilt und haben ausgewählte Funktionenwodurch diese Frames im Erkennungsprozess dargestellt werden, den wir durchführen können (für jeden Frame separat) Klassifikation, d.h. Weisen Sie dem Frame eine Kennung zu, die ihn in Zukunft darstellen wird.

Die nächste Stufe Zusammensetzen von Rahmen zu einzelnen Wörtern - meistens auf der Grundlage der sogenannten. Modell der impliziten Markov-Modelle (HMM-). Dann kommt die Wortmontage vollständige Sätze.

Jetzt können wir für einen Moment zum Alexa-System zurückkehren. Sein Beispiel zeigt einen mehrstufigen Prozess des maschinellen „Verstehens“ eines Menschen – genauer: des von ihm gegebenen Befehls oder der gestellten Frage.

Das Verstehen von Wörtern, das Verstehen der Bedeutung und das Verstehen der Benutzerabsicht sind völlig unterschiedliche Dinge.

Daher ist der nächste Schritt die Arbeit des NLP-Moduls (), dessen Aufgabe darin besteht Erkennung der Benutzerabsicht, d.h. die Bedeutung des Befehls/der Frage in dem Kontext, in dem er/sie gesprochen wurde. Wenn die Absicht erkannt wird, sollten Sie dies tun Zuordnung sogenannter Fertigkeiten und Fähigkeiten, also eine bestimmte Funktion, die vom intelligenten Assistenten unterstützt wird. Bei einer Frage zum Wetter werden Wetterdatenquellen aufgerufen, die noch in Sprache verarbeitet werden müssen (TTS – Mechanismus). Als Ergebnis hört der Benutzer die Antwort auf die gestellte Frage.

Stimme? Grafik? Oder vielleicht beides?

Die meisten bekannten modernen Interaktionssysteme basieren auf einem sogenannten Intermediär grafische Benutzeroberfläche (grafische Oberfläche). Leider ist eine grafische Oberfläche nicht die naheliegendste Möglichkeit, mit einem digitalen Produkt zu interagieren. Dies erfordert, dass Benutzer zunächst den Umgang mit der Benutzeroberfläche erlernen und sich diese Informationen bei jeder weiteren Interaktion merken. In vielen Situationen ist die Spracheingabe viel bequemer, da die Interaktion mit dem VUI genauso einfach ist wie das Sprechen mit dem Gerät. Eine Schnittstelle, die Benutzer nicht dazu zwingt, sich bestimmte Befehle oder Interaktionsmethoden zu merken und zu merken, verursacht weniger Probleme.

Natürlich bedeutet die Erweiterung von VUI nicht die Abkehr von traditionelleren Schnittstellen – vielmehr werden hybride Schnittstellen verfügbar sein, die mehrere Interaktionsmethoden kombinieren.

Die Sprachschnittstelle ist nicht für alle Aufgaben im mobilen Kontext geeignet. Damit rufen wir einen Freund an, der ein Auto fährt, und senden ihm sogar eine SMS, aber das Überprüfen der letzten Überweisungen kann zu schwierig sein - aufgrund der Menge an Informationen, die an das System () übertragen und vom System (System) generiert werden. Wie Rachel Hinman in ihrem Buch Mobile Frontier vorschlägt, ist die Verwendung von VUI am effektivsten, wenn Aufgaben ausgeführt werden, bei denen die Menge an Eingabe- und Ausgabeinformationen gering ist.

Ein mit dem Internet verbundenes Smartphone ist praktisch, aber auch unbequem (9). Jedes Mal, wenn ein Benutzer etwas kaufen oder einen neuen Dienst nutzen möchte, muss er eine andere Anwendung herunterladen und ein neues Konto erstellen. Hier wurde ein Feld für den Einsatz und die Entwicklung von Sprachschnittstellen geschaffen. Anstatt Benutzer zu zwingen, viele verschiedene Apps zu installieren oder separate Konten für jeden Dienst zu erstellen, wird VUI die Last dieser mühsamen Aufgaben auf einen KI-gestützten Sprachassistenten verlagern, sagen Experten. Es wird für ihn bequem sein, anstrengende Aktivitäten auszuführen. Wir werden ihm nur Befehle erteilen.

9. Sprachschnittstelle mit einem Smartphone

Heutzutage sind mehr als nur Ihr Telefon und Ihr Computer mit dem Internet verbunden. Auch intelligente Thermostate, Lichter, Wasserkocher und viele andere IoT-integrierte Geräte sind mit dem Netzwerk verbunden (10). Es gibt also überall um uns herum drahtlos verbundene Geräte, die unser Leben ausfüllen, aber nicht alle passen auf natürliche Weise in eine grafische Benutzeroberfläche. Mithilfe von VUI können Sie diese problemlos in unsere Umgebung integrieren.

10. Sprachschnittstelle mit Internet der Dinge

Die Erstellung einer sprachbasierten Benutzeroberfläche wird bald zu einer Schlüsselkompetenz für Designer werden. Dies ist eine echte Herausforderung – die Notwendigkeit, Sprachsysteme zu implementieren, zwingt Sie dazu, sich mehr auf proaktives Design zu konzentrieren, d. h. auf den Versuch, die ursprünglichen Absichten des Benutzers zu verstehen und seine Bedürfnisse und Erwartungen in jeder Phase des Gesprächs zu antizipieren.

Sprache ist eine effektive Methode zur Dateneingabe – sie ermöglicht es Benutzern, dem System schnell und nach ihren eigenen Vorstellungen Befehle zu erteilen. Andererseits bietet der Bildschirm eine effiziente Möglichkeit zur Anzeige von Informationen: Er ermöglicht es Systemen, eine große Menge an Informationen gleichzeitig anzuzeigen, wodurch die Belastung des Benutzerspeichers verringert wird. Es ist logisch, dass die Kombination in einem System ermutigend klingt.

Intelligente Lautsprecher wie Amazon Echo und Google Home bieten überhaupt keine visuelle Anzeige. Indem sie die Genauigkeit der Spracherkennung über mittlere Entfernungen erheblich verbessern, ermöglichen sie einen freihändigen Betrieb, was wiederum ihre Flexibilität und Effizienz erhöht – wünschenswert sogar für Benutzer, die bereits über sprachgesteuerte Smartphones verfügen. Allerdings stellt das Fehlen eines Bildschirms eine große Einschränkung dar.

Nur Pieptöne können verwendet werden, um Benutzer über mögliche Befehle zu informieren, und das laute Vorlesen der Ausgabe wird, abgesehen von den einfachsten Aufgaben, mühsam. Das Einstellen eines Timers per Sprachbefehl während des Kochens ist großartig, es ist jedoch nicht notwendig, Sie zu fragen, wie viel Zeit noch übrig ist. Der Empfang einer regelmäßigen Wettervorhersage wird für den Benutzer zu einem Gedächtnistest, der die ganze Woche damit verbringen muss, zuzuhören und eine Reihe von Fakten zu verarbeiten, anstatt sie auf einen Blick auf dem Bildschirm zu erfassen.

Designer haben bereits entwickelt Hybridlösung, Echo Show (11), das dem grundlegenden Echo-Smart-Lautsprecher einen Bildschirm hinzufügte. Dadurch wird die Funktionalität der Geräte deutlich erweitert. Allerdings ist der Echo Show immer noch deutlich weniger in der Lage, die Grundfunktionen zu erfüllen, die auf Smartphones und Tablets längst verfügbar sind. Es kann beispielsweise (noch) nicht im Internet surfen, Bewertungen anzeigen oder den Inhalt Ihres Amazon-Warenkorbs anzeigen.

Visuelle Darstellungen sind von Natur aus eine effektivere Möglichkeit, Menschen mit vielen Informationen zu versorgen, als nur mit Ton. Voice-First-Design kann die Sprachinteraktion erheblich verbessern, aber auf lange Sicht ist der willkürliche Verzicht auf visuelle Menüs zum Zweck der Interaktion so, als würde man mit einer auf dem Rücken gefesselten Hand kämpfen. Aufgrund der drohenden Komplexität durchgängiger intelligenter Sprach- und Anzeigeschnittstellen sollten Entwickler ernsthaft über einen hybriden Schnittstellenansatz nachdenken.

Die Steigerung der Effizienz und Geschwindigkeit von Spracherzeugungs- und -erkennungssystemen hat deren Einsatz in folgenden Anwendungen und Bereichen möglich gemacht:

• Militär (Sprachbefehle in Flugzeugen oder Hubschraubern, zum Beispiel F16 VISTA),

• automatische Texttranskription (Speech to Text),

• interaktive Informationssysteme (Prime-Speech, Sprachportale),

• mobile Geräte (Telefone, Smartphones, Tablets),

• Robotik (Cleverbot – ASR-Systeme kombiniert mit künstlicher Intelligenz),

• Automotive (freihändige Steuerung von Autokomponenten, zum Beispiel Blue & Me),

• Heimanwendungen (Smart-Home-Systeme).

Bleib sicher!

Automobile, Haushaltsgeräte, Heizungs-/Kühl- und Haussicherheitssysteme sowie viele Haushaltsgeräte beginnen, Sprachschnittstellen zu nutzen, oft mit KI-Unterstützung. In dieser Phase werden Daten aus Millionen von Gesprächen mit Maschinen an gesendet Computing-Clouds. Es ist klar, dass Vermarkter an ihnen interessiert sind. Und nicht nur sie.

Ein aktueller Bericht von Symantec-Sicherheitsexperten empfiehlt, dass Benutzer von Sprachbefehlen keine Sicherheitsfunktionen wie Türschlösser steuern sollten, geschweige denn Heimsicherheitssysteme. Das Gleiche gilt für die Speicherung von Passwörtern oder vertraulichen Informationen. Die Sicherheit künstlicher Intelligenz und smarter Produkte ist noch nicht ausreichend untersucht.

Wenn Geräte im ganzen Haus auf jedes Wort hören, wird das Risiko von Hackerangriffen und Systemmissbrauch zu einem äußerst wichtigen Problem. Wenn ein Angreifer Zugriff auf das lokale Netzwerk oder zugehörige E-Mail-Adressen erhält, können die Einstellungen des Smart-Geräts geändert oder auf die Werkseinstellungen zurückgesetzt werden, was zum Verlust wertvoller Informationen und zur Löschung des Benutzerverlaufs führt.

Mit anderen Worten: Sicherheitsexperten befürchten, dass sprachgesteuerte und VUI-gesteuerte KI noch nicht intelligent genug ist, um uns vor potenziellen Bedrohungen zu schützen und den Mund zu halten, wenn ein Fremder etwas fragt.