Sprachcomputer erkennen User-Emotionen:
Prägen multimodale Endgeräte die Zukunft?

An Call Centern und dem Einsatz von Sprachcomputern führt für viele Unternehmen kein Weg mehr vorbei. Wettbewerbsdruck, der Zwang zur Service-Automatisierung und der Preisverfall in der Telekommunikation tragen hierzu einen großen Teil bei. Außerdem machen Wissenschaftler einen natürlichen Hang der Menschen zum Self-Service aus. Sprachverarbeitende Technologie werde in der Servicegesellschaft eine noch größere Rolle spielen, ist der Kommunikationswissenschaftler Norbert Bolz überzeugt.

Das gilt auch wenn der Voice-Self-Service dem Kunden eine andere emotionale Einstellung abverlange als das Agieren im Internet, wo man genau wisse, dass man mit einem Programm in Dialog trete. "Gerade weil die Erwartungen an die menschliche Stimme so groß sind, weil man sie unmittelbar mit Gefühl, mit Menschlichkeit, mit Echtheit assoziiert, ist die Enttäuschung über ein schlechtes Programm oft gewaltig. Ich bin überzeugt, wir alle haben schon derartige Erfahrungen gemacht", sagt Bolz.

"Akzente werden gut abgefangen"
Lupo Pape, Geschäftsführer von SemanticEdge, erklärte im Interview mit dem Deutschlandfunk, was moderne Spracherkennung leistet: "Die Akzente werden sehr gut abgefangen. Das Programm kann ungefähr 50.000 bis 100.000 Worte verstehen." Natürlich sei eine eindeutige Formulierung nötig, denn wenn man anstelle von Kontostand sagt 'Was ist drauf?', so stellt das für eine Applikation ein Verständnisproblem dar. Dem erkennenden Programm und der dahinterliegenden Grammatik müsse klar sein, dass die Frage 'Was ist drauf?' ein Synonym für Kontostand ist, erläutert Pape

Erkennung der User-Emotionen
Nach Erfahrungen von Elmar Nöth vom Lehrstuhl für Mustererkennung der Universität Erlangen-Nürnberg habe sich die Sprachdialogtechnik über die pure Spracherkennung hinaus weiter entwickelt und punkte sogar mit Emotionserkennung, die auch viele Unternehmen für den automatisierten Kundenkontakt für sich entdeckt hätten. Dabei gebe es mehrere Stufen. "Von Benutzereingaben per Tastatur über die Erkennung von Ziffern und Einzelwörtern zu der dritten Stufe, dem natürlich-sprachlichen Dialog ohne feste Menüstruktur, wobei das Dialogsystem ganze Sätze versteht. Es geht sogar soweit, dass das Dialogsystem den emotionalen Benutzerzustand erkennt und darauf reagieren kann, um den Dialog natürlicher zu gestalten", so Nöth. Emotionserkennung mache den Dialog mit der Maschine menschlicher, so sein Resümee. Weit fortgeschritten ist beispielsweise der multilinguale Kundenservice von T-Mobile. Er erkennt das Alter, das Geschlecht, die Sprache und die aktuelle Stimmung. Ziel dieses Projektes ist es, den Kunden mittels adaptiver Sprachdialoge individuell anzusprechen und ihn mit kundenspezifischen Angeboten zu begeistern.

"Multimodaler Dialog" bald auf mobilen Endgeräten?
"Natürlich-sprachliche Interfaces werden immer intelligenter, nutzerfreundlicher und bald um eine grafisches Ebene ergänzt", meint Pape. Er sieht die Sprachtechnologie nicht nur in Sachen telefonischer Kundenkontakt weiter im Aufwind. Das Stichwort heißt Multimodalität bei der Steuerung von Geräten. "Das heißt, das Voice-Interface wird ergänzt durch ein grafisches Interface. Das Internet und die Sprachschnittstelle wachsen zusammen zu einem multimodalen Dialog." Diese Fähigkeiten werden künftig in mobilen Endgeräten zu finden sein und völlig neue Arten von Mensch-Maschine-Interaktion darstellen. "Man nutzt die Stärken des grafischen Interfaces kombiniert mit den Stärken der Sprache. Wenn ich im Auto unterwegs bin, spreche ich. Wenn ich in der U-Bahn meine Ruhe haben will, dann nutze ich das grafische Interface", so Pape. Am besten sei es jedoch, man benutzt beide Modalitäten gleichzeitig. (pte/red)