ComPharm

Willste fliegen? Oh ja!: Chancen und Grenzen der Spracherkennung

Noch vor wenigen Jahren kosteten professionelle Spracherkennungs-Systeme für den Computer bis zu 30 000 DM und mehr. Heute stehen brauchbare Systeme bereits für ein paar Hundert Mark zur Verfügung. Doch was taugen moderne Spracherkennungs-Programme im Einzelnen und bieten sie für den PC-User wirklich den erhofften Komfort?

Der Traum vom sprachgesteuerten Rechensklaven

Tastatur und Monitor sind derzeit zweifelsohne die wichtigsten und somit am häufigsten genutzten Ein- und Ausgabegeräte für den PC-Nutzer. Doch die Eingabe via Tastatur und die Ausgabe über Monitor sind weiß Gott nicht der Weisheit letzter Schluss. Wäre es nicht viel schöner, könnte man mit seinem Rechensklaven einfach über Umgangssprache kommunizieren, wie man dies aus Gesprächen mit Freunden, Kollegen und Bekannten gewohnt ist? "Hi Compi! Wie geht's denn heute?" "Es geht so. Meine Festplatte quillt über und mein Monitor ist mit einem dicken Staubfilm überzogen! Könntest Du ihn bitte ENDLICH reinigen?!" So oder so ähnlich könnte eine von restriktiven Normen befreite Kommunikation mit dem PC künftig vielleicht ablaufen. Kein Vertippen, keine unflexiblen Routinen, nichts dergleichen.

Aber um es gleich vorwegzunehmen: Bis es so weit ist, dass der Computer die gesprochene Umgangssprache wirklich "versteht", werden sehr wahrscheinlich noch einige Jahre, vielleicht sogar Jahrzehnte, vergehen. Utopisch ist die Sache jedoch keinesfalls. Denn die Spracherkennung hat in den letzten Jahren enorme Fortschritte gemacht. Wer jedoch denkt, er bräuchte heutzutage lediglich ein paar Hundert oder Tausend Mark für ein leistungsfähiges Spracherkennungs-Programm auf die Ladentheke zu legen und erhielte dafür ein Equipment für eine schnelle, fehler- und problemfreie Sprachkommunikation mit seinem Computer, der irrt sich gewaltig.

Spracherkennungs-Systeme – was sie können und was nicht

Um es gleich vorwegzunehmen: Spracherkennung ist ein sehr komplexes und schwieriges Aufgabengebiet. Denn es kann nicht nur darum gehen, ein System zu entwickeln, das technisch in der Lage ist, gesprochene Worte zu erkennen, vielmehr muss dieses System in die Lage versetzt werden, die Aussagekraft von gesprochenen Wörtern zu "verstehen"! Psychologen, Sprachwissenschaftler und Informatiker müssen Hand in Hand arbeitend minuziös das menschliche Sprachverständnis analysieren, um dieses sodann auf eine tote Maschine namens Computer zu übertragen.

Wie schwierig manchmal die Interpretation gesprochener Worte und Sätze sein kann, soll der Satz "der gefangene floh" verdeutlichen. Stellen Sie sich vor, Sie sprechen den besagten Satz in Ihren Computer. Phonetisch heißt der Satz schlicht und ergreifend: "der gefangene floh"! Doch was meint der Sprecher mit seiner Aussage genau? Meint er etwa, dass ein hinter Gitter einsitzender Gefangener aus seinem Kerker entflohen ist ("der Gefangene floh") oder meint er einen kleinen Blutsauger, der bedauerlicherweise gefangen ist und sich somit nicht mehr frei bewegen kann ("er gefangene Floh")?

Viele Sätze unserer menschlichen Sprache ergeben nur kontextbezogen (also im Zusammenhang) einen Sinn. Das heißt, ein gesprochenes Wort oder ein gesprochener Satz alleine ist nicht immer und unter allen Umständen eindeutig. Die richtige Interpretation von Wörtern und Sätzen kann somit oft nur im Zusammenhang erfolgen. Und damit wären wir bei dem Stichwort: "Intelligenz"!

Kein Wunder, dass heutige Spracherkennungs- Systeme sich schwer tun, komplette Sätze zu "verstehen"? Schließlich steckt das Gebiet der künstlichen Intelligenz (KI) noch mehr oder weniger in den Kinderschuhen. Und solange es so ist, wird es auch mit der Spracherkennung nur in einem mäßigen Tempo vorangehen. Dennoch: Ein Fortschritt ist es allemal, wenn heutige Voice-Systeme bereits etwa 40 000 Wörter erkennen können – wenn man auch der Ehrlichkeit halber hinzufügen muss, die deutsche Sprache verfügt über mehr als eine Million Vokabeln... Diese Zahl relativiert natürlich recht schnell die Fähigkeiten von Spracherkennungs- Systemen und deren Einsatzmöglichkeiten in der Praxis.

Spracherkennung in der Praxis

Training, Training, Training – dies ist das erste Gebot für alle PC-Anwender, die mit ihrem Spracherkennungs-System bei ihrer täglichen Arbeit Erfolge erzielen wollen. Das System muss sich nämlich in der Regel erst an die Stimme des Sprechers gewöhnen, bevor es aufs Wort gehorcht – wenn es denn gehorcht... die sog. "Erkennungsrate" von Voice-Systemen liegt zur Zeit bei rund 90 bis 95 Prozent. Das bedeutet im Klartext: Aus der rund eine Million Vokabeln der deutschen Sprache kennt ein Spracherkennungs-System ohnehin nur rund 40 000, und selbst diese erkennt es nur mit einer Trefferquote von 90 bis 95 Prozent...

In puncto Bedienungskomfort sind die meisten heute am Markt verfügbaren Systeme im Vergleich zu früheren Softwareprodukten allerdings deutlich anwenderfreundlicher geworden. Die noch vor einigen Jahren übliche und lästige, so genannte "diskrete" Spracheingabe, bei der nach jedem Wort eine Pause gemacht werden musste, damit der Rechner die Möglichkeit erhielt, die gesprochenen Worte zu "verstehen", ist ein Relikt aus grauer Vorzeit. Moderne Voice-Systeme akzeptieren heutzutage die kontinuierliche Spracheingabe, also die flüssige Spracheingabe ohne lästige Pausen.

Und nun zur Frage: Wem nützen eigentlich Spracherkennungssysteme, und wo können sie wirklich sinnvoll eingesetzt werden? Eines vorweg: Je spezifischer bzw. je umfangreicher der Wortschatz des jeweiligen Anwenders, umso schwieriger wird es mit dem sinnvollen Einsatz einer Spracherkennungs- Software. Apotheker, Ärzte, Wissenschaftler ja selbst Handwerker dürften unter Umständen massive Probleme bekommen, denn keine Spracherkennungs- Software der Welt wird in ihrem Standardwortschatz Begriffe wie "Acetylsalicylsäure", "Appendix", "Krikotomie" oder "Doppelvergaser" beinhalten. Allerdings: Moderne Spracherkennungs-Programme sind durchaus lernfähig. Das heißt: Wer bei seiner Arbeit regelmäßig mit einem spezifischen, dafür aber fest umrissenen Wortschatz umgeht, kann sein Sprach-System mit der Zeit seinen individuellen Bedürfnissen anpassen.

Ein Einsatzgebiet der Spracherkennung gibt es bereits heute dort, wo Voice-Systeme dem Computer-Nutzer eine echte Arbeitserleichterung bieten. Die Rede ist von der Sprachsteuerung. Statt sich mühsam mit der Maus durch verzweigte Menü-Verästelungen zu hangeln gilt es, Dateien mit einem einzigen Wort zu öffnen oder zu schließen, Korrekturen an ihnen durchzuführen etc. Das bedeutet eine wirkliche Erleichterung und obendrein eine signifikante Zeitersparnis. Doch auch im Bereich der Sprachsteuerung gilt der Satz: Keine Rose ohne Dornen. Denn die Vorteile der Sprachsteuerung bezahlt der Anwender nicht selten mit einer mehr oder weniger langen Umgewöhnungs- Phase, während derer er die Kommandos seiner Software Schritt für Schritt lernen muss.

Fazit

So heil wie es sich viele PC-Anwender gerne wünschen würden, ist die Welt der computergestützten Spracherkennung derzeit leider (noch) nicht. Störend macht sich selbst bei modernen Voice-Systemen u.a. der doch recht beschränkte Wortschatz der auf dem Markt verfügbaren Lösungen bemerkbar. Mit einer Bibliothek von rund 40000 Wörtern lassen sich jedoch konventionelle Texte, Geschäftsbriefe etc. durchaus effizient in den PC diktieren. Ebenso eignet sich computergestützte Spracherkennung zur Steuerung von Programmen wie Textverarbeitung, Tabellenkalkulation etc. Viele der heute auf dem Markt verfügbaren Systeme müssen jedoch erst (mehr oder minder umständlich) angelernt werden, bevor sie dann später sinnvoll eingesetzt werden können.

Doch selbst wenn die Einlernphase erfolgreich abgeschlossen wurde, sind "Herr" (Anwender) und "Knecht" (Computer) vor "Missverständnissen" nicht immer gefeit. Wie solche "Missverständnisse" beim praktischen Einsatz eines Spracherkennungs-Systems in etwa aussehen könnten, soll der folgende kleine Witz verdeutlichen: "Willste fliegen?" "Oh ja!" "Gut, ich fang dir'n paar!"

Laszlo Kreisz

DAZ 1999, Nr. 36, S. 59, 05.09.1999

Seite drucken

Startseite