12. September 2021, 23:00 Uhr

Karlsruhe | „Sie haben Ihr Ziel erreicht“: Das verkünden manche Auto-Navis, wenn sie uns zur richtigen Adresse geleitet haben. Auch wenn du in dich in einer Stadt noch nicht auskennst, hilft dir eine Navigations-App, den richtigen Weg zu finden. Du fragst das Telefon, wie du zu einem Ort kommst, und die Stimme erklärt, wo du langlaufen sollst.

Text wird in Sprache umgewandelt

Aber wie kommt diese Stimme ins Navi? Muss dafür ein Mensch all die Sätze und Wegbeschreibungen aufnehmen? Die meisten Navigations-Apps und Sprachassistenten nutzen heute mit dem Computer erstellte künstliche Stimmen. Damit die das Richtige sagen, wird eine Technik eingesetzt, die Text-to-Speech heißt. Das ist Englisch und bedeutet: Der Text wird in Sprache umgewandelt.

Die App sucht also die Wegbeschreibung für dich und wandelt sie in Informationen um, die der Computer vorlesen kann.

Töne werden elektronisch erzeugt

Doch das Vorlesen muss ein Computer erst lernen. Alexander Waibel weiß, wie das geht. Der Professor arbeitet am Karlsruher Institut für Technologie. „Wenn wir sprechen, bewegen wir unseren Mund und unsere Stimmbänder, um Töne zu erzeugen“, sagt er. Ein Computer kann das nicht. Man kann aber Töne elektronisch erzeugen.

„Damit ein vom Computer gesprochenes A wie ein A klingt, lernt die Maschine mit vielen Ton-Beispielen, welche Töne zu welchem Wort gehören“, erklärt der Experte. „Sie lernt, wann Wortteile kurz, wann sie lang ausgesprochen werden und sogar, wie sie betont werden müssen“, sagt er.

Wie ein Kind, das gerade lesen lernt

„Man kann sich das so vorstellen wie ein Kind, das gerade lesen lernt“, meint Hannah Samland von Google. Die Navigations-App des Unternehmens wird auf vielen Handys verwendet. „So wie die Eltern ihren Kindern die Worte immer wieder vorsagen, lernt auch der Computer, wie ein Wort richtig klingt.“

Damit du die Fragen nicht eintippen musst, muss die Maschine aber auch verstehen, was du gesagt hast. „Dafür lernt der Computer, die Stimme des sprechenden Menschen zu verstehen und in Text zu übersetzen“, erklärt Professor Waibel. Spracherkennung heißt das. „Wenn der Computer das kann, muss er noch lernen, wie er auf die Frage reagieren soll“, sagt der Fachmann. Der Computer sucht, ob er die passende Antwort bereits kennt. Wenn ja, wandelt er diese wieder in Sprache um.dpa