Heute etwas verspieltes mit Sprachausgaben:
Sprachausgaben (Text to Speech) kennt ihr wahrscheinlich durch Sprachassistenten wie Siri, Hotline-Ansagen oder inzwischen auch durch die vielen KI-Angebote. Auf dem iPhone könnt ihr durch die folgenden Schritte Stimmen ausprobieren und euch Text vorlesen lassen:
- Einstellungen
- Bedienungshilfen
- Gesprochene Inhalte (Support-Artikel)
- Stimmen
- Deutsch (Deutschland) oder andere beliebige Sprache
Die männliche Siri-Stimme hat einen besonders beflissenen Tonfall.
Bei Sprachausgaben lassen sich grob zwei Richtungen ausmachen:
- Realistisches Ideal: Wollen möglichst menschlich, nuanciert und natürlich klingen, modernere Entwicklung
- Minimalistisch: Klingen sehr künstlich, wurden auf Effizienz hin optimiert, traditionelle Entwicklung
Die meisten Stimmen auf dem iPhone entstammen der moderneren Entwicklungslinie und funktionieren ein bisschen wie Midi-Soundfonts:
- Entwicklung: Laute werden in verschiedenen Lautstärken, Tonhöhen, Betonungen, auf- und absteigend etc. aufgenommen.
- Verwendung: Aufgenommene Laute werden entsprechend dem Text aus dem Speicher gelesen und zusammengesetzt.
Die traditionelle Linie basiert auf dem Prinzip der Formantsynthese:
- Die von sprechenden Menschen produzierten Laute (Phoneme) haben jeweils ein charakteristisches Obertonspektrum.
- Sprachausgaben mit Formantsynthese berechnen und generieren diese Frequenzspektren direkt mit Grund- und Obertönen wie ein Synthesizer, statt Tonschnipsel aus dem Speicher abzuspielen.
- Mit einem Sound-Editor wie Audacity könnt ihr auch Sinustöne im Oktav- oder Quintabstand übereinanderlegen und feststellen, dass kein Intervall dabei herauskommt, sondern eine neue Klangfarbe.
Auf dem iPhone befinden sich in neueren iOS-Versionen auch die Eloquence-Stimmen, die dieser Entwicklungslinie angehören. Damit ging ein Wunsch vieler blinder User in Erfüllung. Intuitiv würden viele Leute davon ausgehen, dass die moderne Variante immer zu bevorzugen sei. Der Klang bei Formantsynthese ist tatsächlich wesentlich informationsärmer, monotoner, weniger reichhaltig oder vielschichtig. Das macht ihn aber auch deterministischer (phoneme und Silben klingen immer gleich), was das Gehirn bei der Informationsverarbeitung entlastet. Viele Blinde können mit genügend Übung in sehr hohem Tempo von einer Formantsynthese-Stimme gesprochenen Text verstehen. Das fühlt sich im Kopf irgendwann wirklich mehr an wie Lesen statt Hören. Als ob die Silben vor dem inneren Auge oder dem Finger vorbeisausen würden. Schöne Betonung kann man sich selbst dazudenken, falls nötig. Deshalb lieben viele von uns diese Stimmen. Es war für Sehende oft schwer begreiflich zu machen, aber zum Glück gibt es inzwischen Forschung, die zeigt, dass dabei Teile des primären visuellen Cortex genutzt werden:
Mit solchen Stimmen kann man aber auch spielen und an den Klangparametern herumschrauben. Ein Bekannter von mir hat in den 2000ern eine kleine Hörspielserie nur mit Sprachausgaben produziert, also lange vor dem KI-Hype. Darin hat er seine Blista-Ausbildungszeit satirisch verarbeitet. Als Kind habe ich mit einem sehenden Kind — nennen wir es mal Schlingel — manchmal etwas gespielt, was diesem Kind sehr viel Spaß gemacht hat. Wir haben mit der Sprachausgabe Gedichte vorgelesen und für manche wiederkehrenden Wörter eine andere Aussprache im Screen Reader einprogrammiert. Beim Erlkönig wurde z.B. für „Kind“ der Name des sehenden Kindes gesprochen, und bei „Erlkönig“ „Erlenmeyerkolben.“ Für das Kind lag der Spaßfaktor wahrscheinlich darin, sein Gehirn mit widersprüchlicher Information zu konfrontieren und so gezielt zu irritieren (lesen und hören). Das hat fast eine gewisse Ähnlichkeit zum Stroop-effekt. Hier ist ein Klangbeispiel:
Wer reitet so spät durch Nacht und Wind?
Es ist der Vater mit seinem Kind;
Er hat den Knaben wohl in dem Arm,
Er fasst ihn sicher, er hält ihn warm.
Mein Sohn, was birgst du so bang dein Gesicht? –
Siehst, Vater, du den Erlkönig nicht?
Den Erlenkönig mit Kron’ und Schweif? –
Mein Sohn, es ist ein Nebelstreif. –
„Du liebes Kind, komm, geh mit mir!
Gar schöne Spiele spiel’ ich mit dir;
Um den Quatsch hier aufzunehmen und zu schneiden, habe ich u.a. Audio Hijack verwendet. Die Entwickler machen bei ihren Apps meistens einen vorbildlichen Job in Sachen Zugänglichkeit. Ich lade hier keine Klangbeispiele mit meiner eigenen Stimme oder personenbezogenen Informationen hoch.