KI-Gestützte Vorlesefunktion

Michael

24. Januar 2025

Insights

Diesen Beitrag vorlesen lassen.

0:00 / 3:38

Im Zuge einiger Kundenanfragen fanden wir heraus, dass die im Browser eingebauten Vorlesefunktionen nicht brauchbar sind. Nun haben wir mittels dem KI-Dienst ElevenLabs eine Vorlesefunktion für unsere WordPress Kunden entwickelt.

Einmal erzeugen, mehrfach abspielen

Um für uns und unsere Kunden für Kostensicherheit zu sorgen, wählten wir einen von zwei möglichen Ansätzen. Wir erzeugen über die Schnittstelle eine MP3 Audiodatei im Hintergrund, sobald ein Beitrag oder eine Seite bereit ist aufgeschaltet zu werden. Das hat ein paar Vorteile:

Der vorzulesende Text kann besser verändert werden, bevor er an die Schnittstelle geschickt wird. So können wir sicherstellen, dass Abkürzungen wie „zum Beispiel“ korrekt vorgelesen werden, egal wie sie im Text erfasst sind.
Für unseren Kunden haben wir in der Beröa Leselounge unter anderem die Anforderung, dass Bibelstellen fliessend und natürlich aufgezählt werden. So wandeln wir „(1. Mo 2,22-25)“ vorab um in den Fliesstext „erste Mose, Kapitel 2, Verse 22 bis 25“. Sonst bekommt man für Spezialfälle wie diesen nicht immer ein gutes Resultat.
Die Kosten für die Erzeugung sind berechenbar. So zeigen wir im CMS an, wie viel dies kostet und lassen es optional, die Audio-Datei überhaupt zu erzeugen. Einmal erzeugt ist die Audio-Datei auf unserem Server. Beim Abspielen entstehen keine weiteren Kosten. Für weiteres Abspielen gehört die Datei uns und wir sind unabhängig vom genutzten Dienst.

Die Alternative wäre, keine initiale Erzeugung von Audio-Dateien. Elevenlabs bietet die Möglichkeit, das Audio erst zu erzeugen, wenn es benötigt wird (Streaming). Dies geht mit einer kurzen Verzögerung einher, ausserdem lässt sich das Audio so nicht lokal speichern, womit sukzessive laufende Kosten entstehen, die nicht immer vorhersehbar sind.

Ein Nachteil ist, dass man sich einmal auf eine Stimme festlegen muss. Elevenlabs bietet sehr viele professionelle Stimmen, die man beliebig ausprägen oder verändern kann. Ist das Audio jedoch einmal erzeugt, müsste man alle Dateien bei einem Stimmenwechsel potentiell neu erzeugen.

Die eigene Stimme nutzen

Ein sehr interessantes Feature, gerade für’s Personal Branding: Mit Elevenlabs kann man nicht nur vordefinerte, sondern auch seine eigene Stimme verwenden. Bereits mit einer 30-Sekunden Aufnahme der eigenen Stimme, bekommt man gute Resultate. Je länger die Beispielaufnahme, desto besser wird die Qualität. Bei einer kurzen Aufnahme und typischem «Schweizer hochdeutsch» klingt die eigene KI-Stimme dann ein wenig bayrisch bis österreichisch. Ein Beispiel meiner Stimme:

Hier in unserem Blog nutzen wir für’s erste eine der Standard-Stimmen. In meinem Sideventure erneuer.bar plane ich allerdings meine eigene Stimme als «Erzähler» zu verwenden.

Ab sofort nutzbar

Unseren Kunden steht die neue Vorlesefunktion nach erstmaliger Konfiguration der Stimme ab sofort zur Verfügung. Dabei fallen lediglich die Nutzungskosten der Schnittstelle von Elevenlabs an: Etwa 30 Rappen pro vorgelesene Minute – das sind jenachdem etwa 125 bis 150 Wörter. Das Erzeugen dieses Beitrags hat einmalig etwas weniger als einen Franken gekostet.

Brauchst du eine Vorlese-Funktion für deine Web-Inhalte?

Besprich dein Vorhaben unverbindlich mit Michael.

KI-Gestützte Vorlesefunktion

Inhalte in diesem Beitrag

Einmal erzeugen, mehrfach abspielen

Die eigene Stimme nutzen

Ab sofort nutzbar

Brauchst du eine Vorlese-Funktion für deine Web-Inhalte?

Schreibe einen Kommentar