Mit „Voice Engine“ Stimmen klonen

Mittwoch, 3. April 2024 von Oliver Schwartz

Die Sorge über synthetische Stimmen wächst

Mit „Voice Engine“ Stimmen klonen

Der ChatGPT-Entwickler OpenAI hat sich vor wenigen Tagen zum eigenen KI-Modell „Voice Engine“ geäußert und wiederholt seine Kommunikationsstrategie zum Video-Generator „Sora“. Die Botschaften lauten in beiden Fällen: Unsere KI ist mächtig! So mächtig, dass wir überlegen, wie man sie verantwortlich in den Markt einführen kann. Das klingt besonnen und reflektiert, fast schon nach Wissenschaftskommunikation, beflügelt aber trotzdem das virale Marketing und die Erwartungshaltung. Endlose Medien-Headlines schreiben der Lösung überlegene Fähigkeiten zu, gerade weil der Entwickler sich Gedanken über die Herausforderungen und Chancen macht. Die Logik ist klar: Wenn OpenAI mit der Markteinführung zögert, dann muss das Werkzeug magische Fähigkeiten haben. Und so steht vermeintlich bereits fest, dass es dem Team um Sam Altman gelungen ist aus einem Audioclip von lediglich 15 Sekunden einen perfekten Sprach-Clone zu generieren. Das Augenmerk liegt dabei nicht auf der Perfektion, sondern auf dem Eliminieren jeglichen Aufwands.

An synthetischen Stimmen wird seit langem gearbeitet und die sehr heterogenen Ergebnisse haben bislang immer wieder gezeigt, dass der Aufwand hoch ist und die Schwierigkeiten groß. Denn eine authentische Stimme spiegelt viele Faktoren: Emotionen, Sicherheit oder Unsicherheit, Nachdenklichkeit oder Nervosität. Dieselbe Technologie, die sich für kurze Ansagen eignet, scheitert oft an längeren Passagen wie Hörbüchern oder Podcasts. Für Sprachprofis und Broadcast-Anwender galt bislang, dass es idealerweise mehrere Stunden an professionell im Studio aufgenommenem, normalisiertem Quellmaterial und ein wochen- oder monatelanges Training und Justierung der generierten Clone-Stimme brauchte. Der damit verbundene Aufwand und die Kosten stellen bereits eine Schutzhürde dar und in so einem Prozess gibt es auch keine Probleme damit die berechtigte Nutzung der synthetischen Clone-Stimme zu verifizieren. Ganz anders natürlich, wenn künftig Jedermann mit wenigen Sekunden Audiovorlage eine Stimme einer dritten Person, gar eines Prominenten oder Politikers, synthetisieren und für Fakes nutzen kann. Sei es zum Spaß oder in betrügerischer, manipulativer Absicht.

Es verwundert also nicht, dass die von OpenAI jetzt angestoßene Debatte um die eigene „Voice Engine“, an der seit Jahren entwickelt wird, nun wieder zahlreiche kritische Stimmen auf den Plan ruft. Gerade in den USA mit anstehendem Präsidentschaftswahlkampf kommt Sorge auf, dass Bürger mit gefaktem Sprachaufnahmen manipuliert werden können. Und in der Tat sind die Missbrauchsgefahren bei reiner Sprache noch höher als bei Fotos und Videos und sind Fakes noch schwieriger zu erkennen. Umgekehrt gibt es aber auch sehr viele konstruktive und positive Einsatzgebiete, jenseits einer Vermarktung als Cloud-Tool für Jedermann. Und die lohnt es sich einmal näher zu betrachten. OpenAI selbst hat dazu zahlreiche Beispiele veröffentlicht und die eigenen Überlegungen erläutert.

Auf der Suche nach Spielregeln

Als gesellschaftlich wertvolle Chancen vom Stimm-Cloning werden Patienten genannt, die unter Sprachstörungen leiden. OpenAI benennt ein Pilotprogramm des Norman Prince Neurosciences Institute, das Voice Engine Personen mit onkologischen oder neurologischen Ursachen für Sprachbehinderungen anbietet. Gerade bei plötzlichen Sprachstörungen kann es hilfreich sein, dass nur sehr kurze Sprachsamples benötigt werden.

Weitere prototypische Beispiele sind Lesehilfen für Nichtleser und vor allem Kinder oder die Übersetzung von Videos und Podcasts für eine globale Verbreitung von wertvollen Inhalten. In beiden Fällen soll Voice Engine natürliche Stimmen generieren, die nichts mehr mit den monotonen Computerstimmen der Vergangenheit zu tun haben. Open AI berichtet auch über die internen Überlegungen, ob die geklonte Stimme in einer fremden Sprache so klingen soll wie ein Muttersprachler oder bewusst mit dem Akzent der eigenen Hauptspreche. Je nach Anwendung eine spannende Frage. Jeder erinnert sich sicherlich an ältere Filme und Serien, bei denen die deutschen Synchronstimmengerade in den 60er und 70er Jahren oft mit einem zur Rolle passenden Akzent gesprochen haben. Davon ist die synchronisierende Filmindustrie weitestgehend abgerückt. Und auch bei synthetisch angepassten Podcasts oder Hörbüchern dürfte es viele Hörerinnen und Hörer geben, die zwar gerne dieselbe Stimmfarbe der Originalstimme hören wollen, aber vermutlich nicht längere Texte mit Akzent. „Voice Engine“ arbeitet aber genauso: Wird die englische Originalstimme mit Hilfe des KI-Modells ins Deutsche transformiert, spricht die Stimme nicht wie ein Deutscher, sondern wie ein Brite. Die Frage ist nicht banal und es gibt für beide Varianten gute Argumente. Es geht natürlich um Glaubwürdigkeit und Authentizität. Ist nicht schon irreführend, wenn mein Hörbuch in einer Sprache erscheint, die ich nicht beherrsche? Andererseits empfinden es Käufer, die um den deutschen Autoren wissen, für besonders authentisch, dass eine Stimme mit diesem Akzent spricht – statt als Native Speaker aufzutreten.

Die Beispiele zeigen, dass wir noch auf lange Sicht hinweg auf der Suche nach Spielregeln sein werden, die das Vertrauen stärken und den Missbrauch von Generativer KI verhindern helfen. Dies bedeutet aber auch, dass etablierte Prozesse plötzlich unsicher werden und in Frage gestellt werden müssen. Zum Beispiel die telefonische Bestellung im Versandhandel oder telefonische Aufträge von Geldgeschäften. Der Vertragsschluss durch Willenserklärung, auch mündlicher, wird zum Risiko.

Abschaffung der sprachbasierten Authentifizierung

Open AI empfiehlt zum Beispiel die Abschaffung der sprachbasierten Authentifizierung als Sicherheitsmaßnahme und die „Aufklärung der Öffentlichkeit über die Fähigkeiten und Grenzen von KI-Technologien, einschließlich der Möglichkeit irreführender KI-Inhalte“. Das klingt erst einmal wie ein gut gemeinter Tipp, bedeutet aber zugespitzt, dass der Erfinder von Lösungen zur Umgehung von Sicherheitsmaßnahmen und zur Irreführung reklamiert, dass Öffentlichkeit und Betreiber wachsamer sein sollen oder am besten gleich ihr Türschloss ändern. Die zwei weiteren Empfehlungen sind da zielführender und nehmen vor allem OpenAI selber in die Pflicht: Die Erkundung von Richtlinien zum Schutz der Nutzung der Stimmen einzelner Personen in der KI und die Beschleunigung der Entwicklung und Einführung von Techniken zur Verfolgung der Herkunft audiovisueller Inhalte. Und der KI-Entwickler bekräftigt seinen Wunsch, „weiterhin Gespräche über die Herausforderungen und Chancen synthetischer Stimmen mit politischen Entscheidungsträgern, Forschern, Entwicklern und Kreativen zu führen“.

Die begleitende Experten-Debatte zeigt, dass es anscheinend einfacher ist ein mächtiges KI-Modell zu entwickeln und zu trainieren als passende Richtlinien und Maßnahmen für deren Regulierung und den Schutz berechtigter Interessen sowie von Persönlichkeits- und Urheberrechten zu identifizieren und zu definieren. Eigentlich sollte klar sein, dass der Zugang zu Lösungen wie der „Voice Engine“ von OpenAI nicht ohne Verifizierung und Kennzeichnungspflicht der Inhalte möglich sein sollte. Nur wie kann Letztere ausgestaltet werden? Genügt im Verdachtsfall die einwandfreie Nachverfolgung einer KI-Herkunft oder braucht es eine permanente Kennzeichnung. Bei Sprachinhalten jenseits von Webseiten ist ein KI-Hinweis dann nur durch einen gesprochenen Disclaimer möglich.

OpenAI hat mit seiner Produktankündigung auch zahlreiche Audio-Samples veröffentlicht, jeweils mit einer Quell-Audio-Datei und den daraus generierten Inhalten. Anders als beim Video-Generator „Sora“ bekommen Interessierte beim Anhören sich nicht diesen „Wow-Effekt. Wer sich aber schon länger mit dem Thema Synthetische Stimmgenerierung und Klonen von Stimmen beschäftigt spürt sehr wohl die großen Fortschritte. Detailinformationen fehlen aber, welche Erfahrungen die Entwickler mit den Anforderungen an die Quell-Datei gemacht haben. Gerade bei den magischen 15 Sekunden dürfte es, nach aller Erfahrung, einen signifikanten Unterschied machen welche Inhalte gesprochen werden oder in welcher Qualität das Sample vorliegt. Wenn diese Aspekte schon heute wirklich vernachlässigbar sind, unterstreicht das Unternehmen einmal mehr in welchem rasanten Tempo sich die KI-Welt entwickelt und wie herausfordernd sich die begleitenden Schritte zur KI-Sicherheit gestalten.

Kernstrategie vieler Medienhäuser

Andererseits darf die Ankündigung von OpenAI nicht darüber hinwegtäuschen, dass es bereits dutzende Player zum Thema "Synthetische Stimmen" im Markt gibt und gerade die B2B-Anbieter, die sich ausschließlich auf professionelle Kunden aus dem Mediensektor fokussieren, längst gemeinsam mit ihren Kunden produktive Lösungen im Regelbetrieb etabliert haben. Zeitungshäuser und Betreiber von Onlinemedien, aber auch Radiosender, Hörbuchproduzenten und Podcast-Studios bauen für bestimmte Szenarien auf die Voice-Generierung und hier durchaus auch auf das Klonen der Stimmen beliebter Sprecherinnen und Sprecher. "Sound Engine" mag einen großen Entwicklungssprung gemacht haben und den Voraufwand drastisch reduzieren, die Medienhäuser setzen aber nicht auf eine Cloud-Massenmarktlösung sondern wären ganz froh, wenn sie ihre professionellen Voice-Businessmodelle in einem geschützten Raum mit reinen Profi-Anbietern weiterentwickeln können.

Noch fällt es im deutschsprachigen Markt schwer für zusätzliche Services, zum Beispiel das Vorlesen von Artikeln oder das Anbieten von ergänzenden Podcasts, Umsätze zu erzielen. Aber die Möglichkeit mit synthetischer Sprachgenerierung neue, schnelle Formate zu etablieren -bei sehr geringen Kosten- begeistert die Verantwortlichen. Die Qualität der erzeugten Stimmen lässt teilweise noch zu wünschen übrig und erreicht bei weitem nicht das Niveau der Voice-Engine-Samples von OpenAI. Bei Pilotprojekten mit dem Klonen von Moderatorenstimmen konnten aber schon eindrucksvolle Referenzbeispiele erzielt werden. Wenn OpenAI hier einen Durchbruch erzielt hat, ist die sichere Nutzung des KI-Modells im professionellen B2B-Segment deutlich einfacher zu realisieren. Und viele Medienprofis, die mit ihrer Stimme Geld verdienen, machen sich zu Recht Sorgen, wenn ein 15-Sekunden-Audio-Schnipsel zum Klonen durch Jedermann ausreicht. Die Stimme als Markenzeichen, die Arbeits- und Verdienstgrundlage der Sprecherinnen und Sprecher, wird sich sehr schwer schützen lassen. Es geht also nicht nur um das Verhindern von Manipulation und Fakebeiträgen. Die Künstliche Intelligenz mit ihren Modellen zur Sprachgenerierung bietet völlig neue Einsatzgebiete und Chancen und gefährdet doch, wie auch schon in anderen Disziplinen, kreative, künstlerische und journalistische Berufe.

Die Resonanz auf die Ankündigungen von Sora und Voice Engine und die neue Kommunikationsstrategie von OpenAI zeigen die Diskrepanz zwischen dem Entwicklungstempo der mächtigen KI-Lösungen und der teilweisen Ratlosigkeit über deren Regulierung, Kennzeichnung und Nachverfolgbarkeit. Auch bei Gedankenspielen zur Verifizierung der berechtigten Nutzung einer Stimme wird deutlich werden, dass die Voraussetzung dafür (noch) nicht gut aussehen. Zu volatil sind international die rechtlichen Rahmenbedingungen und der Grad der Digitalisierung. Schon liest man nicht selten die Expertenmeinung, dass es eine Handbremse oder einen Reset braucht - ein vorrübergehendes Einfrieren. Zurück auf "Los". Dies ist aber weder realistisch noch automatisch zielführend. Die gesellschaftliche Debatte bleibt immer noch aus, die Politik ist überfordert. Die Hersteller wie OpenAI sollten daher wesentlich mehr in die Pflicht genommen werden: Markteinführung erst dann, wenn die Fragen beantworter sind und die ethischen wie rechtlichen Lösungen für einen sicheren Betrieb zur Verfügung stehen.

Bei OpenAI liest sich das bislang so: "Voice Engine ist eine Fortsetzung unseres Engagements, die technischen Grenzen zu verstehen und offen zu teilen, was mit KI möglich wird. Im Einklang mit unserem Ansatz zur KI-Sicherheit und unseren freiwilligen Verpflichtungen entscheiden wir uns, diese Technologie derzeit in der Vorschau, aber nicht allgemein zu veröffentlichen. Wir hoffen, dass diese Vorschau von Voice Engine sowohl sein Potenzial unterstreicht als auch die Notwendigkeit motiviert, die Widerstandsfähigkeit der Gesellschaft gegenüber den Herausforderungen zu stärken, die immer überzeugendere generative Modelle mit sich bringen."

Weitere Informationen und Audio-Samples zur Voice Engine finden sich auf folgender Hersteller-Website:
Navigating the Challenges and Opportunities of Synthetic Voices

#synthetischestimmen #voiceengine #openai #sora #kommunikationsstrategie #markteinfuehrung #samaltman #audioclip #sprachclone #authentizitaet #emotionen #sicherheit #sprachstoerungen #patienten #lesehilfen #uebersetzung #natuerlichestimmen #sprachbasierteauthentifizierung #spielregeln #missbrauch #generativeki #herkunftaudiovisuellerinhalte #politischeentscheidungstraeger #forschung #entwickler #kreativen #verifizierung #kennzeichnungspflicht #b2banbieter #medienhaeuser #sprachgenerierung #professionellevoicebusinessmodelle #medienprofis #manipulation #fakebeitraege #kuenstlerischeberufe #regulierung #nachverfolgbarkeit #digitaletransformation #gesellschaftlichedebatte #kuenstlicheintelligenz #kisicherheit #generativemodelle

-Promotion-