Voice-Cloning ist zu Recht ein sensibles Thema
Ist Sky ein Double von Scarlett?
Rund um den Launch-Event für ChatGPT 4 Omni von OpenAI wurde bekannt, dass die US-amerikanische Schauspielerin Scarlett Johansson vorwürfe gegen den KI-Pionier erhebt. Es geht um ihre Stimme! Die KI-Stimme „Sky“ von OpenAI soll ein unautorisierter Clone der Stimme des 39-jährigen Hollywood-Stars sein. Die Nachricht machte schnell die Runde und die „Krisenkommunikation“ des Unternehmens brauchte eine Zeitlang, um in Gang zu kommen. Alle latenten Kritiker von Sam Altman waren umgehend am Start und befeuerten den Verdacht. Was jedoch zu kurz kam, war eine generelle Reflektion des Thema Voice-Cloning.
Ein wenig boulevardesk zusammengefasst lesen sich die Vorwürfe so: Sam Altman ist ein großer Fan von Scarlett Johansson und wollte sie überreden, als Prominente die weiteren, gecasteten, Clone-Stimmen von Profi-Sprecherinnen und Sprechern zu ergänzen. Das war vor über einem Jahr und die Schauspielerin und Sängerin sagte schnell ab. Kein Wunder, denn ein solcher Lizenzdeal ist zum heutigen Zeitpunkt eine Wette mit vielen Unbekannten. Open AI soll dann angeblich trotzdem ihre Stimme gecloned und als „Sky“ veröffentlicht haben. Der Vorwurf der Schauspielerin hat nur deshalb einen Zusammenhang mit dem aktuellen Launche-Event, da das Thema „Voice“ dort eine zentrale Rolle spielte und Altman kurz vorher einen nebulösen Social-Media-Post mit einem Filmtitel von Johansson veröffentlicht hat.
OpenAI reagierte und pausierte relativ zügig die Bereitstellung von „Sky“. Wenige Tage später folgte ein umfangreiches PR-Statement: „Die Stimme von Sky ist nicht die von Scarlett Johansson und es war auch nie beabsichtigt, dass sie ihrer ähnelt. Wir haben die Synchronsprecherin für die Stimme von Sky ausgewählt, bevor wir uns an Frau Johansson gewandt haben. Aus Respekt vor Frau Johansson haben wir die Verwendung von Sky´s Stimme in unseren Produkten ausgesetzt. Es tut uns leid, dass wir nicht besser kommuniziert haben.“
Die Stimmen Breeze, Cove, Ember, Juniper und Sky seien nach einem Casting mit über 400 Profisprechern gesampelt worden. OpenAI weiter: „Wir unterstützen die kreative Community und haben eng mit der Synchronsprecherbranche zusammengearbeitet, um sicherzustellen, dass wir die richtigen Schritte unternommen haben, um die Stimmen von ChatGPT zu besetzen. Jeder Schauspieler erhält eine Vergütung, die über dem Marktdurchschnitt liegt, und diese wird so lange weitergehen, wie seine Stimmen in unseren Produkten verwendet werden. Wir sind der Meinung, dass KI-Stimmen nicht absichtlich die unverwechselbare Stimme einer Berühmtheit imitieren sollten – Die Stimme von Sky ist keine Imitation von Scarlett Johansson, sondern die einer anderen professionellen Schauspielerin, die ihre eigene natürliche Sprechstimme verwendet. Um ihre Privatsphäre zu schützen, können wir die Namen unserer Sprecher nicht weitergeben.“
Gerade die letzte Aussage lieferte wiederum den Kritikern Munition, denn es ist relativ ungewöhnlich, dass eine Profi-Sprecherin nicht genannt werden will. Kurzum, der Streit um die vermeintlich geklaute Stimme der Schauspielerin Scarlett Johansson passte gut in das Bild einer KI-Branche, die bislang beim Training ihrer Sprachmodelle und Lösungen zur Generativen KI wenig Rücksicht auf Urheberrechte genommen haben soll. Erstaunlicherweise ist die Kritik am Voice-Cloning an sich jedoch sehr verhalten. Dabei ist die „Voice Engine“ von OpenAI nur eines von diversen, ähnlichen Projekten, die Sorgen machen sollten.
Rasanter Qualitätsschub
Bislang galt unter Profis, dass es für ein perfektes Voice-Cloning idealerweise Stunden an normalisiertem Studio-Material und einen mehrmonatigen Trainingsprozess brauchte. Für Medienhäuser und Entertainment-Unternehmen durchaus ein interessantes Experimentierfeld – natürlich auf Basis vertraglicher Vereinbarungen mit dem „Stimmen-Spender“. Auch Sprecherinnen und Sprecher sowie professionelle Podcaster zeigen Interesse, haden aber meist mit dem wenig überzeugenden Schutz der eigenen Stimme, der Abhängigkeit vom Anbieter und den hohen Folgekosten für ein professionelles Text-to-Voice oder Speech-to-Speech. Man sucht derzeit vergeblich nach einem Angebot zur einer kompatiblen Stimm-Synthetisierung, die in das schutzfähige Eigentum der Sprecherin oder des Sprechers übergeht und mit mehreren GenAI Lösungen funktioniert.
Neben Voice- und Broadcast-Profis gehörten bislang auch sprachgestörte Patientinnen und Patienten zur Zielgruppe für Voice-Cloning. Da hier in den seltensten Fällen stundenlange Audiodateien in Studioqualität vorlagen, war ein Ziel der KI-Entwickler die Hürden für ein hochwertiges Voice-Cloning zu senken. Sowohl was den Umfang wie auch die Qualität des Trainingsmaterials angeht. Umgekehrt wird hier auch weniger ein Broadcast-Output erwartet, sondern erkrankten Menschen wird ihre Sprachfähigkeit, ihre Stimme zurückgegeben. Eine sehr spezielle Anwendung, bei der es zu einer Integration mit Lösungen für Gehirnimpulse und anderen Hilfsmitteln kommt. Es handelt sich weder um einen Massenmarkt, noch gibt es dabei ein größeres Missbrauchs-Potenzial.
Emotionen, Sicherheit oder Unsicherheit
Bereits Anfang April haben wir in einem News-Beitrag „Mit Voice Engine Stimmen klonen“ auf dem KI Expertenforum berichtet und erinnert: „An synthetischen Stimmen wird seit langem gearbeitet und die sehr heterogenen Ergebnisse haben bislang immer wieder gezeigt, dass der Aufwand hoch ist und die Schwierigkeiten groß. Denn eine authentische Stimme spiegelt viele Faktoren: Emotionen, Sicherheit oder Unsicherheit, Nachdenklichkeit oder Nervosität. Dieselbe Technologie, die sich für kurze Ansagen eignet, scheitert oft an längeren Passagen wie Hörbüchern oder Podcasts.“ Doch nun fallen alle Hürden. Ähnlich wie bereits seit Monaten diverse mehr oder weniger vertrauenswürdige Anbieter, verspricht nun auch OpenAI: „15 Sekunden Audio-Material genügen!“, 15 Sekunden um eine Stimme perfekt kopieren und synthetisieren zu können. Von besonderen Anforderungen an dieses Ausgangsmaterial ist in den blumigen Ankündigungen keine Rede mehr. Von Frau Johansson hätte also ein Schnipsel eines Interviews genügt, ein Zusammenschnitt eines Trailers. Ein kurzer Ausschnitt eines Interviews. Dieses Leistungsversprechen zeigt natürlich, in welchen riesigen Fortschritten die Generative KI weiterentwickelt wird. Aber gibt es dafür eine nachvollziehbare Motivation? Gibt es einen erstrebenswerten Grund, warum ChatGPT künftig ohne jegliche Hürde Stimmen perfekt klonen können soll? Wo liegt der Nutzen und das berechtigte Interesse jenseits der professionellen Nutzung?
Diese Fragen werden kaum gestellt. Die derzeitige Kommunikationspolitik von OpenAI, erschreckend faszinierende Ankündigungen zu machen und dann zu gleichzeitig zu betonen, dass man natürlich evaluiert, welche Risiken von der Technologie ausgehen können, erscheint naiv bis unglaubwürdig. Solange Technologie helfen kann, sprachgestörten Menschen wieder zur Stimme zu verhelfen oder professionellen Sprechern, ihre Arbeitsumgebung zu optimieren, können deren Wünsche und Anforderungen der Maßstab und das Ziel sein. Aber für den Massenmarkt anzukündigen, dass demnächst aus jedem Kinderzimmer heraus die Stimmen von jedem Menschen perfekt synthetisiert und dann für verstörend überzeugte Text-to-Voice-Anwendungen genutzt oder missbraucht werden können, ist frei jeglicher ethischen Legitimierung.
Rechtlich und ethisch konforme Nutzung?
Deepfake-Fotos und Videos sind schon heute so perfekt, dass meist nur Profis und Forensiker eindeutig deren synthetische Generierung bestimmen können. Und dennoch lässt sich hier viel mit einer Kennzeichnungspflicht regeln. Künftig müssen wir Bildern oder Bewegtbildern ohne Creditzeile und Kennzeichnung deutlich skeptischer gegenüberstehen. Insgesamt hat ein medienkundiger Bürger jedoch in vielen Fällen die Chance vorsichtig zu sein und manipulierte Bilder und Videos zumindest zu erahnen. Doch bei Audio-Material und Stimmen sind sowohl die Missbrauchs-Gefahr wie auch der potenzielle Schaden deutlich höher. Gleichzeitig fällt es schwer, ein Bedürfnis für Voice-Cloning im Massenmarkt nachzuvollziehen – ohne bislang bekannte, wirksame Schutzhürde. Hier wird ohne Nutzen und Not ein Dammbruch provoziert. Dabei sollte gerade bei Generativer KI nicht die technische Möglichkeit, sondern eine rechtlich und ethisch konforme Nutzung zum Wohle der Menschen im Vordergrund stehen. Diesen Kompass scheinen OpenAI & Co. verlegt zu haben.
Stattdessen wird wieder einmal der „Spieltrieb“ von Gadget-Guys und Otto-Normalverbraucher animiert. Eine Antwort bleiben die KI-Entwickler weitgehendst schuldig, warum das Synthetisieren von eigenen oder fremden Stimmen für Jedermann möglich sein soll. Der Fairness halber: OpenAI veröffentlicht auf seinen Blog-Seiten durchaus spannende Gedanken und Beispiele zu konstruktiven und positiven Einsatzgebieten von „Voice Engine“, jenseits einer Vermarktung als Cloud-Tool für Jedermann. Und dies lohnt einen näheren Blick.
Aber dennoch: Manipulierte Sprachaufnahmen öffnen Tür und Tor für Betrug, für Manipulation und Diffamierung, für politische Rufschädigungen und Beziehungsdramen. Als Telefonanruf oder Sprachnachricht lassen sich solche Fake-Statements kaum mehr sinnvoll oder mit vertretbarem Aufwand nachweisen. Gerade in unserem derzeitigen, politischen und gesellschaftlichem, Klima, lassen sich Menschen und Karrieren mit minimalem Aufwand canceln. Gerade in den USA mit anstehendem Präsidentschaftswahlkampf kommt Sorge auf, dass Bürger mit gefaktem Sprachaufnahmen manipuliert werden können. Solche Risiken sollten zumindest mit einem gesellschaftlichen Nutzen einhergehen. Und begleitet werden von Konzepten, die einen Missbrauch erschweren oder verhindern sollen. All das liegt bei den derzeitigen Ankündigungen für das Voice-Cloning nur rudimentär vor. Und OpenAI gehört hier eindeutig noch zu den seriöseren Anbietern. Manch ominöser Wettbewerber erlaubt in seinen AGBs -ohne jeden Nachweis- das Klonen jeglicher Stimmen, solange der User „mit Einwilligung“ handelt. Weder wird jedoch eine solche Einwilligung als Nachweis angefordert noch zumindest eine diesbezügliche Erklärung. Das wäre vergleichbar mit dem freien Verkauf von Waffen und Drogen ohne jeglichen Alters- oder Identifikationsnachweis. Wer so agiert, muss sich nicht über eine Regulierung seitens der Politik wundern.
Die Macht der Stimme
Die Stimme eines Menschen hat eine unglaubliche Macht und ist dennoch sehr schwer zu schützen. Anders als biometrische Bildaufnahmen von Menschen, können Sprach-Samples, ohne aufwändige Gutachten, nicht eindeutig differenziert werden. Die Generative KI wird immer mächtiger und mittlerweile werden nicht nur der „Sound“ einer Stimme kopiert, sondern auch alle Sprach- und Atemfehler seiner Besitzer. Die Causa Scarlett Johansson ist daher nicht primär eine Frage von Vertragsdetails und Honoraren, sondern zeugt von einem gesunden Misstrauen der Schauspielerin und ihres Managements gegenüber dem Sinn und Zweck des Angebots. Ja, schon vor Jahrzehnten konnte man Sprachimitatoren für eine lustige Prominentenansage auf dem Anrufbeantworter buchen. Aber eben nicht dafür, andere Menschen zu schädigen und zu diskreditieren. Niemand wird ernsthaft in Frage stellen, dass ein solcher Missbrauch im großen Stil passieren wird, wenn die Anbieter keinen wirksamen Schutz einbauen. Und anders als bei Bildern, Videos oder Texten lässt sich bei Audio nur schwer eine Kennzeichnungspflicht realisieren.
Es ist wichtig zu differenzieren: Text-to-Voice mit synthetischen Stimmen kann vielfach nützlich und serviceorientiert eingesetzt werden – aber ein Voice-Cloning für Jedermann ist wie eine Waffe. Das Thema sollte daher äußerst sensibel angegangen werden. Die rechtlichen Rahmenbedingungen und die politische Sensibilität hängen hier wieder deutlich dem technologischen Fortschritt hinterher. Und selbst ein Pionier wie OpenAI lässt es nun anscheinend genau an dieser Sensibilität vermissen. Ebenso die Heerschar an KI-Gurus, die sich wie die kleinen Kinder über jedes solcher Feature freuen. Der Vorwurf, dass der Hersteller unrechtmäßig die Stimme des Hollywood-Stars für „Sky“ synthetisiert hätte, ist noch unbelegt. Und die Euphorie von OpenAI über die Sprachfähigkeiten von ChatGPT 4 Omni ist durchaus valide. Aber wie haltlos ist der Verdacht? Ein Gutachten hat mittlerweile frappierende Ähnlichkeiten der beiden Stimmen nachgewiesen. Mit übereinstimmenden Mustern, die selbst für Forensiker nur schwer zu erklären sind. Noch gilt rechtlich die Unschuldsvermutung und anscheinend gleichzeitig ein wenig die Narrenfreiheit von Technikpionieren.
Sky führt unfreiwillig zur notwendigen Debatte
Egal, wie dieser Fall ausgeht: Die wirkliche Kritik richtet sich nicht gegen synthetische Stimmen an sich, sondern gegen das Klonen beliebiger Stimme mit nur 15 Sekunden Quell-Material. Die besorgte Frage muss hier lauten: Warum? Etablierte Prozesse werden plötzlich als unsicher in Frage gestellt werden müssen. Zum Beispiel die telefonische Bestellung im Versandhandel oder telefonische Aufträge von Geldgeschäften. Der Vertragsschluss durch mündliche Willenserklärung, wird zum Risiko. Open AI empfiehlt zum Beispiel die Abschaffung der sprachbasierten Authentifizierung als Sicherheitsmaßnahme und die „Aufklärung der Öffentlichkeit über die Fähigkeiten und Grenzen von KI-Technologien, einschließlich der Möglichkeit irreführender KI-Inhalte“. Der Fall der Stimme „Sky“ wird hoffentlich ein wenig zu einer solchen Debatte, Sensibilisierung und Aufklärung beitragen. Denn auch wenn der Vorwurf entkräftet werden kann oder doch eher im Sand verläuft, das Beispiel zeigt gut die Probleme und Risiken.
#voicecloning #sky #scarlettjohansson #kommunikation #krise #openai #stimmklon #technologie #kritik #synchronsprecher #datenschutz #ethik #recht #schutz #missbrauch #deepfake #künstlicheintelligenz #generativeki #sprachsynthese #gesellschaft #sicherheit #authentifizierung #risiken #aufklaerung #kontroverse #launch #event #chatgpt4omni #boulevard #vorwuerfe #prstatement #casting #lizenzdeal #marktdurchschnitt #privatsphäre #regulierung #rechtliche #rahmenbedingungen #debatte #sensibilisierung #manipulation #forensiker #muster #unschuldsvermutung #authentifizierung #sicherheitsmaßnahme #vertragsschluss #willenserklaerung