Synthetische Stimmen werden verstärkt zum Problem

Donnerstag, 1. August 2024 von Oliver Schwartz

Industrie arbeitet an technischen Standards für Kennzeichnung von KI-Inhalten

Synthetische Stimmen werden verstärkt zum Problem

Die Fortschritte im Bereich des Klonens von Stimmen sind bemerkenswert. Die Qualität der generierten Stimmen wird zunehmend überzeugender und täuschend echt. Derzeit zeigen zwei völlig verschiedene Vorfälle aus Europa und den Vereinigten Staaten, dass ein niedrigschwelliger Zugang zu einem Technologiefeature mit großem Schadenspotenzial auch Schattenseiten mit sich bringen kann. Aus Italien wird von Medien, die über angebliche Insider-Kontakte verfügen, von einem mutmaßlichen telefonischen Betrugsversuch berichtet, bei dem eine Clone-Stimme vom CEO des Sportwagenherstellers Ferrari verwendet worden sein soll. Gleichzeitig sorgt in diesem ohnehin aufgeheizten US-Wahlkampf ein Video der wahrscheinlich künftigen demokratischen Präsidentschaftskandidatin und heutigen Vizepräsidentin Kamala Harris für Aufregung. Es sind dabei nicht die Bewegtbilder, sondern die Tonspur, die mittels KI manipuliert wurde. Bei einer ersten Betrachtung scheinen beide Fälle wenig aufregend zu sein. Zurecht kann darauf hingewiesen werden, dass Bilder und Bewegtbilder seit jeher manipuliert und gefälscht werden, dass Telefonbetrug eine lange unrühmliche Historie hat und dass sich Politikerinnen und Politiker im Rahmen von politischem Kabarett und Comedy immer schon mit Stimmimitatoren und amüsanten oder tiefgründigen Parodien konfrontiert sehen. Gleichwohl weisen Fachleute und Forensiker eindringlich auf die zunehmende Perfektion der synthetischen Stimmdoubletten und auf die deutlich gestiegene Gefahr hin, Opfer einer Täuschung zu werden.

Die Aussage „Bilder sagen mehr als tausend Worte“ gilt weiterhin. Per Deep-Fake manipulierte Fotos und Videos bergen ein hohes Täuschungspotenzial und könnten im Extremfall zu Gewalt und Konflikten führen. Sie können sich in den Köpfen der Menschen festsetzen und im Zusammenhang mit einer erfundenen Geschichte eine gefährliche Wirkung entfalten. Schritt für Schritt. In den meisten Fällen eignen sich aber Stimmen wesentlich besser für die Überrumpelung und situative Täuschung. In Kombination mit einer authentischen Situation oder Inszenierung werden sie zudem deutlich seltener hinterfragt. Der vermeintliche Anruf des Ferrari-CEOs Benedetto Vigna bei seinem Mitarbeiter wurde lediglich durch eine als merkwürdig empfundene, dramaturgische Zuspitzung im Gesprächsverlauf aufgedeckt. Diese Irritation bewegte den Mitarbeiter zu einer unerwarteten Rückfrage. Bis zu diesem Punkt wurde das Telefonat für echt gehalten und die Stimme für überzeugend. Dank KI ist es möglich, die Synthetisierung im Live-Betrieb sogar in Sprachen mit hoher Dynamik und Wortgewalt zu realisieren. Es ist absehbar, dass jenseits des altbekannten "Enkeltricks" und der Überrumpelung von hilflosen älteren Menschen, auch im Geschäftsleben Betrügereien mit synthetischen Stimmen zunehmen. Dies wirft auch die Frage der Sicherheit auf. Wenn der Funkverkehr manipuliert oder mit Spoofing und falschen Absenderkennungen eine trügerische Authentizität vorgegaukelt wird, kann dies zu einer ernsten Bedrohungslage führen. Die besondere Gefahr liegt also immer in der Kombination von vermeintlich vertrauenswürdigen Layern mit perfekt geklonten Fake-Stimmen.

Dies gilt ebenfalls für das vermeintliche Comedy-Video von Kamala Harris, welches in den letzten Tagen -nicht zuletzt durch die wiederholte Verbreitung durch den Unternehmer Elon Musk- eine Vielzahl von Menschen auf der Plattform X erreicht und möglicherweise getäuscht hat. Es gibt allerdings auch andere Meinungen dazu. Im Nachhinein lässt sich durchaus argumentieren, dass das Video mit einer neuen, gefälschten Tonspur einen offensichtlich witzigen Satirecharakter habe. Und es wird dabei auf den Urheber mit dem X-Alias "Mr Reagan" verwiesen. Die geklonte Tonspur enthält Aussagen der Vizepräsidentin über die Senilität von Joe Biden und ihre eigene, vermeintliche, Unangreifbarkeit als farbige Frau. Elon Musk, bei dessen Posts regelmäßig Interpretationsspielraum besteht, kommentierte wie folgt: "Das ist unglaublich!". Zum Hintergrund: Die Bewegtbilder stammen von einem echten Wahlkampfspot des Teams von Kamala Harris. In Anbetracht des gegenwärtigen, von Aggressivität und Spaltung geprägten gesellschaftlichen Klimas, sowie der allgegenwärtigen Verbreitung von Unwahrheiten und Desinformationen, ist es durchaus nachvollziehbar, dass das Video mit der falschen Tonspur bei nicht wenigen Menschen zu Verwirrung und Fehlinterpretationen geführt hat.

"Achtung Satire!": Forderungen nach Kennzeichnungslabel nehmen zu

Bei der bekannten Reiz- und Nachrichtenüberflutung auf Social Media empfehlen Experten Achtsamkeit und kritische Distanz. In diesem Zusammenhang wird die Frage aufgeworfen, wie verhindert werden kann, dass KI-Deepfakes zur gefährlichen Waffe in einer von Überforderung und Kurzatmigkeit geprägten Erregungskultur werden, in der bereits eine Headline für Entrüstung und einen Shitstorm sorgen kann. Längst wird gestritten, ob die Generative KI für Humor und Satire tabu sein sollte, ob jede kreative oder witzige KI-Nutzung gleich als mögliche Manipulation oder Betrug zu bewerten sind und ob diejenigen Recht haben, die in Zeiten von Wahlkämpfen ein komplettes Verbot von Deepfakes fordern. Solange es dazu keine klare gesellschaftliche Antwort gibt und rechtliche Rahmenbedingungen vermisst werden, sind nicht nur die KI-Hersteller und die Urheber in der Verantwortung, sondern auch die Nutzer, die bewusst oder unbewusst solche Inhalte ohne klare Satire-Kennung re-posten. Elon Musk, der nun massiv kritisiert wird, hat die Satire nach eigenen Aussagen erkannt und wollte seine Follower an dem "Spaß" teilhaben lassen.

Das diskutierte Video mit der manipulierten KI-Tonspur:

Dieser Inhalt kann leider nicht angezeigt werden, da Sie der Speicherung der für die Darstellung notwendigen Cookies widersprochen haben. Sie können Ihre Einstellungen jederzeit in unserem Cookie-Kontrollzentrum anpassen.

Diesen Cookie zulassen

Quelle: Re-Post von Elon Musk am 27. Juli 2024. Der Original-Post am 26. Juli 2024 stammt vom User Mr Reagan. Derzeit haben bereits mehr als 130 Millionen Menschen das Video gesehen. Die Tonspur ist mittels einer unautorisierten Clone-Stimme von Vizepräsidentin Kamala Harris erzeugt worden und nicht authentisch!

Wenn in naher Zukunft möglicherweise die Forderung aufgestellt wird, jeden Post mit einem Kennzeichnungslabel ("Achtung Satire!") zu versehen, könnte dies nach Ansicht von Gesellschaftsforschern ein Hinweis darauf sein, dass der toxische Nährboden, auf dem aus Satire potenzielle Manipulation und Hetze wird, zunehmend Aufmerksamkeit erfordert. In der Kommunikations- und Medienforschung lässt sich dazu seit Längerem eine Entwicklung beobachten, die Anlass zur Sorge gibt: Die Grenze zwischen Nachricht und Meinung verschwimmt zunehmend, und das journalistische Selbstverständnis ist heute sehr meinungsstark, was zu Lasten von journalistischen Tugenden und Regeln gehen kann. Selbst renommierte Online-Medien perfektionieren aus wirtschaftlicher Notwendigkeit das Clickbaiting und nutzen bereits Headlines mit latent provokantem Charakter, um die Aufmerksamkeit der Leser zu gewinnen. Oftmals sind es genau diese Headlines, die die erste Debatten- und Erregungswelle bestimmen – und nicht ein umfassender journalistischer Artikel. Es lässt sich weiterhin beobachten, dass Aktivisten und Lobbyisten den Trend zur "Meinung" für sich nutzen und zunehmend als Kolumnisten und Gastautoren in Erscheinung treten. Es besteht die Befürchtung, dass sie auch sonst die mediale Meinungsmanipulation zugunsten ihrer "guten Sache" beherrschen und zudem eigene Publikationen als journalistische Medien tarnen. Die Politik betrachtet Medien wiederum zunehmend als ein Mittel, um ihre direkte Klientel anzusprechen und Kampagnen über Social Media zu starten. Die sogenannten Troll-Farmen sind dabei eine besonders unrühmliche Ausprägung der vielfältigen Versuche, Menschen zu manipulieren. Dies kann auch im Auftrag feindlicher Staaten erfolgen. Und es gibt immer mehr Anzeichen dafür, dass sogar manche Onlineredaktionen und Social-Media-Teams von Parteien oder Think Tanks auf dem besten Weg zur "Troll-Farm light" sind. Satire hat es daher zunehmend schwer.

Kamala Harris Video

„Gerade weil es bereits bestehende Themen aufgreift, die um Kamala Harris herum kursieren, werden die meisten Leute glauben, dass die Tonspur echt ist.“.
Rob Weissman, Public Citizen

Manipulations-Gefahr trotz Paradie-Hinweis im Ursprungs-Post?

Politisches Kabarett ist auch die feingeistige Kunst mit dem Publikum zu spielen und dieses zum Nachdenken anzuregen. Darüber gibt es auch nie Unklarheit. Die Schwester „Comedy“ arbeitet ähnlich. Provokationen und Überspitzungen münden in Lacher. Versuche, im Dienste der Satire das Publikum über einen längeren Zeitraum zu manipulieren, gehen dagegen oft nach hinten los. Im Fernsehen und Radio spielen natürlich auch geschickt gewählte Bilder und O-Töne eine wichtige Rolle, auch gerne Stimmimitatoren. Aber diese enthalten immer reichlich witzige Elemente oder groteske Zuspitzungen, damit nie ein Zweifel besteht, dass die Bilder und O-Töne montiert oder parodiert sind. Außerdem findet alles im Rahmen von satirischen Programmformaten oder Comedy-Sendungen statt – nicht in den Nachrichten. Von der legendären „Spitting Image“ Show über „Extra 3“, „Die Anstalt“ bis hin zur Radio-Comedy mit Politiker-WGs oder Telefonstreichen – keines der Formate lässt den Zuschauer oder Zuhörer im Dunkeln. Spätestens am Ende wird aufgelöst. Genau das lassen Deep-Fake-Videos im Netz oft vermissen.

Die empörten Kritiker an dem manipuliertem Harris-Video argumentieren daher auch genau so: In einer TV-Show wäre das Video vielleicht Satire, in dem der Vizepräsidentin vieles in den Mund gelegt wird, dass derzeit in den USA Debatte ist. Im Netz, ohne verständliche Kennzeichnung, ist es dagegen geeignet zu manipulieren. Dem widerspricht der Creator „Mr Reagan“ und verweist darauf, dass sein Original-Post als "Ad PARODY" bezeichnet. Auch Elon Musk, bei dessem Re-Post dieser Hinweis fehlte, hat auf Kritik in seiner Art reagiert und das Video erneut gepostet – mit einem Zusatz „Parodie ist immer noch erlaubt in Amerika!“.

Industrie arbeitet an technischen Standards für die Kennzeichnung

Forensik-Experte Hany Farid von der Universität Berkeley hat das Video untersucht und sagt: „Dieses Video zeigt eindrücklich die Möglichkeiten von Generativer KI und heutiger Deepfakes. Die KI-generierte Stimme ist täuschend echt!“. Unternehmen, die generative KI betreiben und der Öffentlichkeit Tools zum Klonen von Stimmen und andere KI-Tools zur Verfügung stellen, sollten besser dafür sorgen, dass ihre Dienste nicht auf eine Weise genutzt werden, die Menschen oder der Demokratie schaden könnte. Rob Weissman von „Public Citizen“ glaubt nicht, dass das Video offensichtlich ein Witz war: „Gerade weil es bereits bestehende Themen aufgreift, die um Kamala Harris herum kursieren, werden die meisten Leute glauben, dass die Tonspur echt ist.“ Diese Entwicklung wird von Experten bereits seit einiger Zeit mit großer Sorge beobachtet. Es ist zu beobachten, dass nicht nur Betrüger und Kriminelle, sondern auch politische Kampagnen und Aktivisten KI-Manipulationen und Deepfakes so nutzen, dass falsche und synthetische Elemente mit realen vermengt werden. Ein echtes Video wird mit einer neuen Tonspur versehen. Ein Fake-Anruf verwendet ein möglichst authentisches Setup, um zu täuschen. Daher besteht derzeit weitreichender Konsens darüber, dass eine Pflicht zur Kennzeichnung von KI-Videos und Bildern eingeführt werden sollte. Die Content Authenticity Initiative hat eine „Coalition for Content Provenance and Authenticity” ins Leben gerufen und arbeitet an entsprechenden technischen Standards. Beteiligt sind Hardware-Hersteller wie Sony, Software-Häuser wie Adobe, Medien und auch mit OpenAI erste KI-Entwickler. Ziel ist angesichts der zunehmenden Deepfakes die eindeutige Kennzeichnung echter Videos, Fotos und Tonaufnahmen. Dazu werden die Metadaten der Dateien genutzt.

Allerdings stößt dieses Vorgehen bereits beim Umgang mit geklonten Stimmen an seine Grenzen. Die bisherigen Gedankenspiele der Initiative fokussieren auf professionelle Medien und bis heute kann man froh sein, wenn Forensiker oder Fachleute später Deepfakes einwandfrei bestimmen können. Angesichts der riesigen Reichweite und immensen Bedeutung von Social-Media gehen die Forderungen deutlich weiter. Jeder Nutzer soll, auch nach dem wiederholten Re-Posting, ohne besondere KI-Erfahrung und barrierefrei eine mögliche synthetische Herkunft überprüfen könnte. Überzeugende technologische Antworten auf diese Anforderungen werden noch vermisst. Ein unsichtbares oder unhörbares Wasserzeichen zu entwickeln, das auf Knopfdruck zur Überprüfung aktiviert werden kann, ist dabei noch die kleinste Hürde. Eine Einigung aller Hersteller von Bildbearbeitungs-, Videoschnitt- und Audiosoftware auf gemeinsame Standards scheint aktuell ebenso wenig realistisch wie eine umfassende Unterstützung durch Social-Media-Plattformen. Derzeit kann eine Lösung für Wasserzeichen oder Kennzeichnungs-Metadaten vor allem durch die Entwickler und Betreiber der Generativen KI erfolgen. Als umso wichtiger wird die Teilnahme von OpenAI bei der CAI wahrgenommen. Die Erfahrung hat immer wieder gezeigt, dass proprietäre Lösungen zum Scheitern verurteilt sind. Initiativen für gemeinsame Anstrengungen im Schulterschluss, auch das ist bekannt, stoßen oft auf zahlreiche Widerstände. Nur eine gesetzliche Pflicht macht dann das Unmögliche möglich. Rob Weissman äußert daher eine Forderung, die von vielen geteilt wird, und spricht sich für eine deutlich stärkere Regulierung aus. Auch KI-Entwickler warnen: "Deepfakes verbreiten sich in Betrugsversuchen und auf Social Media deutlich schneller als wir erwartet haben". Der Druck wächst.

Deepfake mit täuschend echter Stimme

"Dieses Video zeigt eindrücklich die Möglichkeiten von Generativer KI und heutiger Deepfakes. Die KI-generierte Stimme ist täuschend echt!“.
Hany Farid, Forensik-Experte, Universität Berkeley

Immer präzisere deepfake-Tools und Bots

Zumindest was Telefonbetrug im geschäftlichen Umfeld angeht, zeigt der Ferrari-Fall dagegen auch eine Lösung auf. Die Clone-Stimme von Benedetto Vigna war perfekt, die Erklärungen für die abweichende Rufnummer und den ungewöhnlichen Zeitpunkt des Anrufs eloquent. Was die Betrüger auch mit Hilfe der KI jedoch nicht lösen konnten, war eine sehr spezielle Frage nach einem Buch, dass Vigna dem Mitarbeiter einige Tage zuvor empfohlen hatte. Ähnlich wie bei Erkennungs-Chiffres im Geheimdienst-Genre könnten künftig solche Kontrollfragen ein probates Mittel der Authentifizierung und eine Notwendigkeit sein. Sie dürfen natürlich kein Gebiet betreffen, das die KI in Echtzeit beantworten kann. Ein Buchtipp sollte also nicht vorher Thema eines großen Medieninterviews gewesen sein. Technische Hilfsmittel wie Zufallsgeneratoren könnten auch ein Comeback erleben.

Die Notwendigkeit zum Handeln ist auch hier gegeben. Rachel Tobac, CEO von SocialProof Security, weist darauf hin, dass sie einen Anstieg der Zahl von Kriminellen beobachtet, die versuchen, mithilfe von KI-Stimmen zu Betrugszwecken zu klonen. Im asiatischen Raum, der stärker auf Business-Hierarchien setzt, hat es offenbar bereits erhebliche finanzielle Schäden gegeben. Auch Stefano Zanero, Professor für Cybersicherheit in Mailand, weist in einem Interview mit Fortune darauf hin, dass es nur eine Frage der Zeit sei, bis diese KI-basierten Deepfake-Tools und Bots unglaublich präzise werden.

Argumente gegen eine Kennzeichnungspflicht sind nicht in Sicht

In der Debatte um synthetische Stimmen wird zudem immer stärker hinterfragt, warum die Anbieter mit einem äußerst niedrigschwelligen Zugang werben: Warum und für welche Zielgruppe ist es zu rechtfertigen, dass wenige Sekunden Quellmaterial ausreichen, um eine täuschend echte Klone-Stimme zu erzeugen? Broadcaster und Medienprofis wie die BBC oder die New York Times, die sich wie auch der deutsche WDR in der CAI engagieren, haben eine solche Notwendigkeit ebenso wenig wie professionelle Podcaster, die Werbeindustrie oder Mediziner, die sprachgestörten Patientinnen und Patienten helfen. Bewahrheiten sich die Befürchtungen für einen rasant zunehmenden Missbrauch der faszinierenden Technologie, haben die Anbieter und auch der Regulierer also durchaus weitere Stellschrauben. Argumente gegen eine Identifizierungs- und Kennzeichnungspflicht, zumindest bei der KI-Generierung in Profiqualität, sind derzeit nicht in Sicht.

Informationen zur Content Authenticity Initiative und der „Coalition for Content Provenance and Authenticity”:

#industrie #technische standards #kennzeichnung #kiinhalte #synthetischestimmen #klonen #taeuschung #telefonbetrug #deepfake #kamalaharris #elonmusk #satire #manipulation #socialmedia #contentauthenticityinitiative #coalitionforcontentprovenanceandauthenticity #forensik #medien #xplattform #komoedie #politischeskabarett #trollfarmen #stimmimitatoren #clickbaiting #meinung #journalismus #satirekennung #generativeki #openai #metadaten #wasserzeichen #betrug #cybersicherheit #broadcaster #bbc #newyorktimes #wdr #podcaster #werbeindustrie #medizin #identifizierungskennzeichnung #professionellequalitaet

-Promotion-