Syntetiske medier i den gode sags tjeneste

By: Andrew Dickson

ER DEEPFAKES ALTID SKUMLE, ELLER KAN DER KOMME NOGET GODT UD AF DEM?

Den er måske kun et par år gammel, men deepfake-teknologien har en broget historie. Uanset om det er nyhedshistorier om deepfake pornografi eller angst blandt amerikanske politikere for, at den russiske efterretningstjeneste kunne bruge deepfakes til at sprede desinformation, så begynder koldsveden ved tanken om at bruge AI til at manipulere allerede eksisterende video- eller lydoptagelser. Det er ikke så mærkeligt, at Facebook lovede at forbyde deepfakes tidligere i år, med henvisning til frygten for, at brugere kunne blive vildledt.

Men er de virkelig så skumle, når det kommer til stykket? Kan der komme noget godt ud af denne teknologi? Med andre ord, er der mere bag deepfakery end porno og Putin? Kan de måske endda være nøglen til vores kreative fremtid?

Omer Ben-Ami, medstifter af det israelske teknologifirma Canny AI, mener, at svaret på alle punkter er ja. Som samarbejdspartner på In Event of Moon Disaster-projektet var Ben-Ami og hans kolleger ansvarlige for at give Richard Nixon realistiske ansigtsbevægelser, når han læste op fra den alternative Apollo 11-tale.

I stedet for at tale om “deepfakes”, fortæller Ben-Ami mig med et grin, så foretrækker Canny AI at bruge udtrykket “Video Dialogue Replacement” (VDR) — som har fordelen af at være både mere præcist og, ja, lyde mindre ondsindet.

“Mange mennesker bruger ‘deepfake’ til at tale om face-swapping, som er blevet rigtig populært med apps,” siger han. “VDR er mere subtilt, og det er meget sværere at gøre det overbevisende.”

Et eksempel er en video, som Canny AI lavede sidste år. Den skildrede verdensledere som Trump, Obama og Xi Jinping, der mimede med på John Lennons “Imagine” (fans af ironi vil måske sætte pris på, at Putin også dukkede op). Videoen blev lavet ved hjælp af arkivoptagelser, som udviklere brugte som et “træningssæt” til at generere nye mundbevægelser for hver politiker. Et produktionsstudie redigerede derefter de nye versioner af de gamle klip sammen, så de passede til sangen. Alt i alt tog det kun et par uger.

side-by-side photo os Vladimir Putin and actor "puppeting" his voice

EN SKUESPILLER LEVERER DATA TIL ANSIGTSKORTLÆGNING FOR AT FÅ DET TIL AT SE UD, SOM OM DEN RUSSISKE PRÆSIDENT, VLADIMIR PUTIN, SYNGER “IMAGINE” AF JOHN LENNON (KREDITERING: Canny AI)

Ud over enkeltstående projekter som dette er der adskillige praktiske og kreative applikationer, som hver især sandsynligvis vil vende op og ned på måden, hvorpå video laves og formes bag kulisserne. En måde er at tage det hårde benarbejde ud af at dubbe video fra et sprog til et andet. I stedet for at hyre stemmeskuespillere til at genindspille og synkronisere dialog — for dyrt og tidskrævende for alle undtagen de største producenter — gør VDR det hurtigt og billigt og også mere overbevisende. En film lavet på Mandarin kan se ud og lyde, som om den er optaget med en hindi- eller spansktalende rollebesætning; en fysikforelæsning på engelsk på Harvard kan oversættes for studerende i Dar es Salaam eller Tokyo og fremstå lige så autentisk og engagerende som originalen.

“Man kan kommunikere som indfødt på ethvert sprog,” siger Ben-Ami. “Det er enormt spændende, både kommercielt og kreativt.”

Der er også journalistiske og informationsmæssige anvendelser. Til HBO-dokumentaren “Welcome to Chechnya” brugte den visuelle effekt-stjerne Ryan Laney ansigtsbytningsteknikker for at beskytte identiteten på de forfulgte homoseksuelle mennesker, som filmskaberne havde interviewet. Der var tale om syntetiske funktioner genereret ved hjælp af maskinlæring til at skjule deres rigtige ansigter.

BBC’s Blue Room-laboratorium har samarbejdet med det London-baserede teknologifirma Synthesia for at skabe en video-vejrudsigt, hvor en ægte, men AI-forstærket studievært giver dig en tilpasset vejrudsigt (både underligt og underligt normalt). Mere avancerede teknikker — såsom evnen til at skrive tekst i en app og få den til at producere realistisk video af folk, der siger ordene, er tæt på, mener eksperter.

Grant Reaber fra det ukrainske firma Respeecher — som leverede Nixons “stemme” til In Event of Moon Disaster-projektet ved hjælp af AI-analyse af lydoptagelser — peger på filmindustrien. I øjeblikket er lydinstruktører begrænset med hensyn til, hvor meget de kan rydde op i lyd, der er blevet optaget på et filmset, hvilket ofte nødvendiggør dyr og kompleks postproduktion, eller kræver, at skuespillere trasker ind i et studie for at gentage dialogen. Syntetisk lyd kunne gøre op med alt det, og endda lade instruktører justere deres stjerners accenter eller intonation. “Vi tænker på det som Photoshop til stemmen,” siger Reaber.

Der er også stærke applikationer til den virkelige verden. Reaber er fascineret af, hvordan AI-redigeret lyd kan hjælpe sprogelever ved at regulere udtale og intonation og dermed gøre optagelser af fremmedsprog lettere at fordøje. Et andet firma, det Massachusetts-baserede VocaliD, bruger maskinlæring til at skabe “brugerdefinerede stemmer” til medicinske formål og uddannelse samt underholdning og kundesupport. Et særligt overbevisende eksempel er til personer, der har mistet stemmen på grund af tilstande som halskræft eller Parkinsons, og som er afhængige af en talesynthesizer for at tale. I stedet for at skulle bruge en generisk robotstemme kan de (gen)skabe en stemme, der er helt deres egen.

“Det er svært at forestille sig, hvordan livet ville være uden din stemme, før du virkelig står over for det,” forklarer VocaliDs grundlægger, Rupal Patel, en tidligere talepædagog. “Når du skal stole på en kunstig stemme, kan intet sammenlignes med en, der passer til din personlighed og individuelle identitet.”

Hendes virksomhed har endda brugt teknologien til at hjælpe folk med at huske deres kære, der siden er døde — som at se på familiefotografier, men endnu mere intimt. “Familiemedlemmer fortæller, at de bruger stemmen som en måde at håndtere smerten og sorgen på, når modtageren ikke længere er til stede,” siger hun.

Ganske vist er der etiske dilemmaer og udfordringer i at manipulere medier på dette niveau, siger D. Fox Harrell, direktør for MIT’s Center for Advanced Virtuality, som producerede In Event of Moon Disaster. “En del af problemet er mediekendskab,” siger han. ”Folk har endnu ikke haft mulighed for at være kritiske forbrugere. Det, jeg gerne vil se, er mere udbredt kritisk forbrug og produktion af brede og forskelligartede grupper af mennesker.”

Men der er altid sket interessante og kreative ting i rummet mellem sandhed og fiktion. Tænk på Shakespeares historiske stykker, som bøjer og vrider den historiske fortælling for at skabe dramatiske buer, eller på barokke trompe l’oeil-malerier, der narrer vores øjne og får os til at tro, at vi ser 3D-objekter i stedet for et fladt lærred.

Selv fotografering har altid været et mere tvetydigt medie, end vi måske tror, påpeger Harrell: årtier før Photoshop blev almindeligt, beskar, under- og overbelyste fotografer billeder i mørkekammeret og brugte kemiske processer til at ændre de “rigtige” billeder, de havde taget med kameraet. “Fotografi er ikke en direkte kanal for en eller anden form for objektiv sandhed,” siger Harrell.

De færreste af os ville kategorisere dette som netop falsk, i det mindste nu om dage — eller måske er vi mere interesserede i, hvor godt det bliver gjort, og til hvilke kreative formål, snarere end om det objektivt set er rigtigt eller forkert.

Måske vigtigst af alt; selvom en teknologi bruger kunstig intelligens, er den stadig afhængig af mennesker til det kreative input, påpeger Ben-Ami: “Du har stadig brug for den menneskelige faktor til at finjustere alting.”

Og selvom vi måske ruller med øjnene over “virtuelle” Instagram-influencere såsom Lil Miquela (skabt ved hjælp af algoritmer), der pludselig er i stand til at tale, eller udsigten til, at berømtheder giver lov til, at deres videoavatarer laver reklamer, mens de daser på stranden, så giver syntetiske medier langt flere spændende muligheder for dem, der har fantasi. Filmstuderende vil snart være i stand til at fremtrylle live-action-sekvenser, som Hollywood VFX-studier plejede at bruge måneder og millioner af dollars på. Billedkunstnere kan blande allerede eksisterende optagelser og dialog på måder, der får os til at spekulere over dokumentaroptagelsen, og lydkunstnere vil kunne eksperimentere med at skabe nye og mangfoldige stemmer, måske på sprog, der endnu ikke eksisterer. Når alt kommer til alt, har MIT’s In Event of Moon Disaster-projekt allerede deepfaket en ægte, årtier gammel præsidenttale, som — heldigvis — aldrig blev holdt.

“Ligesom andre medier kan computermedier bruges til mange formål,” siger Harrell. “Det kan bruges til at producere meget kreative og socialt gavnlige værker.”

Det eneste, vi ved med sikkerhed, kendetegner mange nye teknologier: De mest overbevisende deepfakes tør vi ikke engang drømme om endnu. “Mulighederne er uendelige,” siger Patel. “Og nogle af disse ting er tættere på, end du måske tror.”

Kreditering foto indledning: Kilde: Helen Simonsson via Flickr

Se den originale version af artiklen på engelsk hér: Synthetic Media For Good

Tilbage til ressourcer