Ga naar de hoofdinhoud
Pilootproject

Auto-Foley

AI-audio toevoegen aan video

Als onderdeel van het onderzoeksproject MediaGenie hebben we in het najaar van 2024 een veelbelovend pilootproject afgerond. Met Auto-Foley tonen we aan hoe kunstmatige intelligentie, en specifiek Large Language Models (LLM's), breder inzetbaar zijn dan alleen voor tekstgeneratie.

Meer info

Auto-Foley is een AI-gedreven workflow die automatisch geluidseffecten en ambience genereert op basis van videobeelden. Via beeldanalyse, text-to-audio en een editor kunnen makers snel sfeervolle audio toevoegen aan video's zonder diepgaande foley-expertise. De piloot toont dat AI vandaag al sterke inspiratie en tijdswinst biedt, vooral bij sfeeropbouw en repetitieve taken.

Uitdaging

Hoe zouden we het toevoegen van audio bij video kunnen vereenvoudigen met AI-gestuurde beeldanalyse en audiogeneratie, zodat makers sneller kwalitatieve geluidssporen kunnen creëren en synchroniseren?

Context & noden

Mediabedrijven ervaren duidelijke uitdagingen rond audioproductie:

  • Tijdrovend zoeken, creëren en synchroniseren van geluiden
  • Gebrek aan interne foley-expertise, vooral bij kleinere producties
  • Druk van korte deadlines in content- en social workflows
  • Lagere eindkwaliteit wanneer audio ontbreekt of te basic blijft

Foley blijft een craft, maar is vandaag vaak te duur of te traag.

De oplossing

Auto-Foley:

  • analyseert video’s met een vision-language model
  • genereert automatisch passende geluidseffecten en ambience
  • plant geluiden temporeel in op het juiste moment
  • combineert meerdere geluidssporen
  • biedt een editor om timing, intensiteit en coherentie manueel te verfijnen

De workflow ondersteunt zowel niet-experts als professionele makers.

Onderzoeksaanpak

We onderzochten de haalbaarheid via:

  • Rapid prototyping van een volledige pipeline (analyse → generatie → planning → editing)
  • Stresstest met realistische videofragmenten aangeleverd door partners
  • Vergelijking met andere modellen (Google V2A, Tencent Hunyuan)
  • Focusgroep over toepassingsmogelijkheden, verwachtingen en impact
  • Technische evaluatie van timing, naturaliteit en coherentie van gegenereerde audio

Resultaten: Wat werkt goed

AI bleek sterk in:

  • Sfeer neerzetten (ambient, achtergrondruis, ruimtegevoel)
  • Implied sounds: off-screen geluiden die logisch volgen uit de scene
  • Materialiteit & textuur: ondergrond, schaal, nabijheid
  • Lange, herkenbare geluiden (tot ±30 sec)
  • Inspiratie genereren: alternatieven, onverwachte combinaties
  • Snelle productie voor social en content teams

De kracht van Auto-Foley ligt in het begrijpen van de context en sfeer van een scène. Het systeem kan bovendien redeneren over off-screen geluiden: wat hoor je in deze situatie, zelfs als het niet in beeld is?

Beperkingen: Wat werkt nog niet goed

  • Coherentie tussen meerdere simultane geluiden
  • Frame-accurate timing (ritmes, herhalingen, korte cuts)
  • Korte, snel wisselende scènes
  • Scènes zonder visuele context (witte achtergrond)
  • Stem/spraak is geen sterk punt in de huidige generatie

Human-in-the-loop blijft essentieel voor timing en sound design. AI vervangt de maker niet, maar versterkt en versnelt diens werk.

Toepassingsmogelijkheden

Zeer geschikt voor:

  • Mood & sfeer video’s
  • Productshots
  • Social marketing content
  • Kleine producties zonder foley-expert
  • Creatieve experimenten (geluiden die niet bestaan)

Minder geschikt voor:

  • Documentaires met hoge nauwkeurigheidseisen
  • Muziekvideo’s of ritmisch gesneden montage
  • Dialoguescenes of spraakgedreven content

Key Learnings

  1. AI versnelt de workflow, maar vervangt foley niet: het ondersteunt.
  2. Menselijke finetuning blijft essentieel voor timing en coherentie.
  3. Modulaire AI-architectuur biedt flexibiliteit voor toekomstige modellen.
  4. Agentic workflows (LLM als orchestrator) tonen groot potentieel.
  5. AI-audio verlaagt de drempel, vooral voor niet-experts.

Gerelateerd