De Doorbraak van Multimodale AI in Nederland

Philip Gast
AI Architect & Chief Technology Officer

Interview met Philip Gast, CTO van AdamI

In de ontwikkeling van generatieve AI is een nieuwe fase aangebroken: de opkomst van multimodale AI. Waar traditionele modellen zoals GPT-4 vooral tekst verwerken, combineert multimodale AI verschillende datatypes – tekst, beeld, spraak en video – tot één geïntegreerde output. Deze ontwikkeling is revolutionair, zeker voor sectoren als zorg, retail, industrie en overheid. Maar wat is multimodale AI precies, en hoe ontwikkelt dit zich in Nederland?

We spraken met Philip Gast, CTO van AdamI, die bedrijven helpt bij de implementatie van AI-oplossingen. Met zijn technisch-strategische blik neemt hij ons mee in de mogelijkheden én uitdagingen van multimodale AI.

Philip Gast, C~to AdamI tijdens een Tech Talk op The AI Foundry, Amsterdam

Wat is multimodale AI?

Multimodale AI-modellen bootsen de menselijke manier van waarnemen na. Net als hoe wij tegelijkertijd luisteren, kijken en context verwerken, combineren deze modellen input uit verschillende bronnen en leveren ze een coherente, contextuele output. Denk aan een systeem dat een foto bekijkt, het bijbehorende verslag leest én de gesproken uitleg van een arts analyseert – en daar een samenhangende diagnose of aanbeveling op baseert.

“Waar traditionele AI één zintuig gebruikt, beschikt multimodale AI over het hele palet aan waarneming,” zegt Philip Gast. “Dat maakt het systeem menselijker, contextgevoeliger en dus relevanter voor echte toepassingen.”

Hoe werkt het?

Multimodale AI werkt met vier stappen:

  1. Inputverwerking van verschillende datatypes (tekst, beeld, audio, video).
  2. Feature encoding die per datatype het signaal omzet naar ‘embeddings’.
  3. Fusie van signalen, waarbij relaties tussen modaliteiten worden gelegd.
  4. Generatie van output: bijvoorbeeld een antwoord, een samenvatting of een beeldbeschrijving.

Het resultaat is een AI die een complexe klantvraag in een callcenter begrijpt op basis van toon, woorden én het klantdossier – en real-time advies genereert.

Voordelen en risico's

De voordelen zijn aanzienlijk:

  • Betere gebruikerservaring: natuurlijke interactie via spraak, beeld en gebaren.
  • Hogere nauwkeurigheid: context leidt tot minder ‘hallucinaties’ (onjuiste antwoorden).
  • Meer toepassingsgebieden: van gezondheidszorg tot fraudeopsporing.

Maar er zijn ook risico’s. Philip licht toe:

“De keerzijde is complexiteit. Je werkt met privacygevoelige data, van gezichtsherkenning tot stemgeluid. Daarnaast kan een fout in één modality een domino-effect veroorzaken in de output.”

Multimodale AI in Nederland

Nederland zit in beweging. Verschillende organisaties experimenteren of implementeren al concrete toepassingen van multimodale AI.

Zorgsector: een ziekenhuis werkt AI-modellen die medische beelden, patiëntendossiers en genetische informatie combineren voor betere diagnoses.

Retail: Bij een grote Nederlandse supermarktketen wordt multimodale AI ingezet voor shelf-monitoring. Beelden van lege schappen worden gekoppeld aan logistieke data en klantgedrag. Resultaat: minder out-of-stock momenten.

Publieke sector: Een gemeente test AI-toepassingen die camerabeelden, geluidsanalyses en meldingen van bewoners combineren om gevaarlijke situaties in de openbare ruimte sneller te signaleren.

“In Nederland zie je vooral dat organisaties starten als ‘takers’ – ze gebruiken voorgetrainde modellen. Maar wij begeleiden ook partijen die als ‘shapers’ of zelfs ‘makers’ optreden, waarbij eigen data en feedbackloops worden ingezet om het model echt in de praktijk te laten leren,” aldus Philip.

Hoe begin je als organisatie?

Philip adviseert een pragmatische aanpak:

  1. Start met een concreet use case, bijvoorbeeld een customer support assistent die tekst én spraak begrijpt.
  2. Werk met een partner die de techniek én implementatie begrijpt.
  3. Blijf mensgericht: laat de AI ondersteunen, niet beslissen zonder toezicht.
“Technologie is nooit het doel op zich. Multimodale AI moet je inzetten waar het echte waarde toevoegt – voor klant, medewerker of patiënt,” stelt Philip. “Anders wordt het een dure gimmick.”

Conclusie

Multimodale AI staat aan de vooravond van brede adoptie. De belofte is groot, en de technologie rijpt snel. De uitdaging? Ethisch en effectief integreren in de praktijk. In Nederland gebeurt dit al, zij het nog te veel in pilotvorm. De organisaties die nu investeren in kennis en implementatie, leggen sneller de basis voor voorsprong in de AI-transformatie.

“We staan pas aan het begin,” zegt Philip tot slot. “Maar het potentieel is immens. Multimodale AI gaat onze interactie met technologie net zo veranderen als de smartphone dat ooit deed.”

Meer weten hierover? mail ons!

Subscribe to our newsletter

By clicking Sign Up you're confirming that you agree with our Terms and Conditions.
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Get in touch

Ready to drive your AI transformation? Contact ADAMI to schedule your personalized Impact Assessment and discover your AI-powered future.