Multimodal AI is AI die meerdere typen input begrijpt: tekst, afbeeldingen, audio, video en documenten. In plaats van alleen tekst te verwerken kan een multimodal model een foto bekijken en beschrijven wat erop staat, een PDF analyseren inclusief grafieken, of een gesproken boodschap omzetten naar tekst en interpreteren. Claude, GPT-4o en Gemini zijn allemaal multimodaal. Dat maakt ze bruikbaar voor taken die verder gaan dan alleen tekst. Een AI die facturen verwerkt kan de scan van een papieren factuur lezen. Een AI die je inbox beheert kan bijlagen bekijken. Een AI die content maakt kan afbeeldingen analyseren. Voor bedrijven betekent multimodal AI dat je AI Medewerker niet beperkt is tot getypte tekst. Hij kan werken met alles wat je hem geeft: scans, foto's, spraakberichten, PDF's.
Modellen & Tools
Wat is multimodal AI?
Meer uit de kennisbank
AI Basis
Wat is een LLM (Large Language Model)?
Een LLM is een AI-model dat getraind is op enorme hoeveelheden tekst en daardoor menselijke taal kan begrijpen en produc...
Lees meer north_east
Modellen & Tools
Wat is computer vision?
Computer vision is het vakgebied binnen AI dat zich bezighoudt met het 'zien' en interpreteren van afbeeldingen en video...
Lees meer north_east
AI Basis
Wat is generatieve AI?
Generatieve AI is AI die nieuwe content maakt: tekst, afbeeldingen, video, audio of code. In tegenstelling tot AI die al...
Lees meer north_east