Modellen & Tools

Wat is multimodal AI?

Multimodal AI is AI die meerdere typen input begrijpt: tekst, afbeeldingen, audio, video en documenten. In plaats van alleen tekst te verwerken kan een multimodal model een foto bekijken en beschrijven wat erop staat, een PDF analyseren inclusief grafieken, of een gesproken boodschap omzetten naar tekst en interpreteren. Claude, GPT-4o en Gemini zijn allemaal multimodaal. Dat maakt ze bruikbaar voor taken die verder gaan dan alleen tekst. Een AI die facturen verwerkt kan de scan van een papieren factuur lezen. Een AI die je inbox beheert kan bijlagen bekijken. Een AI die content maakt kan afbeeldingen analyseren. Voor bedrijven betekent multimodal AI dat je AI Medewerker niet beperkt is tot getypte tekst. Hij kan werken met alles wat je hem geeft: scans, foto's, spraakberichten, PDF's.

Wat is multimodal AI?

Meer uit de kennisbank

Wat is een LLM (Large Language Model)?

Wat is computer vision?

Wat is generatieve AI?