Inference is het moment waarop een AI-model een antwoord genereert. Training is het leerproces, inference is het toepassen van wat het geleerd heeft. Elke keer dat je een vraag stelt aan ChatGPT of Claude, draait er een inference-aanvraag op een server ergens. Die server verwerkt je input, berekent het antwoord en stuurt het terug. Inference kost rekenkracht, en die rekenkracht kost geld. Daarom betaal je per token bij API-gebruik. Snelheid van inference verschilt per model en per aanbieder. Kleinere modellen zijn sneller en goedkoper. Grotere modellen zijn langzamer en duurder maar vaak beter in complexe taken. Dat is precies waarom model-routing werkt: je stuurt elke taak naar het model dat de beste verhouding biedt tussen snelheid, kwaliteit en kosten.
AI Basis
Wat is inference?
Meer uit de kennisbank
AI Basis
Wat is een token (AI)?
Een token is een stukje tekst dat een AI-model verwerkt. Het is niet precies een woord. Soms is het een heel woord, soms...
Lees meer north_east
AI Basis
Wat is een LLM (Large Language Model)?
Een LLM is een AI-model dat getraind is op enorme hoeveelheden tekst en daardoor menselijke taal kan begrijpen en produc...
Lees meer north_east
Modellen & Tools
Wat is model-routing?
Model-routing is het slim verdelen van AI-taken over verschillende modellen op basis van complexiteit en kosten. Niet el...
Lees meer north_east