AI Basis

Wat is inference?

Inference is het moment waarop een AI-model een antwoord genereert. Training is het leerproces, inference is het toepassen van wat het geleerd heeft. Elke keer dat je een vraag stelt aan ChatGPT of Claude, draait er een inference-aanvraag op een server ergens. Die server verwerkt je input, berekent het antwoord en stuurt het terug. Inference kost rekenkracht, en die rekenkracht kost geld. Daarom betaal je per token bij API-gebruik. Snelheid van inference verschilt per model en per aanbieder. Kleinere modellen zijn sneller en goedkoper. Grotere modellen zijn langzamer en duurder maar vaak beter in complexe taken. Dat is precies waarom model-routing werkt: je stuurt elke taak naar het model dat de beste verhouding biedt tussen snelheid, kwaliteit en kosten.