JIT
← Notebook
Idea notes AI AgentsArchitectureCloud

Eigen baseline, huur de bleeding edge

Token prices stevenen af op een real-cost reckoning. De uitweg is dezelfde als bij compute: eigen AI-baseline, burst voor de bleeding edge.

Op dit moment zijn frontier-model tokens goedkoop op een manier die niet blijft duren. De grote spelers prijzen voor een land-grab, niet voor de stroomrekening — en op een bepaald moment moet die prijs terug richting wat de inference echt kost. Wanneer dat gebeurt, zijn de teams die heel hun workflow aan metered frontier tokens hebben gehangen de eersten die het voelen: ofwel bijt de factuur, ofwel de rate limit. Ik heb deze film al eens gezien. Hij heette cloud compute.

Dit hebben we al eens opgelost

Niemand draait z’n steady-state compute op on-demand cloud pricing en noemt dat een strategie. Je zet de baseline op hardware die je zelf bezit — of colo — waar de kost voorspelbaar is, en je burst naar de cloud voor het spiky, het nieuwe, het echt elastische. Capex voor de floor, opex voor de piek. AI groeit binnenkort naar dezelfde vorm, om dezelfde reden: de economics dwingen het af.

Twee tiers van model

Niet elke token is frontier-geld waard. Het bleeding-edge werk — hard redeneren, een nieuw probleem, het ding dat je voor het eerst aan het uitvogelen bent — daar betaal je de premium, en die verdient zichzelf terug. Maar het grootste deel van een agent z’n leven — en ik draai er een hele fleet van — is bounded en repetitief: classificeer dit, extraheer dat, vat het ticket samen, draai dezelfde loop duizend keer. Dat is baseline load. Je wilt dat niet metered aan top-tier prijzen, en het hoeft ook niet — een open-weight model op GPUs die je zelf bezit, geserveerd met iets als Ollama of vLLM, doet dat werk prima, en de marginale token is zo goed als gratis.

De router is de nieuwe load balancer

Wat het een stack maakt en geen twee silo’s, is de laag ertussen. Een gateway — OpenRouter, of een self-hosted LiteLLM — die elke call routeert op policy, niet manueel. Goedkoop en bounded → het lokale model. Hard en nieuw → de frontier API. Sensitive data → verlaat nooit de owned infrastructure, punt. Je beslist het per prompt, of per agent run, met een cost ceiling eraan. De payoff: de kostcurve van eigen hardware, de burst capacity van de cloud, en — het stuk dat mijn mortgage betaalt — een audit trail van welk model welke data zag.

Prompt één request Agent run een loop, veel calls Token router — de gateway OpenRouter · self-hosted LiteLLM — routeren op policy, niet manueel cost ceiling task class data sensitivity bounded · repetitief of sensitive data hard · nieuw first-time werk Lokale / eigen modellen open-weight · Ollama · vLLM op eigen GPUs — de baseline marginale token ≈ gratis Frontier API premium · bleeding edge gehuurd — pay per token bewaar voor het harde werk
Een prompt of een agent run komt bij de router; policy kiest de tier. Bounded, repetitief of sensitive werk blijft op eigen hardware; de bleeding edge huur je bij de frontier.

Behandel tokens zoals compute: eigen baseline, huur de bleeding edge.

Niets hiervan draait vandaag in mijn rack — local-LLM serving is nog meer gefoefel dan een API-key, en de frontier beweegt snel genoeg dat huren de eerlijke keuze is. Maar het price signal wijst nu al deze kant op, en het patroon ligt klaar op de plank, volledig gespecced, voor de dag dat de factuur het pleit voor mij beslecht.