Tempo contro denaro
Lo script da due lire, il modello piccolo per validare, quello grosso una volta sola. Il conto che tiene in piedi tutto il resto.
Ogni volta che faccio vedere queste cose dal vivo, a un certo punto arriva la stessa osservazione dalla sala: "ma voi i token evidentemente non li pagate". Li paghiamo, e costano. La risposta seria è che il conto è sempre lo stesso, il più vecchio del mestiere: tempo contro denaro. Quello che è cambiato è dove conviene spendere.
La prima regola ce l'avevamo già prima degli agenti: ogni lavoro ha lo strumento più economico che lo fa bene. Se una cosa la fa uno script, scrivo lo script; usare un modello di frontiera per un lavoro da venti righe di Python vuol dire pagare cento volte tanto per un risultato peggiore. L'esempio che preferisco è scemo apposta: alla fine del talk di febbraio c'era da estrarre i numeri di una riffa. La cosa giusta da chiedere all'agente era uno script che pescasse il numero, perché un modello linguistico che "improvvisa" casualità è un generatore caro e scadente, mentre lo script è gratis, onesto e verificabile. Vale per la riffa e vale per metà delle automazioni che vedo in giro.
La seconda regola è la scala dei modelli. Le attività ripetitive di verifica le fa il modello piccolo ed economico; il lavoro di testa, tipo scrivere lo script di test o progettare la soluzione, lo fa il modello grosso, una volta sola. È il giro che raccontavo nel collo di bottiglia: l'intelligenza cara produce l'asset, l'intelligenza economica lo esercita. Claude Code questa cosa la fa già da solo: quando deve esplorare la codebase mica usa il modello più costoso, delega a quello conveniente, perché è un'attività che quel modello sa fare.
La terza regola è distinguere le spese una tantum dagli abbonamenti. La skill di dominio che si costruisce in quaranta minuti di ricerca (la storia è nel Bollo per i forfettari) brucia un bel po' di token quel giorno lì, e poi lavora per te a ogni sessione che viene. Stesso discorso per la documentazione, per le regole scritte, per la memoria curata: sono asset, li paghi alla costruzione e rendono a ogni uso. La chat infinita dove rispieghi ogni volta le stesse cose è l'abbonamento: costa poco per volta e ti dissangua sul mese.
E poi c'è la regola che evita di buttare via le prime tre: niente ottimizzazione ansiosa. Conosco gente che passa le serate a limare token come si limavano i byte negli anni Ottanta. Il mercato corre nella direzione opposta: modelli più capaci a prezzi più bassi, a ogni generazione. Ammattire per risparmiare centesimi è il nuovo prompt engineering, un mestiere che evapora mentre lo impari. Le ottimizzazioni che restano sono quelle strutturali: file piccoli, contesto pulito, strumento giusto per il lavoro giusto.
Il conto vero da tenere d'occhio, alla fine, ha due voci sole: quanto vale la tua ora, e quanto costa la sua. La tua è la voce più cara dell'intera catena, e la sua continua a scendere. Spendi di conseguenza.