SLO per modelli generativi: stabilire obiettivi pratici di latenza e qualità in 10 minuti

Failed to add items

Sorry, we are unable to add the item because your shopping cart is already at capacity.

Add to basket failed.

Please try again later

Add to wishlist failed.

Please try again later

Remove from wishlist failed.

Please try again later

Adding to library failed

Please try again

Follow podcast failed

Unfollow podcast failed

SLO per modelli generativi: stabilire obiettivi pratici di latenza e qualità in 10 minuti

Listen for free

View show details

In 10 minuti Marco guida chi costruisce prodotti con modelli generativi a definire SLO (Service Level Objectives) che bilancino latenza, costo e qualità percepita dall'utente. Partendo da una micro‑vignetta su un assistente che risponde troppo lentamente e frustra gli utenti, l'episodio spiega come scegliere metriche misurabili (p95 latency, risposta utile, tasso di fallback), impostare soglie realistiche e creare tre strategie di degradazione progressive: routing selettivo dei modelli, riduzione di token/compattezza delle risposte e risposte cache/edge. Marco offre un mini‑test pratico che l'ascoltatore può eseguire subito per stimare il proprio budget di latenza e una checklist scaricabile per trasformare le soglie in regole operative. Il tono è pratico e concreto: pochi concetti chiave, strumenti applicabili subito e frasi pronte per allineare team tecnici e non tecnici.

No reviews yet