SLO per modelli generativi: stabilire obiettivi pratici di latenza e qualità in 10 minuti cover art

SLO per modelli generativi: stabilire obiettivi pratici di latenza e qualità in 10 minuti

SLO per modelli generativi: stabilire obiettivi pratici di latenza e qualità in 10 minuti

Listen for free

View show details
In 10 minuti Marco guida chi costruisce prodotti con modelli generativi a definire SLO (Service Level Objectives) che bilancino latenza, costo e qualità percepita dall'utente. Partendo da una micro‑vignetta su un assistente che risponde troppo lentamente e frustra gli utenti, l'episodio spiega come scegliere metriche misurabili (p95 latency, risposta utile, tasso di fallback), impostare soglie realistiche e creare tre strategie di degradazione progressive: routing selettivo dei modelli, riduzione di token/compattezza delle risposte e risposte cache/edge. Marco offre un mini‑test pratico che l'ascoltatore può eseguire subito per stimare il proprio budget di latenza e una checklist scaricabile per trasformare le soglie in regole operative. Il tono è pratico e concreto: pochi concetti chiave, strumenti applicabili subito e frasi pronte per allineare team tecnici e non tecnici.
adbl_web_anon_alc_button_suppression_c
No reviews yet