Decisioni chiave (con default “sicuri”)
Le scelte sotto sono quelle che determinano qualità, rischio e costi. Ogni decisione ha un default consigliato e i trigger per cambiare strada.
1) Deployment: on‑prem vs hybrid
- Default: hybrid con dati sensibili on‑prem, burst controllato in cloud.
- Quando on‑prem puro: dati regolati, vincoli di sovranità, audit stringenti.
- Rischio tipico: “cloud-first” → egress + lock‑in + esposizione compliance.
2) Modello: base, fine‑tuning, RAG
- Default: RAG + eval harness; fine‑tuning solo se serve.
- Quando fine‑tuning: formato output rigido, tone/terminologia, policy enforcement.
- Rischio tipico: fine‑tuning su dati sporchi → regressioni e drift.
3) Serving: latenza, throughput, costi
- Default: vLLM per serving general purpose; TensorRT‑LLM per latenza/throughput estremi.
- Quando cambiare: SLO p95 aggressivi, batch elevato, contesto lungo.
- Rischio tipico: sizing “a sensazione” → colli di bottiglia e costi imprevedibili.
4) Governance: compliance e evidenze
- Default: mappa obblighi → controlli → evidenze → owner (end‑to‑end).
- Quando alzare il livello: AI Act high‑risk, NIS2 in‑scope, dati speciali.
- Rischio tipico: “policy senza prove” → audit fallito.
KPI & SLO (quelli che contano davvero)
Se non misuri qualità, rischio e costi, stai facendo demo. Questi KPI sono quelli che usiamo per definire un go/no‑go enterprise.
Qualità
- Groundedness: % risposte supportate da evidenze.
- Hallucination rate: errori fattuali misurati su set di test.
- Task success: risoluzione ticket / completamento workflow.
Performance
- p95 latency: end‑to‑end (UI → API → model → tools).
- TTFT: time‑to‑first‑token per perceived latency.
- Throughput: tok/s e concurrency sostenibile.
Economics
- € / 1k tokens e € / call (per feature, per team).
- Utilization: GPU duty cycle e batch efficiency.
- Cost to serve: costo mensile per volume reale.
Risk & Ops
- Policy violations: prompt injection / data leakage.
- Incident MTTR: tempo medio di ripristino.
- Audit readiness: copertura evidenze per controllo.
Maturity Model (da demo a piattaforma)
Un percorso in 5 livelli con deliverable chiari. L’obiettivo è arrivare a una piattaforma misurabile e audit‑ready, non a un prototipo eterno.
L0
Prototype
Funziona su esempi, non su dati reali e non è misurato.
- Prompt baseline
- Dataset di test minimo
- Threat model iniziale
L1
Pilot
Use case reale, metriche e criteri di go/no‑go.
- Eval harness
- RAG controllato
- Osservabilità base
L2
Production
SLO, rollback, sicurezza operativa e processi.
- Canary + rollback
- Audit trail
- Cost dashboard
L3
Regulated
Evidenze, controlli e governance per audit esterni.
- Evidence pack
- Incident reporting
- Model risk mgmt
L4
Platform
Più use case, policy unificate e scaling industriale.
- Routing multi‑model
- Guardrails centralizzati
- FinOps per LLM
Checklists (copiabili)
Checklist pratiche per evitare i failure mode più comuni. Se vuoi, le integriamo come template nei tuoi processi.
Go/No‑Go Pilot (prima del go‑live)
- Dataset di test rappresentativo (golden set) + metriche concordate
- Policy: PII, prompt injection, data leakage (testate)
- Rollback definito + owner + runbook
- Cost model (€/call) e limiti (rate, token, budget)
Production Readiness
- SLO (p95, TTFT, availability) + alerting
- Logging strutturato + audit trail
- Model/version governance + changelog
- Security review (authn/z, secrets, network boundaries)
Audit Readiness (GDPR/NIS2/AI Act)
- Mappa obblighi → controlli → evidenze → owner
- Assunzioni documentate e firmabili
- Incident response e timeline
- Vendor/supply chain: inventario e risk assessment
ROI: come misurarlo senza auto‑ingannarsi
Il ROI “vero” non è solo costo GPU. È throughput di team, riduzione incidenti e velocità di decisione. Qui sotto un modello pratico.
1) Definisci l’unità economica
- € / ticket risolto
- € / documento processato
- € / analisi completata
2) Collega qualità → outcome
- Riduzione escalation
- Riduzione rework
- Lead time decisionale
3) Calcola costi reali
- Compute + storage + networking
- Ops + security + compliance
- Tooling + licensing
Casi d’uso enterprise (quelli che pagano)
Tre archetipi vincenti: support, knowledge work, operations. Qui trovi esempi e risultati misurabili.
Support Assistant
Deflection ticket, riduzione AHT, knowledge grounding.
NOC / Triage
Root-cause assistito, runbook retrieval, priorità incident.
R&D / Summarization
Sintesi controllata, citazioni, compliance dati.