Ottimizzazione delle prestazioni per i LLM: Un tutorial pratico con esempi

📖 12 min read•2,209 words•Updated Apr 3, 2026

Introduzione all’Ottimizzazione delle Prestazioni dei LLM

I Grandi Modelli di Linguaggio (LLM) hanno rivoluzionato molti ambiti, dalla generazione di contenuti alla risoluzione di problemi complessi. Tuttavia, distribuire e far funzionare questi modelli in modo efficace, soprattutto su larga scala, presenta notevoli sfide di prestazione. Un’ottimizzazione delle prestazioni non riguarda solo la velocità; implica anche il rapporto costo-efficacia, l’utilizzo delle risorse e il mantenimento di un’alta qualità del servizio. Questo tutorial esplorerà strategie e tecniche pratiche per l’ottimizzazione delle prestazioni dei LLM, fornendo insight ed esempi concreti per aiutarti a ottenere il massimo dai tuoi modelli.

L’ottimizzazione delle prestazioni dei LLM comprende vari aspetti, tra cui la velocità di inferenza, l’impronta di memoria, il throughput e la latenza. L’obiettivo è spesso trovare un equilibrio tra questi fattori, a seconda delle esigenze specifiche dell’applicazione. Ad esempio, un chatbot in tempo reale richiede una bassa latenza, mentre un compito di elaborazione in batch può privilegiare un throughput elevato.

Comprendere i Collo di Bottiglia

Prima di ottimizzare, è fondamentale identificare dove si trovano i collo di bottiglia in termini di prestazioni. I collo di bottiglia comuni nell’inferenza dei LLM includono:

Operazioni legate al calcolo: Le moltiplicazioni di matrici sono al centro dei modelli di trasformatori. La velocità di queste operazioni dipende fortemente dalle capacità della GPU (TFLOPS).
Banda larga di memoria: Il trasferimento di dati tra la memoria GPU e le unità di calcolo può diventare un collo di bottiglia, soprattutto per i modelli grandi dove i pesi e le attivazioni non possono essere contenuti nella SRAM.
Trasferimento dati: Il movimento dei dati di input verso la GPU e dei dati di output verso la CPU può introdurre latenza, in particolare per piccole dimensioni di batch o complessi pre/post-trattamenti.
Sovraccarico software: Il sovraccarico dei framework, del parser Python e i percorsi di codice inefficaci possono contribuire a questo problema.
Quantizzazione/Dequantizzazione: Anche se utile per la memoria e la velocità, il processo di conversione tra diversi livelli di precisione può introdurre un sovraccarico se non gestito in modo efficace.

Strategie Pratiche di Ottimizzazione

1. Quantizzazione dei Modelli

La quantizzazione è una tecnica potente per ridurre l’impronta di memoria e il costo computazionale dei LLM rappresentando i pesi e le attivazioni con tipi di dati a precisione inferiore (ad esempio, INT8, INT4) anziché con i tipi standard FP32 o FP16. Ciò può portare a guadagni significativi in termini di velocità e risparmi di memoria, spesso con un impatto minimo sulla precisione del modello.

Esempio: Quantizzazione con Hugging Face Transformers e bitsandbytes

Hugging Face offre una straordinaria integrazione con librerie di quantizzazione come bitsandbytes, rendendo relativamente semplice la quantizzazione dei modelli.


from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
import torch

model_id = "meta-llama/Llama-2-7b-chat-hf"

# Configurare la quantizzazione a 4 bit
quantization_config = BitsAndBytesConfig(
 load_in_4bit=True,
 bnb_4bit_quant_type="nf4", # o "fp4"
 bnb_4bit_compute_dtype=torch.bfloat16,
 bnb_4bit_use_double_quant=True,
)

# Caricare il modello con quantizzazione
model = AutoModelForCausalLM.from_pretrained(
 model_id,
 quantization_config=quantization_config,
 device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_id)

print(f"Modello caricato con quantizzazione a 4 bit: {model.dtype}")

# Esempio di inferenza
text = "Raccontami una storia su un cavaliere intrepido."
inputs = tokenizer(text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Questo esempio dimostra il caricamento di un modello Llama-2-7b con una quantizzazione NormalFloat (NF4) a 4 bit. Il bnb_4bit_compute_dtype=torch.bfloat16 garantisce che i calcoli vengano eseguiti in bfloat16 per una migliore stabilità numerica, mentre la memoria è memorizzata in 4 bit. Questo riduce notevolmente l’utilizzo della VRAM e può portare a un’inferenza più rapida.

2. Elaborazione in Batch e Attenzione Paginata

Elaborazione in Batch

Inoltrare più richieste di inferenza simultaneamente in un batch può migliorare notevolmente l’utilizzo della GPU e il throughput. Le GPU sono progettate per il calcolo parallelo, e una singola richiesta di inferenza spesso non satura completamente le unità di calcolo disponibili. Aumentando la dimensione del batch, puoi raggiungere un throughput più elevato, anche se questo può aumentare leggermente la latenza delle richieste individuali.

Attenzione Paginata (Ottimizzazione della Cache KV)

I modelli di trasformatori memorizzano coppie chiave-valore (KV) per i token precedenti nel loro meccanismo di attenzione, noto come cache KV. Questa cache può consumare una quantità significativa di memoria GPU, specialmente per sequenze lunghe e grandi dimensioni di batch. L’Attenzione Paginata, popolarizzata da librerie come vLLM, ottimizza la gestione della cache KV memorizzando le voci KV in blocchi di memoria non contigui (pagine), simile a come i sistemi operativi gestiscono la memoria virtuale. Questo consente un utilizzo della memoria più efficiente e previene la frammentazione della memoria, portando a un miglior throughput e supportando dimensioni di batch effettive più grandi.

Esempio: Utilizzo di vLLM per l’Attenzione Paginata e l’Elaborazione in Batch

vLLM è un motore di servizio altamente ottimizzato per i LLM che implementa l’Attenzione Paginata e l’elaborazione in batch continua.


from vllm import LLM, SamplingParams

# Caricare il modello
llm = LLM(model="meta-llama/Llama-2-7b-chat-hf", dtype="float16", trust_remote_code=True)

# Definire i parametri di campionamento
sampling_params = SamplingParams(temperature=0.7, top_p=0.9, max_tokens=100)

# Prepara diversi inviti per l'elaborazione in batch
prompts = [
 "Ciao, mi chiamo",
 "La capitale della Francia è",
 "Scrivi una breve poesia su un gatto.",
 "Qual è il senso della vita?"
]

# Generare risposte in batch
outputs = llm.generate(prompts, sampling_params)

# Stampare le uscite
for i, output in enumerate(outputs):
 prompt = output.prompt
 generated_text = output.outputs[0].text
 print(f"Invito: {prompt!r}, Testo generato: {generated_text!r}")

Questo esempio mostra quanto sia semplice utilizzare vLLM per l’inferenza in batch. vLLM gestisce automaticamente l’elaborazione in batch continua e l’Attenzione Paginata in background, portando a guadagni di prestazione significativi rispetto all’inferenza standard di Hugging Face per scenari ad alto throughput.

3. Decodifica Speculativa dei Modelli

La decodifica speculativa (nota anche come generazione assistita o decodifica anticipata) è una tecnica che utilizza un modello di bozza più piccolo e più veloce per prevedere una sequenza di token. Questi token previsti vengono poi verificati dal modello target più grande e più preciso in parallelo. Se le previsioni sono corrette, il modello target può elaborare più token contemporaneamente, accelerando così la generazione. In caso di errore, il modello target torna alla decodifica standard dal punto di divergenza.

Come funziona:

Un piccolo e veloce modello di bozza genera una sequenza speculativa di k token.
Il più grande modello target convalida questi k token in un unico passaggio.
Se tutti i k token sono accettati, il processo si ripete.
Se un token è rifiutato, il modello target continua la decodifica dall’ultimo token accettato.

Questo può portare a guadagni di velocità significativi (ad esempio, 2-3x) senza alcun cambiamento nella qualità finale dell’uscita, poiché il modello target produce sempre la stessa sequenza come se eseguisse una decodifica convenzionale.

Esempio: Decodifica Speculativa (concettuale con Hugging Face)

Pur essendo in evoluzione il supporto diretto della metodologia generate per la decodifica speculativa in Hugging Face, ciò implica spesso la configurazione di un DraftModel. Questo è un argomento più avanzato, ma ecco un’overview concettuale:


# Questo è un esempio concettuale. L'implementazione reale può variare a seconda degli aggiornamenti del framework.
from transformers import AutoModelForCausalLM, AutoTokenizer

# Carica il modello target
target_model_id = "meta-llama/Llama-2-7b-chat-hf"
target_model = AutoModelForCausalLM.from_pretrained(target_model_id, device_map="auto")
target_tokenizer = AutoTokenizer.from_pretrained(target_model_id)

# Carica un modello di bozza più piccolo e veloce (ad esempio, un Llama più piccolo o un modello specializzato)
draft_model_id = "TinyLlama/TinyLlama-1.1B-Chat-v1.0" # Esempio di modello più piccolo
draft_model = AutoModelForCausalLM.from_pretrained(draft_model_id, device_map="auto")

# In uno scenario reale, integreresti questo. Il metodo generate di Hugging Face potrebbe ricevere un argomento 'draft_model'.
# Per ora, illustra l'idea.

# Esempio di come il decodifica speculativa potrebbe essere invocata (l'API è soggetta a modifiche/sviluppo)
# tokens_to_generate = 100
# inputs = target_tokenizer("La veloce volpe bruna", return_tensors="pt").to("cuda")
# generated_ids = target_model.generate(
# **inputs,
# max_new_tokens=tokens_to_generate,
# draft_model=draft_model # Questo argomento è un esempio di un'API potenzialmente futura
# )
# print(target_tokenizer.decode(generated_ids[0], skip_special_tokens=True))

print("La decodifica speculativa accelera notevolmente la generazione utilizzando un modello di bozza.")
print("Librerie come 'ExaFTS' di Google o le future funzionalità di Hugging Face semplificheranno questo.")

Alla fine del 2023/inizio 2024, le API di decodifica speculativa dirette e user-friendly diventano più mature in vari framework. Rimanete aggiornati sulla documentazione del metodo generate di Hugging Face per gli argomenti draft_model o simili.

4. Ottimizzazione Hardware e Strategie di Distribuzione

Scelta dell’Hardware Appropriato

GPU: Le GPU NVIDIA dominano per l’inferenza LLM. Considera la VRAM (per la dimensione del modello), i TFLOPS (per la velocità di calcolo) e la larghezza di banda della memoria. Per i modelli grandi, più GPU o GPU con alta VRAM (ad esempio, A100, H100) sono essenziali.
CPU: Sebbene le GPU gestiscano la maggior parte del lavoro, le CPU sono coinvolte nel caricamento dei dati, nel pre/post-trattamento e nella coordinazione delle attività delle GPU. Le CPU con un numero elevato di core possono essere utili per un buon throughput con molte richieste simultanee.

Framework e motori di distribuzione

Oltre a PyTorch/TensorFlow di base, motori di inferenza specializzati offrono vantaggi di prestazioni significativi:

vLLM: Come discusso, eccellente per il throughput grazie all’attenzione paginata e al batch continuativo.
NVIDIA TensorRT-LLM: Una libreria altamente ottimizzata per accelerare l’inferenza LLM sulle GPU NVIDIA. Effettua ottimizzazioni grafiche, unisce i kernel e supporta vari schemi di quantizzazione. Spesso offre le migliori prestazioni assolute sull’hardware NVIDIA.
OpenVINO (Intel): Per le CPU Intel e le GPU integrate, OpenVINO propone ottimizzazioni per l’inferenza LLM, inclusa la quantizzazione e la compilazione di grafici.
ONNX Runtime: Un motore di inferenza multiplatform che può accelerare i modelli su vari hardware. Puoi esportare modelli in formato ONNX e poi utilizzare ONNX Runtime per la distribuzione.

Esempio: Utilizzo di NVIDIA TensorRT-LLM (Concettuale)

TensorRT-LLM implica un passaggio di costruzione per convertire il tuo modello in un motore TensorRT ottimizzato. Questo coinvolge solitamente script Python forniti da TensorRT-LLM.


# Questo è un'anteprima concettuale di alto livello. L'uso reale di TensorRT-LLM implica
# clonare il loro repository, costruire motori e poi fare inferenze.

# 1. Installare TensorRT-LLM (dalla sorgente o da pacchetti pre-costruiti)
# 2. Convertire il tuo modello Hugging Face nel formato TensorRT-LLM (ad esempio, utilizzando i loro script forniti)
# Comando di esempio (concettuale) :
# python convert_checkpoint.py --model_dir meta-llama/Llama-2-7b-chat-hf \
# --output_dir ./trt_llama_7b --dtype float16

# 3. Costruire il motore TensorRT
# python build.py --model_dir ./trt_llama_7b --output_dir ./trt_engine --dtype float16 \
# --max_batch_size 64 --max_input_len 512 --max_output_len 512

# 4. Caricare e inferire con il motore TensorRT
# from tensorrt_llm.runtime import LlmRuntime
# runtime = LlmRuntime("./trt_engine", n_gpus=1)
# output_ids = runtime.generate(inputs)

print("TensorRT-LLM offre prestazioni di inferenza all'avanguardia sulle GPU NVIDIA.")
print("Richiede un passaggio di costruzione per creare un motore ottimizzato.")

TensorRT-LLM offre le ottimizzazioni più aggressive, producendo spesso il miglior throughput e la latenza più bassa sull’hardware NVIDIA. Tuttavia, implica un processo di costruzione più complesso specifico per il tuo modello e le tue configurazioni desiderate.

5. Tokenizzazione e pre/post-trattamento efficaci

Spesso trascurati, una tokenizzazione e dei passaggi di pre/post-trattamento inefficaci possono aggiungere costi significativi, soprattutto per i modelli piccoli o gli scenari a bassissima latenza. Assicurati di:

Utilizzare tokenizzatori veloci (ad esempio, la libreria tokenizers di Hugging Face, che utilizza un backend in Rust).
Applicare la tokenizzazione in batch quando è possibile.
Scaricare il pre/post-trattamento legato alla CPU in thread o processi separati se bloccano il calcolo GPU.

Misurare le performance

Per affinare efficacemente le performance, hai bisogno di metriche affidabili:

Latency: Tempo passato tra la sottomissione della richiesta e il completamento della risposta (spesso misurato in millisecondi). Critico per le applicazioni interattive.
Throughput: Numero di token o richieste elaborati per unità di tempo (ad esempio, token al secondo, richieste al secondo). Critico per il processing in batch ad alto volume.
Utilizzo della memoria (VRAM): Quantità di memoria GPU consumata dal modello e dalle sue attivazioni. Cruciale per determinare se un modello può adattarsi all’hardware disponibile.
Utilizzo della GPU: Percentuale di tempo durante la quale le unità di calcolo della GPU sono attive. Un alto utilizzo (vicino al 100%) indica un uso efficiente dell’hardware.

Strumenti come nv-smi (per le GPU NVIDIA), script di profiling Python personalizzati (utilizzando time.time() o torch.cuda.Event), e strumenti di benchmarking specializzati (ad es. quelli forniti da vLLM o TensorRT-LLM) sono inestimabili.

Conclusione

La regolazione delle performance degli LLM è un compito complesso, richiedendo un mix di ottimizzazione software, comprensione dell’hardware e conoscenza dell’architettura del modello. Applicando sistematicamente tecniche come la quantizzazione, il batch avanzato (Paged Attention), la decodifica speculativa e l’uso di motori di inferenza specializzati, puoi migliorare notevolmente l’efficienza, la velocità e il rapporto costo-efficacia delle tue distribuzioni LLM. Non dimenticare di eseguire benchmark approfonditi e iterare sulle tue ottimizzazioni per trovare il miglior equilibrio per il tuo caso d’uso specifico. Il campo dell’ottimizzazione degli LLM è in rapida evoluzione, quindi rimanere aggiornati con le ultime ricerche e strumenti è essenziale per mantenere prestazioni massime.

🕒 Published: April 3, 2026

✍️

Written by Jake Chen

AI technology writer and researcher.

Learn more →