← Tous les articles 15 décembre 2023

Performance LLM Quantisation et VRAM pour un Benchmarking Local Optimal

Guide avancé sur l'optimisation matérielle et logicielle (VRAM, Q-Levels) pour maximiser la vitesse d'inférence locale.

Optimisation IA
Benchmarking
VRAM
Quantization

Performance LLM Quantisation et VRAM pour un Benchmarking Local Optimal

Comprendre la Contrainte Matérielle VRAM vs RAM

L’exécution de LLMs localement est un exercice d’équilibre constant entre performance (vitesse), mémoire (VRAM/RAM) et qualité du résultat. Un bon développeur ne se contente pas que le modèle fonctionne ; il optimise son fonctionnement pour qu’il soit rapide et prévisible.

Il est essentiel de différencier où les données sont traitées :

VRAM (Video Random Access Memory) — La mémoire dédiée à votre carte graphique. Elle est incroyablement rapide et idéale pour stocker les poids du modèle (les paramètres qui définissent le savoir). Maximiser l’utilisation de la VRAM via le GPU Offload est toujours la priorité n°1.
RAM (System Memory) — Utilisée comme mémoire tampon ou, si votre GPU manque de VRAM, elle peut être utilisée pour charger des poids supplémentaires (mais beaucoup plus lentement).

Le Dilemme Quantisation Précision vs Taille

La quantification est le facteur le plus impactant sur la taille du fichier et potentiellement sur sa performance. Les modèles GGUF offrent plusieurs niveaux de quantification, chacun avec un compromis.

Niveau Q	Description	Taille (vs FP16)	Impact Qualité
Q8_0	Quasi lossless	~50% de FP16	Négligeable
Q5_K_M	Bon équilibre	~35% de FP16	Minime
Q4_K_M	Standard recommandé	~30% de FP16	Léger
Q3_K_M	Compact	~25% de FP16	Modéré
Q2_K	Très compact	~20% de FP16	Visible

Règles Pratiques pour l’Optimisation

Visez 100% GPU Offload — Si votre VRAM le permet, chargez toutes les couches sur le GPU. Le passage par la RAM système peut diviser la vitesse par 10.
Choisissez Q4_K_M comme point de départ — C’est le sweet spot pour la plupart des modèles 7B-13B. La perte de qualité est imperceptible pour la plupart des tâches, et la taille est raisonnable.
Ajustez le Context Size — Un contexte de 4096 tokens suffit pour la plupart des conversations. Réduisez-le si vous manquez de VRAM, augmentez-le pour l’analyse de longs documents.
Monitorer la VRAM — Utilisez des outils comme nvtop (Linux) ou le Activity Monitor (macOS) pour surveiller l’utilisation mémoire en temps réel.

Benchmarking Votre Configuration

Pour mesurer les performances de votre setup, notez ces métriques :

Tokens/sec (t/s) — La vitesse de génération. Visez au moins 10 t/s pour une expérience fluide.
Time to First Token (TTFT) — Le délai avant la première réponse. Idéalement sous 500ms.
VRAM utilisée — Doit rester sous 90% de votre capacité totale pour éviter les swap.

Avec ces optimisations, même un MacBook M1/M2 ou une carte graphique milieu de gamme peut faire tourner des modèles 7B-13B de manière fluide et productive.