Performance LLM Quantisation et VRAM pour un Benchmarking Local Optimal
Guide avancé sur l'optimisation matérielle et logicielle (VRAM, Q-Levels) pour maximiser la vitesse d'inférence locale.
Comprendre la Contrainte Matérielle VRAM vs RAM
L’exécution de LLMs localement est un exercice d’équilibre constant entre performance (vitesse), mémoire (VRAM/RAM) et qualité du résultat. Un bon développeur ne se contente pas que le modèle fonctionne ; il optimise son fonctionnement pour qu’il soit rapide et prévisible.
Il est essentiel de différencier où les données sont traitées :
- VRAM (Video Random Access Memory) — La mémoire dédiée à votre carte graphique. Elle est incroyablement rapide et idéale pour stocker les poids du modèle (les paramètres qui définissent le savoir). Maximiser l’utilisation de la VRAM via le GPU Offload est toujours la priorité n°1.
- RAM (System Memory) — Utilisée comme mémoire tampon ou, si votre GPU manque de VRAM, elle peut être utilisée pour charger des poids supplémentaires (mais beaucoup plus lentement).
Le Dilemme Quantisation Précision vs Taille
La quantification est le facteur le plus impactant sur la taille du fichier et potentiellement sur sa performance. Les modèles GGUF offrent plusieurs niveaux de quantification, chacun avec un compromis.
| Niveau Q | Description | Taille (vs FP16) | Impact Qualité |
|---|---|---|---|
| Q8_0 | Quasi lossless | ~50% de FP16 | Négligeable |
| Q5_K_M | Bon équilibre | ~35% de FP16 | Minime |
| Q4_K_M | Standard recommandé | ~30% de FP16 | Léger |
| Q3_K_M | Compact | ~25% de FP16 | Modéré |
| Q2_K | Très compact | ~20% de FP16 | Visible |
Règles Pratiques pour l’Optimisation
-
Visez 100% GPU Offload — Si votre VRAM le permet, chargez toutes les couches sur le GPU. Le passage par la RAM système peut diviser la vitesse par 10.
-
Choisissez Q4_K_M comme point de départ — C’est le sweet spot pour la plupart des modèles 7B-13B. La perte de qualité est imperceptible pour la plupart des tâches, et la taille est raisonnable.
-
Ajustez le Context Size — Un contexte de 4096 tokens suffit pour la plupart des conversations. Réduisez-le si vous manquez de VRAM, augmentez-le pour l’analyse de longs documents.
-
Monitorer la VRAM — Utilisez des outils comme
nvtop(Linux) ou le Activity Monitor (macOS) pour surveiller l’utilisation mémoire en temps réel.
Benchmarking Votre Configuration
Pour mesurer les performances de votre setup, notez ces métriques :
- Tokens/sec (t/s) — La vitesse de génération. Visez au moins 10 t/s pour une expérience fluide.
- Time to First Token (TTFT) — Le délai avant la première réponse. Idéalement sous 500ms.
- VRAM utilisée — Doit rester sous 90% de votre capacité totale pour éviter les swap.
Avec ces optimisations, même un MacBook M1/M2 ou une carte graphique milieu de gamme peut faire tourner des modèles 7B-13B de manière fluide et productive.