Article /

Guide Ollama : Comment faire tourner Llama 3 ou Mistral localement sur votre PC (Windows, Mac, Linux)

Apprenez à installer et configurer Ollama pour exécuter les meilleurs modèles d'IA open-source comme Llama 3 et Mistral directement sur votre machine, sans abonnement et en toute confidentialité.

Guide Ollama : Comment faire tourner Llama 3 ou Mistral localement sur votre PC (Windows, Mac, Linux)

L’intelligence artificielle générative a radicalement transformé notre rapport à la création de contenu, au développement logiciel et à la recherche d’information. Pourtant, derrière l’éclat des services cloud comme ChatGPT ou Claude, une question fondamentale demeure : a qui appartiennent vos données et votre puissance de réflexion ? Pour beaucoup de technophiles, de développeurs et de défenseurs de la vie privée, dépendre exclusivement de serveurs distants appartenant à des géants de la Silicon Valley pose un problème de souveraineté, de coût et de confidentialité.

C’est dans ce contexte que l’IA locale n’est plus une simple curiosité pour experts, mais une véritable nécessité. Et au centre de cette révolution se trouve Ollama. Cet outil, devenu en un temps record la référence absolue pour faire tourner des modèles de langage (LLM) sur sa propre machine, a réussi l’exploit de rendre l’IA complexe aussi simple à utiliser qu’une application de bureau. Dans ce guide exhaustif de plus de 2000 mots, nous allons explorer chaque recoin d’Ollama, de l’installation aux optimisations les plus pointues, pour transformer votre PC en une véritable centrale d’intelligence autonome.

Pourquoi l’IA locale est-elle l’avenir (et pourquoi vous devez vous y mettre) ?

Avant de plonger dans les lignes de commande, il est crucial de comprendre les enjeux. L’IA locale n’est pas qu’une alternative “gratuite” ; c’est un changement de paradigme.

1. La Confidentialité Totale (Privacy by Design)

Dans le cloud, chaque “prompt” que vous envoyez est une donnée qui sort de votre périmètre de contrôle. Même avec les garanties de non-entraînement des modèles, vos données transitent par des infrastructures tierces. Avec Ollama, le modèle est chargé dans votre RAM, exécuté par votre processeur, et les données ne quittent jamais votre disque dur. Pour un avocat analysant des pièces de procédure, un médecin synthétisant des dossiers patients, ou un développeur travaillant sur un code propriétaire, c’est la seule option viable.

2. L’Indépendance Économique

Les modèles performants en API coûtent cher. Si vous développez une application qui nécessite des milliers d’appels quotidiens à un LLM, la facture peut vite devenir astronomique. En local, le coût marginal est nul. Vous pouvez laisser tourner votre IA 24h/24 pour indexer des documents ou générer des tests unitaires sans jamais surveiller votre compte bancaire.

3. La Fin de la Censure et du “Paternalisme” de l’IA

Les modèles commerciaux sont souvent bridés par des filtres de sécurité excessifs qui nuisent à la créativité ou à la précision technique. En utilisant des modèles open-source sur Ollama, vous avez accès à des versions “base” ou “instruct” beaucoup moins contraintes, vous permettant d’explorer des sujets complexes sans recevoir de leçon de morale de la part de l’IA.


Qu’est-ce qu’Ollama ? L’analogie avec Docker

Si vous venez du monde du développement, la meilleure façon de décrire Ollama est de dire que c’est le Docker des LLM.

Avant Ollama, faire tourner un modèle localement était un parcours du combattant : il fallait cloner des dépôts GitHub (souvent llama.cpp), compiler du code C++, configurer des environnements Python conda complexes, et télécharger manuellement des fichiers de modèles de plusieurs gigaoctets au format GGUF.

Ollama encapsule toute cette complexité. Il gère :

  • Le téléchargement des modèles via une “library” simplifiée.
  • La gestion des ressources (CPU vs GPU).
  • L’interface de communication (API REST).
  • L’orchestration des modèles (charger, décharger, permuter).

Tout se fait via une interface en ligne de commande (CLI) élégante et une API que n’importe quelle application peut consommer.


Guide d’installation complet par système

Ollama a fait de la portabilité sa priorité. Voici comment configurer votre environnement selon votre OS.

1. macOS : La Terre Promise de l’IA locale

Grâce aux puces Apple Silicon (série M), les Mac sont devenus des machines d’IA redoutables. Leur architecture de mémoire unifiée permet au GPU d’accéder à la totalité de la RAM, ce qui est un avantage colossal pour les gros modèles.

  • Procédure : Téléchargez le .zip sur ollama.com, décompressez-le et glissez l’icône dans /Applications.
  • Lancement : Au premier démarrage, Ollama vous proposera d’installer l’outil CLI. Acceptez.
  • Test : Ouvrez votre terminal (iTerm2 ou Terminal.app) et tapez ollama run mistral. L’IA va se télécharger et vous pourrez discuter instantanément.

2. Windows : La puissance brute des cartes NVIDIA

Sur Windows, l’expérience s’est énormément améliorée. La version native est désormais recommandée par rapport à l’ancienne méthode via WSL2.

  • Procédure : Téléchargez l’installeur .exe. L’installation est classique.
  • Accélération GPU : Ollama détectera automatiquement vos pilotes CUDA si vous avez une carte NVIDIA (RTX 3060, 4070, etc.). Assurez-vous que vos pilotes sont à jour via GeForce Experience.
  • Usage : Utilisez PowerShell ou le nouveau Terminal Windows pour interagir avec Ollama.

3. Linux : La flexibilité totale

Pour les serveurs ou les stations de travail Linux, Ollama propose un script d’installation universel.

curl -fsSL https://ollama.com/install.sh | sh

Ce script configure automatiquement un utilisateur système ollama, crée un service systemd (pour que l’IA démarre avec le PC) et détecte les drivers NVIDIA ou AMD (via ROCm). C’est la méthode la plus propre pour transformer un vieux serveur en centre d’IA.


Modèles, Paramètres et Quantification : Le guide technique

Pour bien utiliser Ollama, il faut comprendre ce qu’on télécharge. Un modèle n’est pas juste un fichier ; c’est une architecture complexe.

Le catalogue Ollama

  • Llama 3 (8B, 70B) : La référence de Meta. Le 8B est parfait pour un usage quotidien. Le 70B nécessite 48 Go de VRAM minimum pour être fluide.
  • Mistral 7B v0.3 : Le champion français, connu pour son efficacité et sa fenêtre de contexte étendue.
  • Phi-3 Mini (3.8B) : Le miracle de Microsoft. Un modèle minuscule qui tient sur un smartphone mais raisonne comme un grand.
  • CodeLlama / DeepSeek-Coder : Des modèles spécialisés pour le développement.

Comprendre la Quantification (GGUF)

Les modèles originaux sont énormes (plusieurs dizaines de Go). Pour les faire tourner sur un PC, on utilise la quantification. Au lieu d’utiliser des nombres flottants sur 16 ou 32 bits pour les poids du réseau de neurones, on les réduit à 4 ou 8 bits.

  • Q4_K_M : Le standard d’Ollama. C’est le meilleur ratio entre perte de précision (quasi nulle) et gain de performance.
  • Q8_0 : Plus précis, mais prend deux fois plus de place en RAM. À réserver si vous faites de la recherche de haute précision.

Utilisation avancée : Le “Modelfile” pour créer sa propre IA

C’est ici que vous passez de simple utilisateur à “Architecte d’IA”. Le Modelfile vous permet de “hacker” un modèle existant pour lui donner une personnalité ou des connaissances spécifiques.

Exemple : Créer un “Expert Debugger”

Créez un fichier texte nommé Debugger.mf :

FROM llama3:8b

PARAMETER temperature 0.1
PARAMETER num_ctx 8192

SYSTEM """
Tu es un ingénieur senior spécialisé dans le debugging de systèmes distribués.
Tes réponses doivent être structurées en trois parties :
1. Analyse de l'erreur.
2. Solutions immédiates.
3. Prévention à long terme.
Réponds toujours en français technique.
"""

Ensuite, importez-le :

ollama create expert-debug -f Debugger.mf

Vous avez maintenant un modèle expert-debug disponible dans votre liste !


Intégrations : Sortir du terminal

Le terminal, c’est bien, mais l’IA devient réellement utile quand elle s’intègre à vos outils.

1. Open WebUI : L’expérience “ChatGPT” en local

C’est l’interface web la plus avancée pour Ollama. Elle supporte le RAG (discuter avec vos PDF), la gestion d’utilisateurs, et même la génération d’images si vous y liez Stable Diffusion.

Installation rapide via Docker :

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main

Rendez-vous sur localhost:3000 et vous aurez un clone parfait de ChatGPT tournant sur votre propre matériel.

2. Cursor et le développement assisté

Si vous êtes développeur, vous connaissez sans doute Cursor, ce fork de VS Code qui intègre l’IA nativement. Bien que Cursor utilise ses propres modèles par défaut, vous pouvez configurer des extensions comme Continue.dev pour appeler votre instance Ollama locale. Cela permet de coder sans que votre code source ne transite par les serveurs d’OpenAI ou d’Anthropic.

3. Obsidian : Votre second cerveau dopé à l’IA

Grâce au plugin “Smart Connections”, Ollama peut lire l’intégralité de votre coffre (vault) Obsidian. Vous pouvez lui demander : “Fais-moi un résumé de mes notes sur la physique quantique de l’été dernier” ou “Trouve des liens entre ma note sur le jardinage et celle sur la permaculture”.


Optimisation des performances : Comment aller plus vite ?

Si vous trouvez que l’IA répond trop lentement (le fameux “token par seconde”), voici les leviers à actionner.

1. La Vitesse de la Mémoire (Memory Bandwidth)

Les LLM sont limités par la vitesse à laquelle les données transitent entre la mémoire et le processeur.

  • Sur PC : Passez à de la DDR5 si possible. Assurez-vous d’utiliser le Dual Channel.
  • Sur Mac : Les puces “Max” et “Ultra” ont une bande passante mémoire bien supérieure aux puces de base. C’est ce qui fait qu’un M2 Max peut faire tourner un modèle 70B de manière fluide.

2. Le choix du GPU

NVIDIA reste le maître grâce aux cœurs CUDA. Si vous achetez une carte pour l’IA, le paramètre le plus important n’est pas la puissance brute du calcul, mais la quantité de VRAM. Une RTX 3060 avec 12 Go de VRAM est souvent plus utile pour l’IA qu’une carte plus puissante mais limitée à 8 Go.

3. Variables d’environnement critiques

Ollama peut être configuré via des variables système :

  • OLLAMA_NUM_PARALLEL : Permet de gérer plusieurs requêtes en même temps (utile pour un serveur partagé).
  • OLLAMA_MAX_LOADED_MODELS : Nombre de modèles gardés en mémoire pour éviter le temps de chargement lors du switch.

Cas d’usage concrets pour booster votre productivité

Analyse de logs massifs

Vous avez un fichier .log de 50 Mo et vous cherchez une erreur intermittente ? cat server.log | ollama run llama3 "Trouve les erreurs liées à la base de données et résume-les" L’IA va scanner le flux et vous extraire les informations pertinentes en quelques secondes.

Rédaction de mails confidentiels

Besoin de répondre à un investisseur ou de rédiger un contrat ? En utilisant Ollama, vous avez la certitude que vos intentions et vos chiffres clés ne seront pas analysés par une régie publicitaire ou un fournisseur de cloud.

Apprentissage de nouvelles langues

Configurez un Modelfile avec le système prompt suivant : “Tu es un tuteur de français. Je vais te parler en anglais et tu corrigeras mes fautes en m’expliquant la règle de grammaire associée.” C’est un partenaire d’apprentissage infatigable et gratuit.


Glossaire technique pour briller en société

  • LLM (Large Language Model) : Modèle de langage entraîné sur des milliards de textes.
  • Prompt : La question ou l’instruction que vous donnez à l’IA.
  • Token : L’unité de base traitée par l’IA (environ 0,75 mot).
  • Inférence : L’action pour l’IA de générer une réponse à partir d’un prompt.
  • RAG (Retrieval-Augmented Generation) : Technique consistant à donner des documents externes à l’IA pour qu’elle réponde en se basant sur des faits précis.

Conclusion : L’IA est a vous

Ollama n’est pas seulement un outil technique ; c’est une porte ouverte vers une informatique plus respectueuse de l’utilisateur, plus libre et plus créative. En installant Ollama aujourd’hui, vous rejoignez une communauté mondiale de passionnés qui croient que l’intelligence artificielle ne doit pas être enfermée derrière les murs de verre des grandes entreprises de la Silicon Valley.

Que vous soyez un développeur cherchant à optimiser son workflow avec Cursor, un créateur de contenu ou simplement un curieux, la puissance de Llama 3 et de Mistral est désormais a portée de main, directement sur votre disque dur.

Le futur de l’IA ne se trouve pas dans le cloud, il se trouve dans votre salon. Alors, qu’attendez-vous pour taper votre première commande ollama run ?


Vous avez aimé ce guide ? Partagez-le et n’hésitez pas a nous dire en commentaire quel modèle vous utilisez le plus au quotidien !

Pour aller plus loin

Quand on traite un sujet comme celui-ci, le plus utile n’est pas seulement de retenir une liste d’astuces. Il faut comprendre la logique qui les relie: quels sont les arbitrages de fond, quels risques restent invisibles au premier passage, et à quel moment une bonne idée devient un mauvais compromis. C’est ce qui donne de la tenue à un article utile: il répond à une question précise, puis il aide le lecteur à replacer cette réponse dans un ensemble plus large.

Un lecteur gagne toujours à faire ce travail de croisement. Un sujet sur la sécurité ne vaut pas seulement pour les comptes et les identifiants; il dit aussi quelque chose sur l’autonomie numérique, sur la manière de réduire sa dépendance aux plateformes, et sur l’importance de garder des marges de manœuvre quand un service tombe en panne. Un sujet sur le voyage, la tech reconditionnée, l’IA ou l’écologie finit presque toujours par poser la même question: qu’est-ce qui me rend plus libre, et qu’est-ce qui me rend seulement plus encombré?

La bonne méthode consiste à vérifier trois points. D’abord, est-ce que la solution répond vraiment au besoin principal, sans détour inutile? Ensuite, est-ce qu’elle tient dans la durée, avec un coût d’usage raisonnable et un niveau de maintenance supportable? Enfin, est-ce qu’elle s’insère proprement dans le reste de votre organisation, sans créer un nouveau problème ailleurs. Si ces trois réponses sont claires, vous avez généralement un choix solide.

Dans la pratique, il faut aussi accepter qu’une réponse parfaite est rare. Le plus souvent, on cherche le meilleur compromis pour un contexte donné: budget, temps, niveau technique, besoin de confidentialité, mobilité ou confort d’usage. C’est pour cela que les articles du site sont structurés par usages et par arbitrages, pas seulement par technologie. On ne choisit pas un outil parce qu’il est à la mode; on le choisit parce qu’il reste cohérent quand on le remet dans la vraie vie.

Si vous êtes dans une phase de tri, commencez petit: un seul sujet, une seule contrainte, une seule décision. Puis élargissez seulement quand le premier choix est stabilisé. Cette approche fonctionne pour l’IA, le voyage, la sécurité numérique, le matériel ou les choix de consommation. Elle évite les articles trop théoriques et donne au lecteur un point d’appui concret.

Pour continuer la lecture, vous pouvez aussi croiser ce sujet avec ces articles:

Au fond, un bon article n’est pas seulement utile le jour où on le lit. Il doit donner envie d’aller plus loin, de comparer, de recouper et d’ajuster sa décision avec un peu de recul. C’est cette capacité à relier les sujets entre eux qui transforme une simple réponse en ressource durable.

/ Questions

Foire aux questions

Quelle configuration matérielle est nécessaire pour Ollama ? +

Pour des modèles de 7B (comme Mistral), 8 Go de RAM suffisent, mais 16 Go sont recommandés. Un GPU NVIDIA avec au moins 8 Go de VRAM accélère grandement les réponses, bien qu'Ollama puisse fonctionner uniquement sur CPU.

Ollama est-il gratuit ? +

Oui, Ollama est un outil open-source entièrement gratuit. Vous ne payez que l'électricité consommée par votre ordinateur.

Peut-on utiliser Ollama sans connexion internet ? +

Une connexion est nécessaire pour télécharger les modèles la première fois. Une fois téléchargés, l'IA fonctionne 100% hors-ligne.