Sommaire
- Pourquoi Open WebUI + Ollama ?
- Architecture : comment ça marche
- Installation et premier lancement
- Persistance : mémoire entre sessions
- RAG : apprendre de vos documents
- Multi-modèles : le bon outil pour chaque tâche
- Workflows quotidiens concrets
- Modèles recommandés
- Sécurité et confidentialité
- Dépannage
1. Pourquoi Open WebUI + Ollama ?
Open WebUI est une interface web open source qui se connecte à Ollama (IA locale) et aux API cloud (Claude, GPT, Gemini). Elle résout trois problèmes majeurs des outils IA classiques :
Vos données restent chez vous
Avec Ollama, les modèles tournent sur votre machine. Aucune donnée ne quitte votre réseau. Idéal pour les données clients sensibles.
RAG intégré
Uploadez vos documents (PDF, Word, texte) et l'IA les utilise comme base de connaissances pour répondre avec VOS informations.
Changez de modèle en un clic
Passez de Llama (local, gratuit) à Claude ou GPT (cloud, payant) selon la complexité de la tâche. Tout dans la même fenêtre.
2. Architecture : comment ça marche
| Composant | Rôle | Où il tourne |
|---|---|---|
| Ollama | Moteur d'exécution des modèles IA locaux (Llama, Mistral, Gemma...) | Votre PC (utilise le GPU) |
| Open WebUI | Interface web : conversations, RAG, gestion des modèles, historique | Votre PC (Docker ou Python) |
| API Cloud (optionnel) | Connexion à Claude, GPT, Gemini pour les tâches complexes | Serveurs distants |
3. Installation et premier lancement
3.1 Installer Ollama
Télécharger Ollama
Rendez-vous sur ollama.com/download et téléchargez l'installeur Windows. Lancez l'installation (suivant, suivant, terminer).
Télécharger un premier modèle
Ouvrez un terminal et lancez :
Ce modèle de 8 milliards de paramètres est un bon compromis qualité/performance pour commencer.
Vérifier que ça tourne
ollama run llama3.1:8b "Dis bonjour en créole réunionnais"
3.2 Installer Open WebUI
Via Docker (recommandé)
Assurez-vous que Docker Desktop est installé et lancé, puis exécutez :
--add-host=host.docker.internal:host-gateway ^
-v open-webui:/app/backend/data ^
--name openwebui ^
--restart always ^
ghcr.io/open-webui/open-webui:main
Le paramètre --restart always garantit que le conteneur redémarre automatiquement avec Windows.
Premier accès
Ouvrez votre navigateur à l'adresse http://localhost:3000. Créez votre compte administrateur (le premier compte créé devient automatiquement admin).
Vérifier la connexion Ollama
Allez dans Settings > Connections. L'URL Ollama doit être http://host.docker.internal:11434. Cliquez sur le bouton de test : un indicateur vert confirme la connexion.
4. Persistance : mémoire entre sessions
Contrairement à ChatGPT ou Claude en version web, Open WebUI conserve tout votre historique localement. Voici comment en tirer le maximum.
4.1 Historique des conversations
Toutes vos conversations sont sauvegardées automatiquement dans la base de données locale. Vous pouvez :
- Rechercher dans l'historique par mots-clés
- Organiser vos conversations par dossiers thématiques
- Reprendre une conversation là où vous l'avez laissée, même après un redémarrage
- Exporter vos conversations en JSON pour sauvegarde
4.2 Mémoire utilisateur
Open WebUI dispose d'une fonction Memory (mémoire persistante). L'IA retient des informations sur vous d'une conversation à l'autre.
Activer la mémoire
Allez dans Settings > Personalization > Memory. Activez la fonction. L'IA commencera à retenir automatiquement les informations importantes.
Ajouter des mémoires manuellement
Vous pouvez aussi ajouter des faits manuellement : « Je suis freelance IT à La Réunion, mes clients sont des PME ». L'IA les utilisera dans toutes les futures conversations.
Gérer les mémoires
Consultez et supprimez les mémoires stockées depuis Settings > Personalization > Memory. Gardez le contrôle sur ce que l'IA retient.
4.3 Instructions système personnalisées
Définissez un prompt système global qui s'applique à toutes vos conversations :
Configurez-le dans Settings > Personalization > System Prompt.
5. RAG : apprendre de vos documents
Le RAG (Retrieval-Augmented Generation) permet à l'IA de chercher dans vos documents avant de répondre. Elle ne « devine » plus : elle cite vos sources.
5.1 Créer une base de connaissances
Accéder à l'espace Documents
Cliquez sur Workspace > Knowledge dans la barre latérale. Créez une nouvelle collection (ex : « Procedures Gigarun », « Documentation clients »).
Uploader vos documents
Formats supportés : PDF, DOCX, TXT, MD, CSV. Glissez-déposez vos fichiers dans la collection. Open WebUI les découpe en segments et les indexe automatiquement.
Utiliser le RAG dans une conversation
Dans une nouvelle conversation, tapez # suivi du nom de votre collection pour l'activer. L'IA cherchera dans vos documents avant de répondre.
5.2 Cas d'usage RAG concrets
📄 Procédures internes
Uploadez toutes vos procédures IT (PRA, PCA, procédures d'installation). Posez ensuite des questions en langage naturel :
📋 Documentation commerciale
Uploadez vos grilles tarifaires, propositions passées, fiches clients :
📖 Base de connaissances Dolibarr / Vetilog
Uploadez la documentation technique de vos modules personnalisés :
6. Multi-modèles : le bon outil pour chaque tâche
6.1 Connecter des API cloud
En plus d'Ollama (local), vous pouvez connecter des modèles cloud :
Ajouter une connexion OpenAI-compatible
Allez dans Settings > Connections > OpenAI API. Ajoutez vos clés API :
- OpenAI : URL =
https://api.openai.com/v1 - Anthropic (Claude) : URL =
https://api.anthropic.com/v1
6.2 Stratégie de répartition
| Tâche | Modèle recommandé | Pourquoi |
|---|---|---|
| Questions rapides, brouillons | Llama 3.1 8B (local) | Gratuit, rapide, suffisant pour 80% des besoins |
| Rédaction longue, analyse de docs | Llama 3.1 70B ou Qwen 32B (local) | Plus précis, tourne sur RTX 4070 en quantifié |
| Code, debug complexe | Qwen 2.5 Coder 32B (local) | Spécialisé code, performances proches de GPT-4 |
| Raisonnement complexe, stratégie | Claude Opus / GPT-4 (cloud) | Quand le local ne suffit pas |
| Données clients sensibles | Modèle local uniquement | Rien ne sort de votre machine |
7. Workflows quotidiens concrets
🔧 Diagnostic client infogérance
Un client appelle avec un problème. Vous ouvrez Open WebUI :
L'IA consulte votre base de procédures, connaît la configuration du client, et vous donne un plan d'action personnalisé.
💰 Chiffrage rapide
Un prospect demande un devis. Vous interrogez votre base commerciale :
📝 Compte-rendu d'intervention
Après une intervention, dictez les grandes lignes et l'IA structure :
🔍 Veille technique
Créez une conversation dédiée « Veille » que vous alimentez au fil de l'eau :
L'historique persistant permet de retrouver toutes vos notes de veille en un seul endroit.
8. Modèles recommandés pour RTX 4070 (12 Go)
| Modèle | Taille | VRAM utilisée | Usage | Commande |
|---|---|---|---|---|
| Llama 3.1 8B | 4.7 Go | ~5 Go | Généraliste rapide | ollama pull llama3.1:8b |
| Mistral 7B | 4.1 Go | ~5 Go | Bon en français | ollama pull mistral |
| Qwen 2.5 32B | ~20 Go | ~11 Go (Q4) | Raisonnement avancé | ollama pull qwen2.5:32b |
| Qwen 2.5 Coder 7B | 4.7 Go | ~5 Go | Code et scripts | ollama pull qwen2.5-coder:7b |
| Nomic Embed Text | 274 Mo | ~500 Mo | Embeddings pour RAG | ollama pull nomic-embed-text |
nomic-embed-text est indispensable pour le RAG. Sans lui, la recherche dans vos documents ne fonctionnera pas. Installez-le en premier.ollama pull nomic-embed-text
ollama pull llama3.1:8b
ollama pull mistral
ollama pull qwen2.5-coder:7b
9. Sécurité et confidentialité
| Aspect | Modèle local (Ollama) | Modèle cloud (API) |
|---|---|---|
| Données clients | Restent sur votre PC | Transitent par Internet |
| Coût | Gratuit (après le hardware) | Payé au token |
| RGPD | Conforme par défaut | Dépend du fournisseur |
| Qualité des réponses | Bonne (8B) à excellente (32B+) | Excellente |
| Disponibilité | Pas de dépendance Internet | Nécessite une connexion |
9.1 Sécuriser Open WebUI
- Mot de passe admin fort : le premier compte créé est admin, protégez-le
- Accès local uniquement : par défaut, Open WebUI n'est accessible que sur
localhost:3000 - Sauvegardez régulièrement : le volume Docker
open-webuicontient toutes vos données - N'exposez jamais Open WebUI sur Internet sans authentification et HTTPS
docker cp openwebui:/app/backend/data ./backup-open-webui-%date:~6,2%%date:~3,2%%date:~0,2%
10. Dépannage
Open WebUI ne se connecte pas à Ollama
Vérifiez que l'URL dans Settings > Connections est http://host.docker.internal:11434 (pas localhost). Vérifiez qu'Ollama tourne : ollama ps dans un terminal.
Ollama reste bloqué en « loading »
Le port 11434 est peut-être réservé par Hyper-V/WSL. Solution dans un terminal admin :
netsh int ipv4 add excludedportrange protocol=tcp startport=11434 numberofports=1
net start winnat
Modèle très lent ou qui ne se charge pas
Le modèle est trop gros pour votre VRAM. Vérifiez avec nvidia-smi. Passez à une version quantifiée plus légère (ex : :q4_0) ou un modèle plus petit.
Le RAG ne trouve pas les bonnes informations
Vérifiez que nomic-embed-text est installé (ollama list). Vérifiez le modèle d'embedding dans Settings > Documents. Essayez de découper vos documents en fichiers plus petits et spécifiques.
Mettre à jour Open WebUI
docker stop openwebui
docker rm openwebui
# Relancer avec la même commande docker run qu'à l'installation
# Les données sont préservées dans le volume « open-webui »
Besoin d'aide ?
Nous pouvons déployer Open WebUI et Ollama dans votre entreprise, configurer vos bases de connaissances RAG et former vos équipes à l'IA locale.