Guide Open WebUI & Ollama | IA locale avec persistance et multi-modèles

1. Pourquoi Open WebUI + Ollama ?

Open WebUI est une interface web open source qui se connecte à Ollama (IA locale) et aux API cloud (Claude, GPT, Gemini). Elle résout trois problèmes majeurs des outils IA classiques :

PersistanceHistorique complet de toutes vos conversations

ApprentissageRAG : l'IA apprend de VOS documents

Multi-modèlesOllama + Claude + GPT dans une seule interface

💾

Vos données restent chez vous

Avec Ollama, les modèles tournent sur votre machine. Aucune donnée ne quitte votre réseau. Idéal pour les données clients sensibles.

📚

RAG intégré

Uploadez vos documents (PDF, Word, texte) et l'IA les utilise comme base de connaissances pour répondre avec VOS informations.

🔄

Changez de modèle en un clic

Passez de Llama (local, gratuit) à Claude ou GPT (cloud, payant) selon la complexité de la tâche. Tout dans la même fenêtre.

💡

En résumé : Open WebUI = un ChatGPT privé et personnalisable, hébergé sur votre poste, avec mémoire et accès à tous les modèles.

2. Architecture : comment ça marche

Composant	Rôle	Où il tourne
Ollama	Moteur d'exécution des modèles IA locaux (Llama, Mistral, Gemma...)	Votre PC (utilise le GPU)
Open WebUI	Interface web : conversations, RAG, gestion des modèles, historique	Votre PC (Docker ou Python)
API Cloud (optionnel)	Connexion à Claude, GPT, Gemini pour les tâches complexes	Serveurs distants

✅

Prérequis matériel : Un GPU avec au moins 8 Go de VRAM pour les modèles locaux (une RTX 4070 12 Go est largement suffisante). Sans GPU, les modèles tournent sur CPU mais beaucoup plus lentement.

3. Installation et premier lancement

3.1 Installer Ollama

1

Télécharger Ollama

Rendez-vous sur ollama.com/download et téléchargez l'installeur Windows. Lancez l'installation (suivant, suivant, terminer).

2

Télécharger un premier modèle

Ouvrez un terminal et lancez :

ollama pull llama3.1:8b

Ce modèle de 8 milliards de paramètres est un bon compromis qualité/performance pour commencer.

3

Vérifier que ça tourne

ollama list
ollama run llama3.1:8b "Dis bonjour en créole réunionnais"

3.2 Installer Open WebUI

1

Via Docker (recommandé)

Assurez-vous que Docker Desktop est installé et lancé, puis exécutez :

docker run -d -p 3000:8080 ^
  --add-host=host.docker.internal:host-gateway ^
  -v open-webui:/app/backend/data ^
  --name openwebui ^
  --restart always ^
  ghcr.io/open-webui/open-webui:main

Le paramètre --restart always garantit que le conteneur redémarre automatiquement avec Windows.

2

Premier accès

Ouvrez votre navigateur à l'adresse http://localhost:3000. Créez votre compte administrateur (le premier compte créé devient automatiquement admin).

3

Vérifier la connexion Ollama

Allez dans Settings > Connections. L'URL Ollama doit être http://host.docker.internal:11434. Cliquez sur le bouton de test : un indicateur vert confirme la connexion.

4. Persistance : mémoire entre sessions

Contrairement à ChatGPT ou Claude en version web, Open WebUI conserve tout votre historique localement. Voici comment en tirer le maximum.

4.1 Historique des conversations

Toutes vos conversations sont sauvegardées automatiquement dans la base de données locale. Vous pouvez :

Rechercher dans l'historique par mots-clés
Organiser vos conversations par dossiers thématiques
Reprendre une conversation là où vous l'avez laissée, même après un redémarrage
Exporter vos conversations en JSON pour sauvegarde

4.2 Mémoire utilisateur

Open WebUI dispose d'une fonction Memory (mémoire persistante). L'IA retient des informations sur vous d'une conversation à l'autre.

1

Activer la mémoire

Allez dans Settings > Personalization > Memory. Activez la fonction. L'IA commencera à retenir automatiquement les informations importantes.

2

Ajouter des mémoires manuellement

Vous pouvez aussi ajouter des faits manuellement : « Je suis freelance IT à La Réunion, mes clients sont des PME ». L'IA les utilisera dans toutes les futures conversations.

3

Gérer les mémoires

Consultez et supprimez les mémoires stockées depuis Settings > Personalization > Memory. Gardez le contrôle sur ce que l'IA retient.

4.3 Instructions système personnalisées

Définissez un prompt système global qui s'applique à toutes vos conversations :

Tu es un copilote pour un freelance IT spécialisé en infogérance et cybersécurité à La Réunion. Réponds en français. Privilégie les solutions open source et auto-hébergeables. Sois concis et actionnable.

Configurez-le dans Settings > Personalization > System Prompt.

5. RAG : apprendre de vos documents

Le RAG (Retrieval-Augmented Generation) permet à l'IA de chercher dans vos documents avant de répondre. Elle ne « devine » plus : elle cite vos sources.

5.1 Créer une base de connaissances

1

Accéder à l'espace Documents

Cliquez sur Workspace > Knowledge dans la barre latérale. Créez une nouvelle collection (ex : « Procedures Gigarun », « Documentation clients »).

2

Uploader vos documents

Formats supportés : PDF, DOCX, TXT, MD, CSV. Glissez-déposez vos fichiers dans la collection. Open WebUI les découpe en segments et les indexe automatiquement.

3

Utiliser le RAG dans une conversation

Dans une nouvelle conversation, tapez # suivi du nom de votre collection pour l'activer. L'IA cherchera dans vos documents avant de répondre.

5.2 Cas d'usage RAG concrets

📄 Procédures internes

Uploadez toutes vos procédures IT (PRA, PCA, procédures d'installation). Posez ensuite des questions en langage naturel :

#procedures Quelle est la procédure de restauration d'un serveur Exchange chez le client Dupont ?

Sans RAG : Chercher dans 15 PDF différents

Avec RAG : Réponse en 5 secondes avec la source citée

📋 Documentation commerciale

Uploadez vos grilles tarifaires, propositions passées, fiches clients :

#commercial Quel tarif d'infogérance a-t-on proposé à des entreprises de 30 postes ces 6 derniers mois ?

Sans RAG : Fouiller dans les emails et fichiers

Avec RAG : Synthèse instantanée de vos propres offres

📖 Base de connaissances Dolibarr / Vetilog

Uploadez la documentation technique de vos modules personnalisés :

#vetilog Comment fonctionne le module de gestion des vaccinations dans Vetilog ?

Sans RAG : Relire le code source

Avec RAG : Réponse contextualisée depuis votre doc

⚠

Bonne pratique : Créez des collections séparées par domaine (clients, procédures, commercial, dev). Cela améliore la précision des réponses et évite les mélanges.

6. Multi-modèles : le bon outil pour chaque tâche

6.1 Connecter des API cloud

En plus d'Ollama (local), vous pouvez connecter des modèles cloud :

1

Ajouter une connexion OpenAI-compatible

Allez dans Settings > Connections > OpenAI API. Ajoutez vos clés API :

OpenAI : URL = https://api.openai.com/v1
Anthropic (Claude) : URL = https://api.anthropic.com/v1

6.2 Stratégie de répartition

Tâche	Modèle recommandé	Pourquoi
Questions rapides, brouillons	Llama 3.1 8B (local)	Gratuit, rapide, suffisant pour 80% des besoins
Rédaction longue, analyse de docs	Llama 3.1 70B ou Qwen 32B (local)	Plus précis, tourne sur RTX 4070 en quantifié
Code, debug complexe	Qwen 2.5 Coder 32B (local)	Spécialisé code, performances proches de GPT-4
Raisonnement complexe, stratégie	Claude Opus / GPT-4 (cloud)	Quand le local ne suffit pas
Données clients sensibles	Modèle local uniquement	Rien ne sort de votre machine

💡

Règle simple : Commencez toujours en local (gratuit). Ne basculez sur le cloud que si la réponse locale n'est pas satisfaisante. Cela réduit vos coûts API à quasi zéro.

7. Workflows quotidiens concrets

🔧 Diagnostic client infogérance

Un client appelle avec un problème. Vous ouvrez Open WebUI :

#procedures-clients Le client Martin (30 postes, Exchange Online) signale des emails qui n'arrivent plus depuis ce matin. Donne-moi la checklist de diagnostic.

L'IA consulte votre base de procédures, connaît la configuration du client, et vous donne un plan d'action personnalisé.

💰 Chiffrage rapide

Un prospect demande un devis. Vous interrogez votre base commerciale :

#grilles-tarifs Chiffre une infogérance pour une PME de 25 postes avec M365 Business Premium, sauvegarde Veeam et antivirus SentinelOne. Base-toi sur nos tarifs actuels.

📝 Compte-rendu d'intervention

Après une intervention, dictez les grandes lignes et l'IA structure :

Rédige un compte-rendu d'intervention : client Dupont, remplacement switch HP 24 ports par Aruba 2530, migration des VLANs 10/20/30, test de connectivité OK. Durée 2h. Format professionnel pour envoi client.

🔍 Veille technique

Créez une conversation dédiée « Veille » que vous alimentez au fil de l'eau :

Je viens de lire que Veeam v13 supporte le backup immutable sur S3. Résume les avantages pour mes clients et dis-moi si je dois mettre à jour mes offres de sauvegarde.

L'historique persistant permet de retrouver toutes vos notes de veille en un seul endroit.

8. Modèles recommandés pour RTX 4070 (12 Go)

Modèle	Taille	VRAM utilisée	Usage	Commande
Llama 3.1 8B	4.7 Go	~5 Go	Généraliste rapide	`ollama pull llama3.1:8b`
Mistral 7B	4.1 Go	~5 Go	Bon en français	`ollama pull mistral`
Qwen 2.5 32B	~20 Go	~11 Go (Q4)	Raisonnement avancé	`ollama pull qwen2.5:32b`
Qwen 2.5 Coder 7B	4.7 Go	~5 Go	Code et scripts	`ollama pull qwen2.5-coder:7b`
Nomic Embed Text	274 Mo	~500 Mo	Embeddings pour RAG	`ollama pull nomic-embed-text`

⚠

Important : Le modèle nomic-embed-text est indispensable pour le RAG. Sans lui, la recherche dans vos documents ne fonctionnera pas. Installez-le en premier.

# Installation rapide de tous les modèles recommandés
ollama pull nomic-embed-text
ollama pull llama3.1:8b
ollama pull mistral
ollama pull qwen2.5-coder:7b

9. Sécurité et confidentialité

Aspect	Modèle local (Ollama)	Modèle cloud (API)
Données clients	Restent sur votre PC	Transitent par Internet
Coût	Gratuit (après le hardware)	Payé au token
RGPD	Conforme par défaut	Dépend du fournisseur
Qualité des réponses	Bonne (8B) à excellente (32B+)	Excellente
Disponibilité	Pas de dépendance Internet	Nécessite une connexion

🚨

Règle d'or : Toute donnée client, mot de passe, ou information sensible doit être traitée exclusivement avec un modèle local. Réservez les API cloud aux tâches génériques (rédaction, brainstorming, code générique).

9.1 Sécuriser Open WebUI

Mot de passe admin fort : le premier compte créé est admin, protégez-le
Accès local uniquement : par défaut, Open WebUI n'est accessible que sur localhost:3000
Sauvegardez régulièrement : le volume Docker open-webui contient toutes vos données
N'exposez jamais Open WebUI sur Internet sans authentification et HTTPS

# Sauvegarder les données Open WebUI
docker cp openwebui:/app/backend/data ./backup-open-webui-%date:~6,2%%date:~3,2%%date:~0,2%

10. Dépannage

Open WebUI ne se connecte pas à Ollama

Vérifiez que l'URL dans Settings > Connections est http://host.docker.internal:11434 (pas localhost). Vérifiez qu'Ollama tourne : ollama ps dans un terminal.

Ollama reste bloqué en « loading »

Le port 11434 est peut-être réservé par Hyper-V/WSL. Solution dans un terminal admin :

net stop winnat
netsh int ipv4 add excludedportrange protocol=tcp startport=11434 numberofports=1
net start winnat

Modèle très lent ou qui ne se charge pas

Le modèle est trop gros pour votre VRAM. Vérifiez avec nvidia-smi. Passez à une version quantifiée plus légère (ex : :q4_0) ou un modèle plus petit.

Le RAG ne trouve pas les bonnes informations

Vérifiez que nomic-embed-text est installé (ollama list). Vérifiez le modèle d'embedding dans Settings > Documents. Essayez de découper vos documents en fichiers plus petits et spécifiques.

Mettre à jour Open WebUI

docker pull ghcr.io/open-webui/open-webui:main
docker stop openwebui
docker rm openwebui
# Relancer avec la même commande docker run qu'à l'installation
# Les données sont préservées dans le volume « open-webui »

Besoin d'aide ?

📞

GiGaRuN vous accompagne
Nous pouvons déployer Open WebUI et Ollama dans votre entreprise, configurer vos bases de connaissances RAG et former vos équipes à l'IA locale.

Contacter le support

Open WebUI & Ollama

Sommaire