mouret.pro
Retour au Blog
IA RAG Vector Database Privacy Open Source Claude Code MCP Notion

LEANN : la plus petite base vectorielle du monde, sur votre laptop

12 février 2026 4 min de lecture Human Score C
LEANN : la plus petite base vectorielle du monde, sur votre laptop

Je suis tombé sur LEANN, un projet open source qui m’a tapé dans l’œil. Le pitch : transformer votre laptop en moteur RAG personnel. Le tout avec un index vectoriel qui pèse 97% de moins que les solutions classiques.

60 millions de chunks de texte dans 6 Go au lieu de 201 Go. Assez pour indexer toute une vie numérique sur un MacBook sans le faire transpirer.

Le principe : recalculer plutôt que stocker

La plupart des bases vectorielles stockent tous les embeddings en permanence. LEANN fait l’inverse : il les recalcule à la demande. Le projet utilise un format compressé (CSR) et un élagage intelligent du graphe de recherche pour garder la précision sans exploser le disque.

En pratique, cela signifie qu’il est possible d’indexer des volumes de données qui nécessiteraient normalement un serveur dédié. Ici, un laptop suffit.

Vos données restent chez vous

C’est le point qui m’a le plus intéressé. LEANN fonctionne entièrement en local. Pas d’appel à OpenAI, pas de cloud, pas de conditions d’utilisation obscures. Mails, conversations, documents : tout reste sur la machine.

Pour les embeddings, le choix du backend est libre : sentence-transformers, Ollama, MLX ou même OpenAI si vous le souhaitez. Pareil côté LLM. Mais le mode par défaut, c’est du full local.

À une époque où chaque service veut aspirer vos données pour entraîner son modèle, cette approche est rafraîchissante. Si le sujet de la souveraineté des données IA vous intéresse, j’avais testé Kimi K2.5 qui pose d’autres questions sur le même thème.

Tout indexer : mails, messages, PDF, code

LEANN ne se limite pas aux PDF et fichiers texte. Il peut indexer :

  • Apple Mail
  • iMessage et WeChat
  • L’historique de conversations ChatGPT et Claude
  • L’historique du navigateur
  • Des données live via des serveurs MCP (Slack, Twitter)
  • Des dépôts de code entiers

L’objectif : créer une base de connaissances personnelle qui regroupe tout ce que vous lisez, écrivez et recevez. Et pouvoir interroger le tout en langage naturel.

Vision et PDF multimodaux

LEANN intègre ColQwen pour la recherche dans les PDF. Pas juste le texte : il comprend aussi la mise en page, les tableaux et les éléments visuels. Pour de la documentation technique ou des articles de recherche, c’est un vrai plus par rapport à une extraction de texte brute.

Exemple concret : indexer sa doc Notion et l’utiliser dans Claude Code

Voici un cas d’usage que j’ai trouvé intéressant : récupérer sa documentation Notion, l’indexer avec LEANN et interroger le tout directement depuis Claude Code.

Étape 1 : exporter Notion en Markdown

Dans Notion, allez dans Settings > Export all workspace content. Choisissez le format Markdown & CSV. Décompressez l’archive dans un dossier dédié :

mkdir -p ~/leann-data/notion
unzip Export-*.zip -d ~/leann-data/notion

Étape 2 : installer LEANN

git clone https://github.com/yichuan-w/LEANN.git leann
cd leann
uv venv
source .venv/bin/activate
uv pip install leann

Sur macOS, installer aussi les dépendances système :

brew install libomp boost protobuf zeromq pkgconf

Étape 3 : indexer la documentation

leann build notion-docs --docs ~/leann-data/notion/**/*.md

L’index est créé en local. Pas d’envoi de données vers un service tiers.

Étape 4 : connecter LEANN à Claude Code via MCP

uv tool install leann-core --with leann
claude mcp add --scope user leann-server -- leann_mcp

Vérification :

claude mcp list | cat

LEANN expose deux outils dans Claude Code : leann_list pour lister les index disponibles et leann_search pour lancer des recherches sémantiques. Vous pouvez interroger votre documentation Notion en langage naturel directement depuis votre session Claude Code.

La différence avec un grep classique : LEANN comprend le sens de votre question, pas juste les mots-clés. “Comment on gère les accès API en production ?” retournera les bons passages même si le mot “API” n’apparaît pas dans le titre du document.

À qui ça s’adresse

Si vous faites du développement ou de la veille technique intensive, LEANN peut devenir un assistant de recherche redoutable. Indexer sa documentation interne, ses notes, ses mails de projet et interroger le tout depuis un terminal - c’est le genre d’outil qui change le quotidien une fois mis en place.

Le projet est encore jeune mais l’approche est solide. À suivre.

Tous les articles