Tapez une question concrète, en langage naturel. DILA trouve les articles pertinents, même venant d'autres codes, même sans aucun mot exact partagé. Pas d'OpenAI, pas d'Anthropic — tout tourne sur le VPS, en local.
Le moteur full-text actuel ne ramène que les articles contenant exactement les termes tapés. Or les juristes formulent leurs questions avec leurs propres mots — pas avec le vocabulaire officiel du Code.
puis-je, licencier,
injurié, Facebook ne forment pas une expression
légale officielle.
Le modèle multilingual-e5-large (open source) transforme chaque article
en un vecteur de 1024 nombres qui encode son sens, pas ses mots.
Les articles qui parlent du même sujet se retrouvent proches dans l'espace,
même s'ils viennent de codes différents.
Sur la carte de droite, chaque point est un article réel. Les couleurs représentent des thèmes, pas des codes : les articles sur la vie privée forment un cluster, ceux sur les obligations contractuelles un autre, etc.
Surveille l'article 9 du Code civil (le gros point violet entouré) : ses voisins les plus proches viennent du Code du travail (surveillance des salariés) et du Code pénal (atteinte à la vie privée). FTS5 ne ferait jamais ce lien — ces articles ne partagent aucun mot.
Pour répondre à une question utilisateur, le moteur encode la question
en un vecteur, puis cherche les articles dont le vecteur est le plus proche
(cosine similarity). Une recherche prend ~400 ms, indexée
dans sqlite-vec à côté de la base FTS5 existante.
Une fois la base d'embeddings construite, plusieurs usages s'enchaînent : navigation par similarité, recherche en langage naturel, outils MCP pour Claude.ai, panneau « articles similaires » dans la fiche.
Sur un article ouvert, propose automatiquement les 10 articles les plus proches — y compris venant d'autres codes que celui consulté.
L'utilisateur tape sa question avec ses propres mots, pas avec le vocabulaire officiel. Le moteur trouve les articles pertinents sans qu'aucun terme exact ne soit partagé.
Expose dila_get_similar_articles et la recherche sémantique
comme outils MCP. Claude.ai peut directement requêter
DILA en sémantique depuis n'importe quelle conversation.
Un onglet « Articles similaires » dans la fiche article transforme DILA en système de recommandation juridique : on navigue de proche en proche, comme sur Netflix mais pour le droit.
L'encodage initial des 158 k articles, la base vectorielle finale et chaque recherche utilisateur : tout est calculé sur le VPS. Pas de quota, pas de dépendance critique à OpenAI ou Anthropic.
vectors.db
158 585 vecteurs × 1024 dim × 4 octets · disque OVH
multilingual-e5-large
Open source · BAAI · auto-hébergeable · pas de licence
3 €/mois pour
100 alertes/jour. La recherche sémantique, elle, est 100 % gratuite à l'usage.
Vos utilisateurs cibles (notaires, avocats, fiscalistes) savent déjà chercher par mots-clés. Ce qui les ferait payer, c'est gagner du temps et ne plus oublier un texte applicable.
RRF.
Le meilleur des deux mondes, sans API externe.
Pour un SaaS juridique payant face à Légifrance gratuit, c'est la feature qui justifie le mieux l'abonnement. En cours d'intégration.
Ouvrir DILA