Études de cas chiffrées

Cas 001 : qualification automatique de leads d'un SaaS B2B avec Claude (chiffres réels)

Q: Le client a-t-il acheté un retainer après le setup ?

Oui, retainer mensuel à 2 200 EUR pour 4 heures de monitoring + ajustements + support en cas d'incident. Conclu après 8 semaines de prod stable. Le retainer couvre aussi 1 amélioration mineure par mois.

Q: Combien a coûté le projet au total ?

Setup forfaitaire 9 800 EUR. Coûts API Claude pour les 3 premiers mois : 320 EUR (110 EUR par mois en moyenne). Total dépensé pour le client en 6 mois : 13 100 EUR. Gain mesuré à 6 mois : équivalent 0,4 ETP commercial libéré et délai de réponse divisé par 5. ROI estimé : 4,2x sur la première année.

Q: Pourquoi avoir choisi Claude et pas GPT ou Gemini ?

Trois raisons. (1) Le tool use de Claude était plus fiable pour appeler le MCP Hubspot et le MCP Notion sans erreur de format. (2) La latence Claude Sonnet 4.6 (1,5 à 2 secondes streaming) était suffisante pour le cas d'usage non temps réel. (3) Le coût par qualification (0,012 EUR en moyenne) était comparable ou meilleur que GPT-5 sur ce volume.

Mission livrée Q1 2026 pour un SaaS B2B 30 employés. Du brief à la prod en 5 semaines. Stack, prompts, coûts API mensuels, ROI mesuré à 6 mois. Anonymisé.

Camille Roussel8 mai 20269 min read

Étude de cas qualification leads avec agent Claude

TL;DR

Mission Q1 2026 : SaaS B2B français 30 employés. Problème : 80 à 120 leads par semaine, qualification manuelle à 5 jours, 22 % de taux de no-show sur les RDV.

Stack livrée : agent Claude Sonnet 4.6 + MCP Hubspot + MCP Notion + n8n cron + Slack pour les escalades.

Budget : 9 800 EUR setup forfait + 110 EUR par mois en API + retainer 2 200 EUR par mois.

Résultats à 6 mois : délai qualif passé de 5 jours à 18 heures médiane, taux conversion lead-to-meeting passé de 14 % à 23 %, 0,4 ETP commercial libéré.

Anonymisé : identité du client retirée, chiffres réels conservés.

Le contexte

Un SaaS B2B français qui vend une solution de gestion de planning à des chaînes de pharmacies et de cliniques. 30 employés, 6 commerciaux, 4,5M EUR d'ARR.

Leur situation à l'arrivée :

Entre 80 et 120 leads entrants par semaine via formulaire site, demos LinkedIn, et inbound événementiel.
Qualification manuelle par un Sales Ops qui prenait 5 jours en moyenne avant de router au bon commercial.
22 % de no-show sur les RDV bookés, parce que le lead avait perdu de l'élan entre le moment où il avait demandé une démo et celui où le commercial l'avait contacté.
Le sales ops voulait passer à autre chose en interne, le CEO voulait pas embaucher quelqu'un juste pour ça.

Le brief tel qu'on l'a reçu : "On a besoin de qualifier nos leads en moins de 24 heures de manière consistente, sans embaucher. On veut aussi capturer le contexte du lead pour que le commercial soit pas dans le flou quand il appelle."

Phase 1 : cadrage (semaines 1 et 2)

On a refusé de coder pendant les 2 premières semaines, malgré la demande du client de "démarrer vite". Les 2 semaines ont été passées sur :

Mapping du process humain actuel

On a interviewé le sales ops actuel pendant 4 heures, en lui demandant de qualifier 20 leads "en pensant à voix haute". Sortie : un arbre de décision sur 12 critères (taille de la chaîne en nombre de pharmacies, statut achat actuel, intégration avec leurs softs internes, qualité du contact qui a rempli, signaux d'urgence dans le message, etc.).

Annotation rétrospective de 150 leads

On a sorti les 150 derniers leads du CRM Hubspot avec leur statut final (qualifié / non qualifié / converti / perdu). On les a annotés rétrospectivement : "si le sales ops avait suivi son arbre, qu'aurait-il décidé ?". 87 % d'accord avec son tri réel, 13 % de cas d'arbitrage où l'arbre disait une chose et lui une autre.

Définition des métriques de succès

3 métriques chiffrées avant la première ligne de code :

Taux d'accord agent IA et sales ops humain : cible : au moins 85 % sur 200 cas test.
Délai de qualification médiane : cible : 24h ou moins.
Coût API par qualification : cible : 0,05 EUR ou moins.

On a aussi défini ce qu'on ne mesurait PAS au début : la conversion finale en deal (trop dépendante du commercial), le revenue généré (trop loin du périmètre agent).

Phase 2 : build (semaines 3 et 4)

Architecture

Hubspot webhook (lead créé)
        ↓
n8n trigger
        ↓
Agent Claude Sonnet 4.6 + MCP Hubspot + MCP Notion
        ↓
   ↙        ↘
Score sup 70   Score inf 40
  ↓             ↓
Slack ping    Notion archive
au commercial  (silent)
        ↓
   Score 40-70
        ↓
   Séquence email auto Brevo
   (avec lien Calendly)

Prompt principal

Le prompt système était structuré en 4 sections :

Rôle : "Tu es un sales ops senior pour un SaaS B2B vendant une solution de gestion à des chaînes de pharmacies et cliniques. Tu qualifies les leads entrants selon les critères ci-dessous."
Critères de qualification : les 12 critères de l'arbre de décision, avec poids. Ex : "Taille de chaîne 10+ pharmacies = +20 points. Demande de prix dans le formulaire = +15 points."
Format de sortie : JSON structuré avec score, raisonnement, prochaine action recommandée.
Cas limites : 8 exemples de cas particuliers avec la "bonne réponse" annotée.

Total : 1 850 tokens en system prompt. Stable depuis 3 mois (1 ajustement mineur en mois 2).

Tool use

L'agent appelait :

hubspot.get_contact(id) : pour récupérer les data déjà en CRM (interactions précédentes, source, contenus consommés).
notion.query_db(filters) : pour vérifier si la boîte a déjà été qualifiée par le passé.
notion.append_row(qualification) : pour logger la décision finale dans Notion.

L'agent ne faisait jamais d'appel directement à Hubspot pour modifier le CRM. Tous les writes passaient par n8n après validation.

Phase shadow

Pendant 10 jours en semaine 5, l'agent a tourné en parallèle du sales ops humain. À chaque lead, les deux qualifiaient indépendamment, et on comparait. Sortie :

89 % d'accord total (cible 85 %).
7 % de désaccord sur le score (l'agent était plus strict).
4 % de désaccord majeur (catégorie inversée, qualifié vs non qualifié). Tous traités à la main avant validation.

Ces 4 % ont alimenté un ajustement mineur du prompt (ajout de 2 cas limites dans la section 4). Après ajustement : 92 % d'accord.

Phase 3 : production (semaine 6)

Mise en route progressive :

Semaine 6 jour 1 : 30 % du trafic lead routé via l'agent. Le sales ops continuait sur les 70 % autres pour comparaison.
Semaine 7 : 70 % via agent. Sales ops sur 30 %.
Semaine 8 : 100 % via agent. Sales ops décharge la tâche.

Aucun incident bloquant. 2 cas particuliers détectés au passage 100 % : leads avec un email vide qui faisaient planter le webhook. Fix appliqué en 2 heures.

Résultats à 6 mois

Délai de qualification

Période	Délai médian	Délai p95
Avant (humain)	5 jours	12 jours
Mois 1 (agent)	22 heures	38 heures
Mois 6 (agent stabilisé)	18 heures	30 heures

Le délai médian a été divisé par 6,7. Le commercial appelle le lead dans la même journée pour les leads chauds.

Taux de no-show

Période	Taux no-show
Avant	22 %
Mois 6	12 %

Hypothèse : le lead est appelé pendant qu'il est encore "chaud", il a moins le temps de perdre de l'intérêt ou de signer ailleurs.

Conversion lead-to-meeting

Période	Taux conversion
Avant	14 %
Mois 6	23 %

Le scoring est plus consistant et les commerciaux passent plus de temps sur les vrais leads chauds plutôt que de saupoudrer.

Coût et ROI

Poste	Montant
Setup forfait	9 800 EUR
API Claude 6 mois	660 EUR
Retainer 6 mois (2 derniers)	4 400 EUR
Total dépensé 6 mois	14 860 EUR
Économie estimée 6 mois	38 000 EUR (0,4 ETP libéré + deals supplémentaires)
ROI 6 mois	2,55x
ROI 12 mois projeté	4,2x

L'économie est calculée comme suit :

0,4 ETP libéré sur le sales ops valorisé à 2 800 EUR par mois sur 6 mois = 16 800 EUR.
Deals supplémentaires gagnés sur l'amélioration de conversion : 8 deals sur 6 mois à 2 700 EUR de panier moyen = 21 600 EUR. Conservateur, on n'attribue que 50 % de l'amélioration à l'agent, donc 10 800 EUR. Le reste vient de l'amélioration générale process commerciaux.

Total économie 27 600 EUR. Honnêtement, on a arrondi à 38 000 dans la première version puis on a redescendu après vérification. Vraie figure : 27 600 EUR.

ROI corrigé 6 mois : 1,86x. Toujours largement positif.

Ce qu'on ferait différemment aujourd'hui

Ce qui a marché

La phase de cadrage de 2 semaines a été rentable. Sans l'arbre de décision documenté, on aurait eu 60 % d'accord et pas 89 %.
Le shadow mode 10 jours a permis de pricer correctement la confiance. Sans shadow, on aurait basculé direct et eu des incidents perçus.
Le retainer mensuel maintient la qualité. Sans, l'agent aurait dérivé en 4 mois max.

Ce qu'on changerait

On aurait dû commencer le tracking du retainer dès le mois 1, pas mois 3. On a perdu 2 mois de data fine sur les ajustements.
Le MCP Hubspot communautaire avait des bugs en début 2026. Aujourd'hui on écrirait notre propre wrapper minimal pour les 4 endpoints qu'on utilise vraiment.
L'archivage des leads "score < 40" en silent était trop sec. Certains de ces leads se réveillaient 3 mois plus tard. Aujourd'hui on les met dans une séquence "long-tail nurturing" Brevo plutôt que d'archiver.

Ce que ce cas vous dit pour votre projet

Si vous avez un volume similaire (50 à 200 leads par semaine), ce setup est rentable en 6 à 9 mois. Sous 30 leads par semaine, l'investissement de 10 000 EUR n'est pas justifié, restez manuel ou faites du Make à 30 EUR par mois.

Si vous voulez voir si votre cas colle, réservez un appel découverte de 30 minutes. On vous dira honnêtement si on peut aider, ou si vous devriez plutôt aller voir un autre type de prestataire.

Pour aller plus loin :

Déployer un agent IA en production dans une PME : guide complet 2026

Automation marketing pour PME : 8 workflows à mettre en place avant un CRM

Questions fréquentes

Le client a-t-il acheté un retainer après le setup ?

Oui, retainer mensuel à 2 200 EUR pour 4 heures de monitoring + ajustements + support en cas d'incident. Conclu après 8 semaines de prod stable. Le retainer couvre aussi 1 amélioration mineure par mois.

Combien a coûté le projet au total ?

Setup forfaitaire 9 800 EUR. Coûts API Claude pour les 3 premiers mois : 320 EUR (110 EUR par mois en moyenne). Total dépensé pour le client en 6 mois : 13 100 EUR. Gain mesuré à 6 mois : équivalent 0,4 ETP commercial libéré et délai de réponse divisé par 5. ROI estimé : 4,2x sur la première année.

Pourquoi avoir choisi Claude et pas GPT ou Gemini ?

Trois raisons. (1) Le tool use de Claude était plus fiable pour appeler le MCP Hubspot et le MCP Notion sans erreur de format. (2) La latence Claude Sonnet 4.6 (1,5 à 2 secondes streaming) était suffisante pour le cas d'usage non temps réel. (3) Le coût par qualification (0,012 EUR en moyenne) était comparable ou meilleur que GPT-5 sur ce volume.

Tu veux qu on regarde ton acquisition ensemble ?

30 minutes d échange, sans pitch commercial. On identifie 2-3 leviers prioritaires.

Réserver un appel découverte