Études de cas chiffrées

Cas 002 : support tier 1 automatisé d'un SaaS B2B avec Claude et n8n (chiffres réels à 6 mois)

Mission livrée fin 2025 pour un SaaS RH de 38 salariés à Tours. 420 tickets par mois, 2 personnes saturées, NPS en glissade. Stack n8n + Crisp + Claude Sonnet 4.6, build 18 700 EUR, 145 EUR par mois d'exploitation. Résultats mesurés à 6 mois : deflection 58 pour cent, résolution réelle 49 pour cent, 0,9 ETP redéployé. Avec les deux incidents qu'on a payés.

Camille Roussel5 juin 202614 min read

Étude de cas chiffrée : automatisation du support tier 1 d'un SaaS B2B avec un agent Claude

TL;DR

Client : SaaS B2B de gestion de planning RH, 38 salariés, environ 1 100 clients actifs, basé à Tours. Problème : 420 tickets support par mois sur une boîte mail générique, 2 personnes saturées, temps de première réponse à 14 heures pendant les pics.

Stack livrée : n8n + Crisp + Claude Sonnet 4.6 (génération) + Claude Haiku (classification) + API Stripe en lecture. Build 18 700 EUR en 6 semaines, exploitation 145 EUR par mois.

Résultats à 6 mois : deflection 58 pour cent, résolution réelle 49 pour cent, CSAT bot only 4,3 sur 5, temps de première réponse à 38 secondes sur les demandes déflectées, 0,9 ETP redéployé vers le customer success, NPS support +6 points.

Deux incidents en production qu'on documente sans les maquiller : une réponse inventée sur une question de remboursement en semaine 3, et 31 heures de panne silencieuse sur un webhook Crisp.

Anonymisé à la demande du client, chiffres réels conservés.

Pourquoi on publie ce cas

Dans notre guide sur l'automatisation du support tier 1, on évoquait ce déploiement en quelques lignes : les chiffres à 7 semaines, le payback estimé. Plusieurs lecteurs nous ont écrit pour demander la suite. Est-ce que les chiffres ont tenu ? Qu'est-ce qui a cassé ? Le client a-t-il viré quelqu'un ?

Voici la réponse complète, mesurée à 6 mois de production. C'est notre deuxième étude de cas publiée, après le cas 001 sur la qualification de leads. Même principe : identité du client retirée, chiffres réels conservés, échecs inclus. Le marché n'a pas besoin d'une success story de plus. Selon le baromètre Bpifrance Le Lab, 26 pour cent des PME françaises utilisaient au moins une solution d'IA en 2025 : celles qui s'équipent maintenant ont surtout besoin de savoir à quoi ressemble un projet réel, avec ses semaines moches.

Le contexte de départ

Le client édite un SaaS de gestion de planning RH pour des entreprises de 20 à 500 salariés. 38 employés, environ 1 100 clients actifs, ARR autour de 3,2 M EUR. Le support : deux personnes à temps plein, une boîte mail générique, pas de helpdesk structuré au départ (Crisp a été installé un an avant notre arrivée, pour le chat).

L'état des lieux sur Q3 2025 :

420 tickets entrants par mois en moyenne, avec des pics à 540 en septembre (rentrée, paramétrage des plannings).
64 pour cent du volume concentré sur trois sujets : réinitialisation de mot de passe, questions sur la facturation Stripe, et l'éternel "comment j'exporte un planning en PDF".
Temps de première réponse moyen : 6 heures en période calme, 14 heures pendant les pics.
Les deux personnes du support passaient 5 à 7 heures par jour chacune sur ces sujets répétitifs.
NPS support en baisse depuis deux trimestres, et le CEO recevait des plaintes en direct sur LinkedIn, ce qui est généralement le moment où le sujet remonte au comité de direction.

Le brief initial du client tenait en une phrase : "On veut un chatbot." Le cadrage a transformé cette phrase en quelque chose de plus précis : déflecter les demandes répétitives à source de vérité claire, accélérer l'escalation des demandes sensibles, et redéployer du temps humain vers l'accompagnement des comptes, sans licenciement (engagement pris devant l'équipe dès la première semaine, ce qui a changé l'ambiance du projet du tout au tout).

Phase 1 : cadrage (semaines 1 et 2)

Illustration : Phase 1 cadrage (semaines 1 et 2)

Comme sur le cas 001, on a refusé de coder pendant deux semaines. Le client trouvait ça long. Six mois plus tard, c'est la partie du projet qu'il cite comme la plus utile.

Extraction et clustering de la queue support

On a exporté 1 240 tickets sur 90 jours glissants et on les a clusterisés par intent (un script de classification avec Claude Haiku, environ 4 EUR d'API au total, puis revue manuelle des clusters ambigus). Résultat : 22 intents identifiés, dont 9 couvrant 78 pour cent du volume.

La matrice volume, structure, risque

Chaque intent a été scoré sur trois axes : volume mensuel, degré de structuration de la réponse (existe-t-il une source de vérité dans un système ?), et risque en cas d'erreur. Les 6 intents retenus pour l'automatisation au lancement :

Réinitialisation et problèmes de connexion (96 tickets par mois).
Questions facturation simples : montant, date de prélèvement, récupération de facture (74 tickets par mois, source de vérité : API Stripe).
Export et impression de plannings (58 tickets par mois).
Paramétrage des notifications (31 tickets par mois).
Questions sur les plans tarifaires (24 tickets par mois).
Demandes de documentation et d'accès à l'aide en ligne (19 tickets par mois).

Exclus volontairement : litiges de facturation, remboursements, résiliations, plaintes qualité, et toute demande émanant d'un compte signalé fragile. Soit environ 14 pour cent du volume, routé en escalation immédiate avec dossier pré rempli.

Les métriques de succès, signées avant le code

Trois cibles contractualisées : deflection d'au moins 40 pour cent à 3 mois sur le périmètre automatisé, CSAT bot only supérieur ou égal à 4 sur 5, et zéro réponse inventée sur les sujets facturation (vérifié par échantillonnage hebdomadaire). On y reviendra, cette troisième cible n'a pas tenu dès la semaine 3.

Phase 2 : build (semaines 3 à 5)

L'architecture suit le squelette décrit dans notre guide, je résume les choix spécifiques à ce client :

Ingestion : webhook Crisp (chat et mail unifiés) vers n8n cloud.
Enrichissement : lookup du client par email dans leur base (plan, ancienneté, tickets sur 90 jours, flag fragile).
Classification : Claude Haiku sur les 22 intents, environ 0,001 EUR par appel.
Résolution : retrieval sur la base de connaissance reconstruite pendant le build (43 articles réécrits, c'était le vrai chantier caché du projet), appels API Stripe en lecture seule pour les questions facturation, génération via Claude Sonnet 4.6 avec un prompt système strict : ne jamais inventer, citer la source, escalader sous 80 pour cent de confiance.
Garde-fous : tout client en litige récent, tout plan entreprise, toute mention de remboursement ou de résiliation part en humain, même si l'intent détecté est anodin.
Monitoring : CSAT à 24 heures sur les conversations bot only, échantillon de 50 conversations auditées chaque semaine par la lead support, rapport mensuel automatique en Slack.

Sur les coûts API, l'ordre de grandeur : Claude Sonnet 4.6 est facturé 3 USD par million de tokens en entrée et 15 USD en sortie. Une conversation support type chez ce client consomme entre 4 000 et 12 000 tokens aller-retour, soit 0,02 à 0,08 EUR. La classification Haiku est négligeable. À 450 conversations traitées par le bot chaque mois, la facture API tourne entre 95 et 160 EUR selon la saison.

La semaine 6 a été du shadow mode : l'agent générait ses réponses, mais elles partaient en file de validation humaine au lieu de partir au client. 312 réponses validées, 41 corrigées, 9 rejetées. Les 9 rejets ont tous donné lieu à une règle ou un article de base de connaissance supplémentaire. Mise en production le 17 novembre 2025.

Ce qui a cassé (et qu'on aurait préféré ne pas vous raconter)

Illustration : Ce qui a cassé (et qu'on aurait préféré ne pas vous raconter)

Incident 1 : la réponse inventée, semaine 3

Début décembre, un client demande "si je résilie en janvier, est-ce que je suis remboursé du trimestre payé d'avance ?". Le mot "résilie" aurait dû déclencher l'escalation. La formulation exacte ("est-ce que je suis remboursé du trimestre") a été classée en "question facturation simple" par le modèle de classification, et l'agent a répondu en extrapolant depuis un article de la base de connaissance qui parlait des avoirs : il a affirmé un remboursement au prorata qui n'existe pas dans les CGV du client.

Détection : 4 jours plus tard, lors de l'audit hebdomadaire. Le client concerné avait déjà répondu, agacé, et la lead support avait rattrapé le coup à la main sans remonter l'incident. Correctifs : ajout d'une liste de mots-clés à escalation forcée qui court-circuite la classification (résili, rembours, avoir, geste commercial, préjudice), et règle de double validation sur tout montant chiffré en sortie (si la réponse contient un montant en euros, il doit provenir d'un appel API Stripe, pas du texte généré). Zéro récidive détectée sur les 5 mois suivants, sur environ 2 300 conversations auditées par échantillonnage.

La leçon qu'on en tire : le garde-fou ne doit jamais dépendre uniquement du classifieur. Les benchmarks le confirment d'ailleurs à l'échelle du marché : Gartner mesurait en 2025 que les IA déflectent plus de 45 pour cent des demandes mais que seulement 14 pour cent des dossiers aboutissent à une résolution complète en self-service. L'écart entre ces deux chiffres, c'est exactement là où vivent les incidents de ce genre.

Incident 2 : le webhook silencieux, mois 4

Mi-mars, une mise à jour de configuration côté Crisp a invalidé la signature du webhook. Pendant 31 heures, les nouveaux tickets n'arrivaient plus dans n8n : pas d'erreur, pas de crash, juste le silence. L'équipe support a cru à une accalmie. C'est le rapport quotidien (volume anormalement bas) qui a déclenché la vérification.

Correctif : un heartbeat toutes les 15 minutes qui compare le volume Crisp et le volume n8n, avec alerte Slack en cas d'écart. Coût du correctif : une demi-journée. Coût de l'incident : 47 tickets répondus en retard, 2 plaintes. On aurait dû le construire dès le build, c'est désormais dans notre checklist standard de mise en production.

Les résultats à 6 mois (mesurés mi-mai 2026)

Métrique	Avant (Q3 2025)	À 7 semaines	À 6 mois
Tickets traités par des humains	420 par mois	156 par mois	176 par mois
Deflection rate (périmètre automatisé)	0	52 pour cent	58 pour cent
Résolution réelle (CSAT ok + pas de réouverture 7 jours)	n/a	44 pour cent	49 pour cent
Temps de première réponse (déflectés)	6 à 14 heures	38 secondes	35 secondes
Temps de première réponse (escalations)	6 à 14 heures	2h12	1h05
CSAT bot only	n/a	4,1 / 5	4,3 / 5
NPS support	en baisse	+4 points	+6 points
Coût mensuel d'exploitation	n/a	145 EUR	138 EUR en moyenne

Trois remarques honnêtes sur ce tableau.

D'abord, le volume humain est remonté entre la semaine 7 et le mois 6 (de 156 à 176 tickets). Ce n'est pas une régression du bot : le client a gagné environ 80 clients sur la période, le volume entrant total est passé de 420 à 462 tickets par mois. À périmètre constant, la charge humaine a continué de baisser.

Ensuite, l'écart de 9 points entre deflection (58 pour cent) et résolution réelle (49 pour cent) est notre métrique de vigilance numéro un. Tant qu'il reste sous 10 points et que le CSAT bot only tient au-dessus de 4,2, on considère le système sain. Le jour où la deflection monte sans que la résolution suive, c'est que le bot ferme des conversations sans régler les problèmes, et c'est le début des dégâts invisibles.

Enfin, le chiffre que le client regarde vraiment n'est dans aucune colonne : une des deux personnes du support passe désormais 80 pour cent de son temps en customer success proactif (onboarding des nouveaux comptes, revues trimestrielles des gros clients). Personne n'a été licencié, conformément à l'engagement initial. Difficile d'isoler l'effet sur la rétention à 6 mois, on se garde de l'inventer.

Le bilan financier, sans enjoliver

Décaissé par le client sur 6 mois :

Build forfaitaire : 18 700 EUR.
Exploitation : 6 x 138 EUR en moyenne, environ 830 EUR.
Retainer (à partir du mois 3) : 4 x 1 800 EUR, soit 7 200 EUR.
Total : environ 26 730 EUR.

En face, le gain mesurable : 0,9 ETP support redéployé (poste chargé environ 3 800 EUR par mois chez ce client), soit environ 22 800 EUR de temps requalifié sur la période, plus la valeur du temps de réponse divisé par 100 sur deux tiers du volume. Payback sur le seul coût équipe : entre 5 et 6 mois, cohérent avec notre estimation initiale de 5,4 mois. ROI projeté en année 1 : environ 2,1x, hors effet rétention.

C'est un bon projet, pas un projet miraculeux. On le souligne parce que la tendance du marché va vers des promesses de plus en plus agressives : Salesforce projette que l'IA résoudra 50 pour cent des cas de service client en 2027, contre environ 30 pour cent en 2025. Notre lecture terrain : ces moyennes mélangent des déploiements enterprise très outillés et des PME qui démarrent. Pour une PME de 40 salariés, viser 50 à 60 pour cent de deflection à 9 mois sur un périmètre bien choisi est ambitieux et atteignable. Viser 80 pour cent dès le trimestre 1 est le meilleur moyen de finir dans la colonne des dégâts invisibles.

Ce qu'on referait différemment

Le heartbeat de monitoring dès le jour 1. L'incident du webhook était évitable pour une demi-journée de travail. Il est dans la checklist standard maintenant.
La liste de mots-clés à escalation forcée dès le build, plutôt que de faire confiance au classifieur seul sur les sujets sensibles. C'est une rustine peu élégante sur le plan architecture, et c'est précisément pour ça qu'elle marche : elle ne dépend de rien.
Budgéter la réécriture de la base de connaissance comme un poste à part entière. Les 43 articles réécrits ont représenté presque un tiers du temps de build, et c'est le poste que tout le monde sous-estime, nous compris sur ce coup.
Annoncer l'engagement "personne n'est licencié" encore plus tôt. Les deux premières semaines, la lead support a freiné le projet en sous-documentant ses process. Rationnel de sa part : elle pensait préparer son propre remplacement. La dynamique a changé le jour où l'engagement a été pris par écrit.

Ce cas est-il transposable chez vous ?

Les conditions qui ont rendu ce projet rentable, dans l'ordre d'importance : un volume suffisant (au-delà de 250 à 400 tickets par mois, en dessous le ROI ne se rattrape pas avant 18 mois), une majorité de demandes à source de vérité claire (API, base produit, doc), une équipe support partante plutôt que menacée, et un sponsor qui accepte de mesurer la résolution réelle plutôt que le deflection rate des plaquettes commerciales.

Si vous cochez ces cases, le périmètre type décrit ici (6 intents, garde-fous stricts, shadow mode avant prod) se transpose bien. Si vous hésitez sur la stack, notre guide support tier 1 compare les options du marché et le custom. Et si vous voulez une lecture plus large des ROI constatés, on a compilé trois cas chiffrés ici.

Pour un avis sur votre situation précise, le plus simple reste un échange : on qualifie en 30 minutes si votre volume et votre structure de tickets justifient un projet, et on vous le dit aussi quand la réponse est non. Quatre consultations sur dix chez nous se terminent par "pas maintenant, structurez d'abord votre base de connaissance". C'est gratuit, et ça évite 18 700 EUR mal dépensés.

Sources

Benchmarks deflection et résolution : Gartner via Freshworks, "How AI is unlocking ROI in customer service", 2025 (45 pour cent de deflection, 14 pour cent de résolution complète en self-service).
Projection résolution IA : Salesforce, 2025 (30 pour cent des cas résolus par IA en 2025, 50 pour cent projetés en 2027).
Adoption IA PME France : Bpifrance Le Lab, baromètre 2025 (26 pour cent des PME françaises équipées d'au moins une solution IA).
Tarification API : Anthropic, grille publique 2026 (Claude Sonnet 4.6 : 3 USD par million de tokens en entrée, 15 USD en sortie).
Chiffres du cas : données de production du client, novembre 2025 à mai 2026, anonymisées avec son accord.

Questions fréquentes

Pourquoi le deflection rate annoncé (58 pour cent) est-il supérieur à la résolution réelle (49 pour cent) ?+

Parce que ce sont deux métriques différentes, et que les confondre est le piège classique du secteur. Le deflection rate compte les conversations qui se terminent sans escalation humaine. La résolution réelle compte celles où le problème du client est effectivement réglé, mesurée chez nous par le couple CSAT post conversation et absence de réouverture sous 7 jours. Sur ce projet, 9 points d'écart : des clients qui abandonnent la conversation sans réponse satisfaisante, ou qui reviennent par un autre canal. Un écart de 9 points est sain. Les benchmarks montrent que certains déploiements affichent 90 pour cent de deflection pour 40 pour cent de résolution réelle, ce qui revient à perdre des clients en silence. Si votre prestataire ne vous donne que le deflection rate, posez la question qui fâche.

Le client aurait-il pu prendre Intercom Fin ou Zendesk AI plutôt qu'un workflow custom ?+

Oui, et on a chiffré l'option avant de décider. Intercom Fin facture 0,99 USD par résolution : sur les 264 résolutions automatisées mensuelles atteintes à 6 mois, cela ferait environ 260 USD par mois, contre 145 EUR pour le custom, écart faible à ce volume. La vraie raison du choix custom était ailleurs : l'agent devait lire l'API Stripe du client et sa base de connaissance interne avec une logique de garde-fous spécifique (clients signalés fragiles, plans entreprise routés direct humain). En 2025, faire ça proprement dans Fin imposait des contournements. Pour une PME sans contrainte d'intégration forte et sous 2 000 conversations par mois, un outil du marché reste souvent le bon premier choix : notre comparatif détaillé est dans le guide support tier 1.

Combien le projet a-t-il coûté au total et quel est le ROI mesuré ?+

Build forfaitaire 18 700 EUR (6 semaines : 2 de cadrage, 3 de build, 1 de shadow mode). Exploitation : 145 EUR par mois en moyenne (API Claude + n8n cloud + observabilité), Crisp était déjà payé par le client. Retainer 1 800 EUR par mois à partir du mois 3. Total décaissé à 6 mois : environ 26 800 EUR. En face : 0,9 ETP support redéployé vers le customer success (poste chargé environ 3 800 EUR par mois chez ce client, soit environ 22 800 EUR sur la période), temps de première réponse divisé par un facteur 100 sur les demandes déflectées, NPS support en hausse de 6 points à 6 mois. Payback sur le seul coût équipe : 5 à 6 mois. ROI projeté année 1 : environ 2,1x, hors effet rétention qu'on ne sait pas isoler proprement.

Quels intents avez-vous refusé d'automatiser, et pourquoi ?+

Litiges de facturation, demandes de remboursement, menaces de résiliation et plaintes qualité. Le client a poussé deux fois pour les ajouter au périmètre (c'est 14 pour cent de son volume, la tentation est réelle). On a refusé les deux fois. Sur ces intents émotionnels, les taux de résolution autonome constatés sur le marché restent entre 19 et 34 pour cent, et chaque échec coûte plus que ce qu'il rapporte : un client en litige qui se fait répondre par un bot dans les 30 secondes n'est pas rassuré, il est insulté. Ces tickets partent en escalation immédiate avec un dossier pré rempli (historique client, factures, contexte), ce qui fait gagner du temps à l'humain sans retirer l'humain.

// Discuter de ton projet

On regarde tes ops ensemble.

Un appel de 30 minutes en visio. On identifie 2 ou 3 leviers d'automation prioritaires et on te dit honnêtement si on peut t'aider.

Tes 3 process les plus coûteux en temps
Le stack actuel et ce qui peut se brancher dessus
Une feuille de route 60 jours, chiffrée

Réserver un appel découverteRéponse sous 48h ouvrées · gratuit · sans pitch commercial