Prédire et prévenir les démissions par l'algorithmie

Ce qu'il faut retenir

Un algorithme ML a prédit les démissions à 90 % de fiabilité sur six mois, uniquement sur des données incluant des critères discriminatoires. Ces critères portaient l'essentiel du signal prédictif : les retirer rendait le modèle inopérant pour des décisions individuelles.

La white box sur données filtrées a identifié le temps de trajet comme principal facteur de démission prématurée sur les profils en tension de recrutement.

Un algorithme d'optimisation des affectations géographiques a généré +7 points de rétention sur ces profils, sans modifier la politique de rémunération.

La méthode enbi appliquée à ce cas

✓

01 - Cadrage du périmètre et des KPI

Définition des objectifs opérationnels : prédiction à six mois, distinction profils à potentiel / profils à remplacer. Trois métriques retenues : taux de turn-over, coût intérim, indicateurs de mal-être (absentéisme, arrêts maladie).

✓

02 - Qualification des données disponibles

Extraction des données SIRH et ERP. Vérification des clauses contractuelles et des notifications RGPD. Construction de deux périmètres distincts : données complètes et données filtrées des critères prohibés.

✓

03 - Lecture juridique : RGPD, discrimination indirecte, AI Act

Qualification du risque juridique associé à chaque périmètre. Contrainte structurelle identifiée : un modèle black box entraîné sur critères discriminatoires est indéployable pour des décisions individuelles, quelle que soit sa performance prédictive.

✓

04 - Analyse data : white box et black box, double périmètre

Arbre décisionnel sur données filtrées pour les leviers structurels. Machine learning sur données complètes pour tester la capacité prédictive maximale. Les critères discriminatoires portaient l'essentiel du signal : leur retrait rendait la black box inopérante.

✓

05 - Verdict et déploiement terrain

Abandon de la piste black box. Déploiement d'un algorithme d'optimisation des affectations géographiques sur les profils en tension. Résultat mesuré : +7 points de rétention.

Le problème que le client voulait résoudre

La main-d'oeuvre représente le premier poste de dépense de ce client. Ses opérations dépendent d'une forte disponibilité en effectifs sur des profils peu ou pas qualifiés, dans un secteur où le turn-over est structurellement élevé et l'absentéisme fréquent. La dépendance au recrutement est permanente.

L'objectif défini avec le client était d'obtenir, avec six mois de préavis, une prédiction fiable de la probabilité qu'un salarié acte sa démission. La logique d'intervention variait ensuite selon le profil concerné. Pour un salarié présentant un potentiel au sein de l'entreprise : anticiper la maturation de son projet d'évolution en dehors du groupe, identifier sa trajectoire et lui proposer des perspectives concrètes, qu'il s'agisse d'une évolution vers le management ou d'une adaptation de la rémunération. Pour un salarié sans ces perspectives : déclencher le recrutement de son remplaçant suffisamment tôt pour organiser un tuilage et minimiser la période de vacance sur le poste.

Trois métriques de performance ont été fixées dès le cadrage pour objectiver l'impact de la solution : l'évolution du taux de turn-over, l'évolution des dépenses liées au recours à l'intérim, et les indicateurs de mal-être au travail (taux d'absentéisme et d'arrêts maladie).

Deux technologies, deux niveaux de lisibilité

Deux approches algorithmiques ont été mises en oeuvre, avec des finalités complémentaires.

La première est un traitement statistique par arbre décisionnel, ou white box. Le raisonnement du modèle est entièrement lisible : chaque prédiction peut être retracée jusqu'aux variables qui l'ont produite, avec leur poids respectif. C'est cette transparence qui rend la white box utilisable pour des décisions individuelles, parce que l'employeur peut expliquer, documenter et défendre le raisonnement suivi. C'est aussi ce qui en fait l'outil de référence pour identifier des leviers structurels : les tendances qui traversent l'ensemble d'une population de manière auditable.

La seconde est un modèle d'apprentissage automatique, ou black box. Sa capacité prédictive est généralement supérieure, parce qu'il traite des combinaisons de variables que l'analyse statistique traditionnelle ne détecterait pas. Mais son raisonnement interne reste opaque : ni l'employeur, ni le prestataire ne peuvent retracer précisément pourquoi telle prédiction a été produite pour tel individu.

CE QUE ÇA SIGNIFIE

Deux périmètres, deux usages distincts

Les données SIRH et ERP couvraient l'ensemble des informations détenues sur les salariés, y compris des variables comme l'âge, le genre ou la nationalité, sur lesquelles aucune décision individuelle ne peut légalement être fondée. Ces critères ont été isolés dans un périmètre distinct. Ce périmètre complet reste utilisable pour une analyse structurelle à l'échelle de l'organisation : comprendre les grandes tendances, identifier des déséquilibres collectifs. Il ne peut en revanche jamais alimenter un modèle déployé pour des décisions sur des personnes.

La contrainte qui détermine tout : la capacité à justifier

Un modèle black box entraîné sur des données incluant des critères discriminatoires est juridiquement indéployable pour des décisions individuelles. La raison tient à la charge de la preuve : en matière de discrimination, l'employeur doit être en mesure de démontrer que sa décision ne repose pas, même partiellement, sur l'âge, le genre ou la nationalité du salarié. Un modèle dont le raisonnement est opaque ne permet pas de produire cette démonstration. C'est la définition de la discrimination indirecte au sens du code pénal.

Ce projet a été conduit antérieurement à l'entrée en vigueur de l'AI Act européen. Il relèverait aujourd'hui de la catégorie des systèmes d'IA à haut risque en matière d'emploi, soumis à des exigences explicites de documentation, de transparence et de supervision humaine. La contrainte existait déjà dans le droit du travail et le droit pénal - l'AI Act ne fait que la rendre formelle et auditable.

La performance prédictive d'un modèle et sa validité juridique sont deux questions indépendantes. Dans ce cas, elles avaient des réponses opposées. Un algorithme à 90 % de précision sur critères discriminatoires n'est pas un actif opérationnel : c'est une exposition juridique.

enbi, analyse de ce cas d'usage

Ce que les données ont révélé

Sur le périmètre complet, la black box a atteint 90 % de fiabilité dans la prédiction des démissions à six mois. Ce résultat était techniquement concluant. Il a également confirmé quelque chose d'important sur la structure des données : les critères discriminatoires portaient l'essentiel du signal prédictif. Quand on les retire pour travailler sur le périmètre filtré, la black box perd sa capacité prédictive utile. La variable qui remonte alors en tête est la durée moyenne du contrat, ce qui n'apporte aucun enseignement exploitable pour une intervention individuelle anticipée.

L'analyse statistique du modèle complet a mis en évidence un déséquilibre structurel entre deux groupes de salariés selon la nationalité. Les salariés non ressortissants d'un pays de l'Union européenne présentaient une tendance à rester plus longtemps en poste, même sans mesure incitative. Utilisé en analyse structurelle, ce résultat peut informer une réflexion sur la politique RH collective. Utilisé pour déclencher des alertes individuelles, il aurait conduit à concentrer les mesures de rétention sur les salariés européens, constituant une discrimination indirecte.

C'est la white box, sur le périmètre filtré, qui a produit le résultat opérationnel. L'arbre décisionnel a identifié une forte corrélation entre le temps de trajet et la démission prématurée, concentrée sur les profils les plus difficiles à recruter dans un marché de l'emploi en tension. Ce résultat est lisible, documentable, défendable, et il pointe vers un levier d'action qui ne repose sur aucun critère prohibé.

La solution déployée

POURQUOI ÇA COMPTE

Réduire le temps de trajet sans modifier les implantations

Réaffecter les salariés en tenant compte de leur lieu de résidence et des besoins de chaque site permet de réduire les temps de trajet sans coût direct additionnel. L'algorithme d'optimisation sous contrainte redistribue les affectations en respectant les contraintes opérationnelles de chaque site et les préférences exprimées par les salariés.

Le problème du temps de trajet a été adressé par un algorithme d'optimisation sous contrainte, une technique de rapprochement salarié-site parfois appelée algorithme de chaises musicales. L'objectif : minimiser les temps de trajet en redistribuant les affectations géographiques, tout en respectant les contraintes opérationnelles de chaque site et les préférences exprimées par les salariés.

Le résultat mesuré sur les profils en tension : +7 points de rétention en moyenne. Sans modifier la politique de rémunération. Sans ouvrir de négociations collectives. Sans investissement infrastructurel.

EN DEHORS DU SECTEUR

Ce que ce cas enseigne à toute organisation qui veut prédire un comportement humain

Quand les critères discriminatoires portent l'essentiel du signal prédictif, les retirer ne réduit pas légèrement la performance du modèle : cela le rend inopérant. La question à poser avant tout projet de prédiction comportementale est donc : sur quelles données peut-on légalement agir, et avec quelle capacité prédictive résiduelle ? La réponse conditionne toute l'analyse coût-bénéfice du projet.

Définir les KPI avant les données. Le cadrage des métriques de performance précède toute décision sur l'architecture du modèle.

Séparer dès le départ données utilisables et données éclairantes. Certaines variables aident à comprendre les tendances structurelles de l'organisation. Elles ne peuvent pas fonder une décision individuelle. Cette distinction conditionne toute l'architecture du projet.

Tester la capacité prédictive résiduelle sans les critères prohibés. Si le signal est concentré dans les variables discriminatoires, le modèle filtré sera inopérant. Le savoir avant d'investir dans le déploiement change radicalement l'analyse coût-bénéfice.

Chercher le levier structurel avant la mesure individuelle. La white box a produit plus de valeur opérationnelle que la black box dans ce cas, parce qu'elle a identifié un facteur simple, non discriminatoire et immédiatement actionnable.

Cas d'usage RH et data

Un projet similaire dans votre organisation ?

Deux heures pour qualifier le périmètre, les données disponibles et les contraintes juridiques. Verdict écrit.

Demander un Sprint →

Prédire et prévenir les démissions par l'algorithmie.