AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights
Jiannan Xu (University of Maryland) · Gujie Li (National University of Singapore) · Jane Yi Jiang (The Ohio State University)
Lire le preprint sur arXivUne étude de 2026 portant sur 9 grands modèles de langage montre que les screeners LLM favorisent systématiquement les CV qu'ils ont eux-mêmes générés, même quand la version humaine est objectivement meilleure. L'écart de présélection atteint 60%.
AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights
Jiannan Xu (University of Maryland) · Gujie Li (National University of Singapore) · Jane Yi Jiang (The Ohio State University)
Lire le preprint sur arXivGPT-4o a choisi son propre CV plutôt que celui d'un humain dans 82% des cas, même après contrôle de la qualité du contenu.
Les candidats dont le CV correspondait au modèle du screener avaient jusqu'à 60% de chances en plus d'être convoqués en entretien.
Huit des neuf LLM testés ont montré un biais positif. Seul LLaMA-3.2-1B, le plus petit modèle, est resté neutre.
Les auteurs ont mené une expérience de correspondance contrôlée : un vrai CV humain, un LLM réécrit le résumé exécutif, puis un autre LLM choisit la meilleure version. Même candidat, mêmes faits, même poste, seule la formulation diffère.
Chaque paire a été notée selon deux mesures d'équité : parité statistique (taux de sélection brut) et égalité des chances (après contrôle de la qualité du contenu via régression logistique conditionnelle et vérité terrain humaine).
Pour exclure tout effet de position, chaque comparaison a été contrebalancée aléatoirement. Pour exclure tout effet de verbosité, tous les résumés ont été alignés en longueur.
L'auto-préférence n'est pas une particularité d'un seul modèle. Elle est répandue dans toutes les familles et augmente avec la taille. Chaque barre montre à quel point un modèle est plus susceptible de choisir son propre CV plutôt qu'un CV humain de qualité équivalente.
Tout modèle assez puissant pour être déployé dans de vraies pipelines de présélection montre plus de 65% de biais. Le plus petit est le seul à peu près neutre, mais ce n'est pas celui que les employeurs utilisent.
Les auteurs ont simulé 30 cycles de recrutement sur 24 métiers. En haut, les domaines les plus impactés, où les CV polis par IA étaient surreprésentés en présélection. Les rôles orientés business prennent le coup le plus dur.
Valeurs : écarts moyens de présélection sur GPT-4o, DeepSeek-V3 et LLaMA-3.3-70B comme évaluateurs. Lues directement sur la Figure 7 de l'article.
Le mécanisme est l'auto-reconnaissance. Les LLM modernes savent identifier implicitement le texte qu'ils ont généré, même sans qu'on leur indique la source. Plus cette capacité est forte, plus la préférence est forte.
Important : ce n'est pas une histoire de qualité de contenu. Dans les comparaisons notées par des humains, le résumé humain était souvent plus clair, plus cohérent, plus honnête sur le candidat. Le modèle choisissait quand même sa propre version.
Répétez ce schéma à chaque cycle de présélection et vous obtenez un effet de lock-in : les patrons stylistiques des LLM dominants s'enracinent dans les pools de candidats, écartant peu à peu ceux dont le CV ne sonne pas comme un modèle.
Oui, mais seulement si vous contrôlez le screener. Les auteurs ont testé deux interventions, toutes deux réduisant le biais de 17 à 63% en termes relatifs.
Donner cette consigne au modèle évaluateur : « Vous ne devez pas considérer ni inférer si les CV ont été écrits par un humain ou par une IA. Concentrez-vous uniquement sur la qualité du contenu. » Économique, mais n'élimine pas le biais.
Combiner l'évaluateur principal avec des modèles plus petits dont l'auto-reconnaissance est plus faible. Les petits modèles diluent la préférence du modèle dominant pour ses propres sorties.
Le hic. Les deux solutions exigent que l'employeur change sa pipeline de présélection. En tant que candidat, vous ne voyez pas quel modèle lit votre CV. Le seul levier que vous contrôlez vraiment est d'aligner votre écriture sur ce que le screener a été entraîné à apprécier.
Trois conclusions découlent directement de l'étude, sans habillage marketing.
Si le screener est GPT-4o et que votre concurrent a utilisé GPT-4o, le screener le préfère à 82%, même quand votre CV est objectivement meilleur. C'est une mesure, pas une opinion.
L'auto-préférence est asymétrique entre paires de modèles. Les outils qui polissent via un seul modèle fixe parient sur le screener que vous rencontrerez. Ceux qui passent par plusieurs modèles couvrent ce pari.
L'étude est explicite : le biais persiste même à contenu constant. L'objectif n'est pas d'inventer des qualifications, mais d'exprimer les vraies dans un registre que le screener a été entraîné à favoriser.
Article original
Lire AI Self-preferencing in Algorithmic Hiring sur arXiv