AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights
Jiannan Xu (University of Maryland) · Gujie Li (National University of Singapore) · Jane Yi Jiang (The Ohio State University)
Preprint auf arXiv lesenEine Studie aus dem Jahr 2026 mit 9 führenden Sprachmodellen zeigt: LLM-Screener bevorzugen systematisch Lebensläufe, die sie selbst generiert haben, selbst wenn die menschliche Version objektiv besser ist. Der Shortlist-Vorsprung erreicht 60%.
AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights
Jiannan Xu (University of Maryland) · Gujie Li (National University of Singapore) · Jane Yi Jiang (The Ohio State University)
Preprint auf arXiv lesenGPT-4o wählte in 82% der Fälle den eigenen Lebenslauf gegenüber dem menschlichen, selbst nach Kontrolle der Inhaltsqualität.
Bewerber, deren Lebenslauf zum Modell des Screeners passte, wurden bis zu 60% häufiger zum Vorstellungsgespräch eingeladen.
Acht der neun getesteten LLMs zeigten positive Bias. Nur LLaMA-3.2-1B, das kleinste Modell, blieb neutral.
Die Autoren führten ein kontrolliertes Korrespondenzexperiment durch: ein echter, von Menschen verfasster Lebenslauf, ein LLM schreibt die Executive Summary neu, danach wählt ein anderes LLM die bessere Version. Gleicher Bewerber, gleiche Fakten, gleiche Stelle, nur die Formulierung unterscheidet sich.
Jedes Paar wurde nach zwei Fairness-Metriken bewertet: Statistical Parity (rohe Auswahlrate) und Equal Opportunity (nach Kontrolle der Inhaltsqualität via konditionaler logistischer Regression und menschlich annotierter Ground Truth).
Um Positionseffekte auszuschließen, wurde jeder Vergleich zufällig ausgeglichen. Um Verbositätseffekte auszuschließen, wurden alle Summaries längengleich gehalten.
Self-Preference ist keine Eigenheit eines einzelnen Modells. Sie ist über Modellfamilien hinweg verbreitet und skaliert mit der Größe. Jeder Balken zeigt, wie viel häufiger ein Modell seinen eigenen Lebenslauf gegenüber einem menschlichen gleicher Qualität wählt.
Jedes Modell mit ausreichender Kapazität für reale Screening-Pipelines zeigt über 65% Bias. Das kleinste Modell ist das einzige weitgehend neutrale, aber es wird nicht von Arbeitgebern eingesetzt.
Die Autoren simulierten 30 Einstellungsrunden über 24 Berufe. Oben stehen die am stärksten betroffenen Felder, in denen KI-polierte Lebensläufe überproportional häufig in der Shortlist landeten. Geschäftsorientierte Rollen tragen die schwerste Last.
Werte sind durchschnittliche Shortlist-Differenzen über GPT-4o, DeepSeek-V3 und LLaMA-3.3-70B als Bewerter. Direkt aus Abbildung 7 der Studie abgelesen.
Der Mechanismus heißt Self-Recognition. Moderne LLMs erkennen implizit Texte, die sie selbst generiert haben, auch ohne Hinweis auf die Quelle. Je stärker diese Erkennungsfähigkeit, desto stärker die Präferenz.
Wichtig: das ist keine Geschichte über Inhaltsqualität. In von Menschen bewerteten Vergleichen war die menschliche Summary oft klarer, kohärenter, ehrlicher. Das Modell wählte trotzdem seine eigene Version.
Wiederholt man das in jedem Screening-Zyklus, entsteht ein Lock-in-Effekt: die stilistischen Muster dominanter LLMs verfestigen sich in Bewerberpools und verdrängen langsam alle, deren Lebenslauf nicht modellförmig klingt.
Ja, aber nur wenn man den Screener kontrolliert. Die Autoren testeten zwei Interventionen, beide reduzieren den Bias relativ um 17-63%.
Das bewertende Modell anweisen: „Berücksichtigen Sie nicht und schließen Sie nicht darauf, ob die Lebensläufe von einem Menschen oder einer KI verfasst wurden. Konzentrieren Sie sich nur auf die inhaltliche Qualität." Günstig, aber eliminiert den Bias nicht.
Den Hauptbewerter mit kleineren Modellen kombinieren, deren Self-Recognition schwächer ist. Die kleineren Modelle verdünnen die Präferenz des dominanten Modells für eigene Outputs.
Der Haken. Beide Lösungen erfordern, dass der Arbeitgeber seine Screening-Pipeline ändert. Als Bewerber sehen Sie nicht, welches Modell Ihren Lebenslauf liest. Der einzige Hebel, den Sie wirklich kontrollieren, ist, Ihren Schreibstil dem anzupassen, was der Screener trainiert wurde zu mögen.
Drei Punkte folgen direkt aus der Studie, ohne Marketing-Sprech.
Wenn der Screener GPT-4o ist und Ihr Mitbewerber GPT-4o genutzt hat, bevorzugt der Screener Ihren Mitbewerber zu 82%, selbst wenn Ihr Lebenslauf objektiv besser ist. Das ist eine Messung, keine Meinung.
Self-Preference ist asymmetrisch zwischen Modellpaaren. Tools, die durch ein einzelnes festes Modell polieren, wetten darauf, welcher Screener Sie trifft. Tools, die durch mehrere Modelle routen, hedgen diese Wette.
Die Studie ist explizit: der Bias bleibt selbst bei konstantem Inhalt bestehen. Ziel ist nicht, Qualifikationen zu fälschen, sondern echte in einem Register auszudrücken, das der Screener gelernt hat zu bevorzugen.
20 kostenlose Credits. Keine Kreditkarte erforderlich.
Ihren Lebenslauf roasten lassen