Forschungszusammenfassung · arXiv:2509.00462

Hiring-KIs bevorzugen Lebensläufe, die von KI geschrieben wurden.

Eine Studie aus dem Jahr 2026 mit 9 führenden Sprachmodellen zeigt: LLM-Screener bevorzugen systematisch Lebensläufe, die sie selbst generiert haben, selbst wenn die menschliche Version objektiv besser ist. Der Shortlist-Vorsprung erreicht 60%.

arXiv:2509.00462v3cs.CY9. Feb. 2026

AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights

Jiannan Xu (University of Maryland) · Gujie Li (National University of Singapore) · Jane Yi Jiang (The Ohio State University)

Preprint auf arXiv lesen

82%

Self-Preference-Bias

GPT-4o wählte in 82% der Fälle den eigenen Lebenslauf gegenüber dem menschlichen, selbst nach Kontrolle der Inhaltsqualität.

+60%

Shortlist-Plus

Bewerber, deren Lebenslauf zum Modell des Screeners passte, wurden bis zu 60% häufiger zum Vorstellungsgespräch eingeladen.

8/9

Modelle betroffen

Acht der neun getesteten LLMs zeigten positive Bias. Nur LLaMA-3.2-1B, das kleinste Modell, blieb neutral.

Wie wurde getestet

Die Autoren führten ein kontrolliertes Korrespondenzexperiment durch: ein echter, von Menschen verfasster Lebenslauf, ein LLM schreibt die Executive Summary neu, danach wählt ein anderes LLM die bessere Version. Gleicher Bewerber, gleiche Fakten, gleiche Stelle, nur die Formulierung unterscheidet sich.

2.245

Echte Lebensläufe von LiveCareer.com

LLMs als Screener getestet

Berufskategorien

Menschliche Annotatoren auf Prolific

Jedes Paar wurde nach zwei Fairness-Metriken bewertet: Statistical Parity (rohe Auswahlrate) und Equal Opportunity (nach Kontrolle der Inhaltsqualität via konditionaler logistischer Regression und menschlich annotierter Ground Truth).

Um Positionseffekte auszuschließen, wurde jeder Vergleich zufällig ausgeglichen. Um Verbositätseffekte auszuschließen, wurden alle Summaries längengleich gehalten.

Größeres Modell, stärkerer Bias

Self-Preference ist keine Eigenheit eines einzelnen Modells. Sie ist über Modellfamilien hinweg verbreitet und skaliert mit der Größe. Jeder Balken zeigt, wie viel häufiger ein Modell seinen eigenen Lebenslauf gegenüber einem menschlichen gleicher Qualität wählt.

Bewertendes ModellEqual-Opportunity-Bias %

GPT-4o
+81.9%
LLaMA-3.3-70B
+78.9%
Qwen-2.5-72B
+78.0%
DeepSeek-V3
+71.6%
GPT-4o-mini
+67.9%
GPT-4-turbo
+66.9%
Mistral-7B
+28.0%
LLaMA-3.2-3B
+11.6%
LLaMA-3.2-1B
-1.4%

Production-Modell, in echten HR-Tools eingesetztModell unter 7B, nur für die Forschung

Jedes Modell mit ausreichender Kapazität für reale Screening-Pipelines zeigt über 65% Bias. Das kleinste Modell ist das einzige weitgehend neutrale, aber es wird nicht von Arbeitgebern eingesetzt.

Welche Berufe trifft es am härtesten

Die Autoren simulierten 30 Einstellungsrunden über 24 Berufe. Oben stehen die am stärksten betroffenen Felder, in denen KI-polierte Lebensläufe überproportional häufig in der Shortlist landeten. Geschäftsorientierte Rollen tragen die schwerste Last.

BerufShortlist-Plus für KI-Lebensläufe

Vertrieb
+60%
Buchhalter
+58%
Business Development
+56%
Finanzen
+53%
Lehrer
+49%
HR
+44%
Technik
+32%
Beratung
+30%
Landwirtschaft
+24%
Automobil
+23%

Werte sind durchschnittliche Shortlist-Differenzen über GPT-4o, DeepSeek-V3 und LLaMA-3.3-70B als Bewerter. Direkt aus Abbildung 7 der Studie abgelesen.

Warum das passiert

Der Mechanismus heißt Self-Recognition. Moderne LLMs erkennen implizit Texte, die sie selbst generiert haben, auch ohne Hinweis auf die Quelle. Je stärker diese Erkennungsfähigkeit, desto stärker die Präferenz.

Wichtig: das ist keine Geschichte über Inhaltsqualität. In von Menschen bewerteten Vergleichen war die menschliche Summary oft klarer, kohärenter, ehrlicher. Das Modell wählte trotzdem seine eigene Version.

Wiederholt man das in jedem Screening-Zyklus, entsteht ein Lock-in-Effekt: die stilistischen Muster dominanter LLMs verfestigen sich in Bewerberpools und verdrängen langsam alle, deren Lebenslauf nicht modellförmig klingt.

Lässt sich der Bias mildern?

Ja, aber nur wenn man den Screener kontrolliert. Die Autoren testeten zwei Interventionen, beide reduzieren den Bias relativ um 17-63%.

Strategie 1

System Prompting

Das bewertende Modell anweisen: „Berücksichtigen Sie nicht und schließen Sie nicht darauf, ob die Lebensläufe von einem Menschen oder einer KI verfasst wurden. Konzentrieren Sie sich nur auf die inhaltliche Qualität." Günstig, aber eliminiert den Bias nicht.

Bias-Reduktion bis zu 63%

Strategie 2

Majority-Voting-Ensemble

Den Hauptbewerter mit kleineren Modellen kombinieren, deren Self-Recognition schwächer ist. Die kleineren Modelle verdünnen die Präferenz des dominanten Modells für eigene Outputs.

Stabil über Modellfamilien hinweg

Der Haken. Beide Lösungen erfordern, dass der Arbeitgeber seine Screening-Pipeline ändert. Als Bewerber sehen Sie nicht, welches Modell Ihren Lebenslauf liest. Der einzige Hebel, den Sie wirklich kontrollieren, ist, Ihren Schreibstil dem anzupassen, was der Screener trainiert wurde zu mögen.

Was das für Sie bedeutet

Drei Punkte folgen direkt aus der Studie, ohne Marketing-Sprech.

Ein rein menschlicher Lebenslauf ist jetzt ein struktureller Nachteil

Wenn der Screener GPT-4o ist und Ihr Mitbewerber GPT-4o genutzt hat, bevorzugt der Screener Ihren Mitbewerber zu 82%, selbst wenn Ihr Lebenslauf objektiv besser ist. Das ist eine Messung, keine Meinung.

Welches Modell Sie nutzen, ist wichtig

Self-Preference ist asymmetrisch zwischen Modellpaaren. Tools, die durch ein einzelnes festes Modell polieren, wetten darauf, welcher Screener Sie trifft. Tools, die durch mehrere Modelle routen, hedgen diese Wette.

Substanz zählt weiter, aber die Präsentation kostet Sie

Die Studie ist explizit: der Bias bleibt selbst bei konstantem Inhalt bestehen. Ziel ist nicht, Qualifikationen zu fälschen, sondern echte in einem Register auszudrücken, das der Screener gelernt hat zu bevorzugen.

Originalstudie

AI Self-preferencing in Algorithmic Hiring auf arXiv lesen

Sehen Sie, was Ihrem Lebenslauf fehlt

20 kostenlose Credits. Keine Kreditkarte erforderlich.

Ihren Lebenslauf roasten lassen