Краткое содержание исследования · arXiv:2509.00462

ИИ-скринеры предпочитают резюме, написанные ИИ.

В исследовании 2026 года 9 ведущих языковых моделей систематически отдавали предпочтение резюме, созданным ими же, даже когда версия, написанная человеком, объективно лучше. Разрыв в шортлисте достигает 60%.

arXiv:2509.00462v3cs.CY9 февр. 2026

AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights

Jiannan Xu (University of Maryland) · Gujie Li (National University of Singapore) · Jane Yi Jiang (The Ohio State University)

Открыть препринт на arXiv

82%

Self-preference bias

GPT-4o выбирала своё резюме вместо человеческого в 82% случаев, даже после контроля качества контента.

+60%

Прирост шортлиста

Кандидаты, чьё резюме совпадает с моделью скринера, получали приглашение на интервью на 60% чаще.

8 из 9

Моделей с bias

Восемь из девяти LLM показали bias. Нейтральной осталась только LLaMA-3.2-1B, самая маленькая модель.

Как это тестировали

Авторы провели контролируемый correspondence-эксперимент: взять реальное резюме, попросить LLM переписать executive summary, затем попросить другую LLM выбрать лучшую версию. Тот же кандидат, те же факты, та же вакансия, отличается только формулировка.

2 245

Реальных резюме с LiveCareer.com

LLM в роли скринеров

Профессиональных категорий

Аннотаторов с Prolific

Каждую пару оценивали по двум метрикам: statistical parity (сырая частота выбора) и equal opportunity (с поправкой на качество контента через условную логистическую регрессию и оценки людей).

Чтобы исключить эффект порядка, сравнения рандомизировали. Чтобы исключить эффект длины, все summary приводили к одинаковому объёму.

Чем больше модель, тем сильнее bias

Self-preference это не особенность одной модели. Это распространено по всем семействам моделей и масштабируется с размером. Каждая полоса показывает, насколько чаще модель выбирает своё резюме вместо человеческого равного качества.

Модель-оценщикEqual-opportunity bias %

GPT-4o
+81.9%
LLaMA-3.3-70B
+78.9%
Qwen-2.5-72B
+78.0%
DeepSeek-V3
+71.6%
GPT-4o-mini
+67.9%
GPT-4-turbo
+66.9%
Mistral-7B
+28.0%
LLaMA-3.2-3B
+11.6%
LLaMA-3.2-1B
-1.4%

Production-модель, используется в реальных HR-инструментахМодель меньше 7B, только для исследований

Любая модель, достаточно крупная для использования в реальных пайплайнах скрининга, показывает >65% bias. Единственная нейтральная это LLaMA-3.2-1B, но её никто из работодателей не запускает.

По каким профессиям бьёт сильнее всего

Авторы симулировали 30 раундов найма по 24 профессиям. Сверху самые пострадавшие сферы, где ИИ-резюме непропорционально часто оказывались в шортлисте. Тяжелее всего бизнес-направления.

ПрофессияПрирост шортлиста для ИИ-резюме

Продажи
+60%
Бухгалтер
+58%
Business development
+56%
Финансы
+53%
Учитель
+49%
HR
+44%
Инженерия
+32%
Консалтинг
+30%
Сельское хозяйство
+24%
Авто
+23%

Значения это средний разрыв шортлиста по GPT-4o, DeepSeek-V3 и LLaMA-3.3-70B как оценщикам. Считаны напрямую с Figure 7 статьи.

Почему так происходит

Механизм это self-recognition. Современные LLM могут неявно узнавать текст, который сами сгенерировали, даже без подсказок об источнике. Чем сильнее эта способность, тем сильнее предпочтение.

Важно: это не история про качество контента. В оценках людей резюме, написанное человеком, часто было яснее, связнее, честнее в описании кандидата. Модель всё равно выбирала свою версию.

Повторите это в каждом цикле найма и получите lock-in эффект: стилистические паттерны доминирующих LLM закрепляются в пуле кандидатов, медленно вытесняя всех, чьё резюме не звучит как модель.

Можно ли смягчить bias?

Да, но только если ты контролируешь скринер. Авторы протестировали два вмешательства, оба снижают bias на 17-63% в относительных терминах.

Стратегия 1

System prompting

Инструктировать модель-оценщика: «Не учитывай и не определяй, написано ли резюме человеком или ИИ. Оценивай только качество контента». Дёшево, но bias не уходит полностью.

Снижение bias до 63%

Стратегия 2

Majority voting ensemble

Комбинировать главную модель-оценщик с моделями поменьше, у которых слабее self-recognition. Маленькие модели разбавляют предпочтение доминирующей модели к своим выходам.

Стабильно по семействам моделей

Подвох. Оба фикса требуют, чтобы работодатель менял свой пайплайн скрининга. Как кандидат, ты не видишь, какая модель читает твоё резюме, единственный реальный рычаг это писать в регистре, который скринер обучен любить.

Что это значит для тебя

Три вывода прямо из статьи, без маркетингового шума.

Резюме, написанное только человеком, теперь структурный недостаток

Если скринер это GPT-4o и твой конкурент использовал GPT-4o, скринер выбирает его на 82% чаще, даже если твоё резюме объективно лучше. Это измерение, а не мнение.

Какую модель ты используешь это важно

Self-preference асимметричен между парами моделей. Инструменты, которые полируют через одну фиксированную модель, ставят на то, какой скринер тебе попадётся. Инструменты, прогоняющие через несколько моделей, эту ставку хеджируют.

Содержание важно, но за презентацию платишь ты

Статья прямо говорит: bias сохраняется даже при одинаковом контенте. Цель не выдумывать квалификации, а излагать реальные в регистре, который скринер обучен предпочитать.

Оригинал

Читать AI Self-preferencing in Algorithmic Hiring на arXiv

Узнайте, чего не хватает вашему резюме

20 бесплатных кредитов. Без карты.

Прожарить резюме