AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights
Jiannan Xu (University of Maryland) · Gujie Li (National University of Singapore) · Jane Yi Jiang (The Ohio State University)
Открыть препринт на arXivВ исследовании 2026 года 9 ведущих языковых моделей систематически отдавали предпочтение резюме, созданным ими же, даже когда версия, написанная человеком, объективно лучше. Разрыв в шортлисте достигает 60%.
AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights
Jiannan Xu (University of Maryland) · Gujie Li (National University of Singapore) · Jane Yi Jiang (The Ohio State University)
Открыть препринт на arXivGPT-4o выбирала своё резюме вместо человеческого в 82% случаев, даже после контроля качества контента.
Кандидаты, чьё резюме совпадает с моделью скринера, получали приглашение на интервью на 60% чаще.
Восемь из девяти LLM показали bias. Нейтральной осталась только LLaMA-3.2-1B, самая маленькая модель.
Авторы провели контролируемый correspondence-эксперимент: взять реальное резюме, попросить LLM переписать executive summary, затем попросить другую LLM выбрать лучшую версию. Тот же кандидат, те же факты, та же вакансия, отличается только формулировка.
Каждую пару оценивали по двум метрикам: statistical parity (сырая частота выбора) и equal opportunity (с поправкой на качество контента через условную логистическую регрессию и оценки людей).
Чтобы исключить эффект порядка, сравнения рандомизировали. Чтобы исключить эффект длины, все summary приводили к одинаковому объёму.
Self-preference это не особенность одной модели. Это распространено по всем семействам моделей и масштабируется с размером. Каждая полоса показывает, насколько чаще модель выбирает своё резюме вместо человеческого равного качества.
Любая модель, достаточно крупная для использования в реальных пайплайнах скрининга, показывает >65% bias. Единственная нейтральная это LLaMA-3.2-1B, но её никто из работодателей не запускает.
Авторы симулировали 30 раундов найма по 24 профессиям. Сверху самые пострадавшие сферы, где ИИ-резюме непропорционально часто оказывались в шортлисте. Тяжелее всего бизнес-направления.
Значения это средний разрыв шортлиста по GPT-4o, DeepSeek-V3 и LLaMA-3.3-70B как оценщикам. Считаны напрямую с Figure 7 статьи.
Механизм это self-recognition. Современные LLM могут неявно узнавать текст, который сами сгенерировали, даже без подсказок об источнике. Чем сильнее эта способность, тем сильнее предпочтение.
Важно: это не история про качество контента. В оценках людей резюме, написанное человеком, часто было яснее, связнее, честнее в описании кандидата. Модель всё равно выбирала свою версию.
Повторите это в каждом цикле найма и получите lock-in эффект: стилистические паттерны доминирующих LLM закрепляются в пуле кандидатов, медленно вытесняя всех, чьё резюме не звучит как модель.
Да, но только если ты контролируешь скринер. Авторы протестировали два вмешательства, оба снижают bias на 17-63% в относительных терминах.
Инструктировать модель-оценщика: «Не учитывай и не определяй, написано ли резюме человеком или ИИ. Оценивай только качество контента». Дёшево, но bias не уходит полностью.
Комбинировать главную модель-оценщик с моделями поменьше, у которых слабее self-recognition. Маленькие модели разбавляют предпочтение доминирующей модели к своим выходам.
Подвох. Оба фикса требуют, чтобы работодатель менял свой пайплайн скрининга. Как кандидат, ты не видишь, какая модель читает твоё резюме, единственный реальный рычаг это писать в регистре, который скринер обучен любить.
Три вывода прямо из статьи, без маркетингового шума.
Если скринер это GPT-4o и твой конкурент использовал GPT-4o, скринер выбирает его на 82% чаще, даже если твоё резюме объективно лучше. Это измерение, а не мнение.
Self-preference асимметричен между парами моделей. Инструменты, которые полируют через одну фиксированную модель, ставят на то, какой скринер тебе попадётся. Инструменты, прогоняющие через несколько моделей, эту ставку хеджируют.
Статья прямо говорит: bias сохраняется даже при одинаковом контенте. Цель не выдумывать квалификации, а излагать реальные в регистре, который скринер обучен предпочитать.