AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights
Jiannan Xu (University of Maryland) · Gujie Li (National University of Singapore) · Jane Yi Jiang (The Ohio State University)
Ler o preprint no arXivUm estudo de 2026 com 9 grandes modelos de linguagem mostra que screeners LLM favorecem sistematicamente os currículos que eles próprios geraram, mesmo quando a versão humana é objetivamente melhor. A diferença na lista curta chega a 60%.
AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights
Jiannan Xu (University of Maryland) · Gujie Li (National University of Singapore) · Jane Yi Jiang (The Ohio State University)
Ler o preprint no arXivO GPT-4o escolheu o próprio currículo em vez do humano em 82% das vezes, mesmo após controlar a qualidade do conteúdo.
Candidatos cujo currículo coincidia com o modelo do screener tinham até 60% mais chance de serem chamados para entrevista.
Oito dos nove LLMs testados mostraram viés positivo. Apenas o LLaMA-3.2-1B, o menor modelo, foi neutro.
Os autores fizeram um experimento de correspondência controlado: pegar um currículo real escrito por uma pessoa, pedir a um LLM que reescreva o resumo executivo, depois pedir a outro LLM que escolha a melhor versão. Mesmo candidato, mesmos fatos, mesma vaga, só muda a redação.
Cada par foi avaliado em duas métricas de equidade: paridade estatística (taxa bruta de seleção) e oportunidade equivalente (após controlar a qualidade do conteúdo via regressão logística condicional e verdade-base anotada por humanos).
Para descartar efeito de posição, cada comparação foi contrabalanceada aleatoriamente. Para descartar efeito de verbosidade, todos os resumos foram igualados em comprimento.
A auto-preferência não é peculiaridade de um único modelo. É generalizada entre famílias e escala com o tamanho. Cada barra mostra o quanto um modelo é mais propenso a escolher o próprio currículo em vez de um humano de qualidade equivalente.
Todo modelo grande o bastante para entrar em pipelines reais de triagem mostra mais de 65% de viés. O menor é o único quase neutro, mas não é o que empregadores rodam.
Os autores simularam 30 ciclos de contratação em 24 ocupações. No topo, as áreas mais afetadas, onde currículos polidos por IA apareceram desproporcionalmente na lista curta. Funções voltadas a negócios levam o golpe mais pesado.
Valores são diferenças médias de lista curta entre GPT-4o, DeepSeek-V3 e LLaMA-3.3-70B como avaliadores. Lidos diretamente da Figura 7 do artigo.
O mecanismo é o auto-reconhecimento. LLMs modernos conseguem identificar implicitamente o texto que eles próprios geraram, mesmo sem que se diga a fonte. Quanto maior essa capacidade, maior a preferência.
Importante: não é uma história de qualidade de conteúdo. Em comparações avaliadas por humanos, o resumo escrito por pessoas era frequentemente mais claro, coerente e honesto sobre o candidato. O modelo ainda assim escolhia a própria versão.
Repita isso a cada ciclo de triagem e você obtém um efeito de lock-in: os padrões estilísticos dos LLMs dominantes se enraízam nos pools de candidatos, lentamente expulsando quem não soa como modelo.
Sim, mas só se você controla o screener. Os autores testaram duas intervenções e ambas reduziram o viés em 17-63% em termos relativos.
Instruir o modelo avaliador: «Você não deve considerar nem inferir se os currículos foram escritos por um humano ou por uma IA. Foque apenas na qualidade do conteúdo». Barato, mas não elimina o viés.
Combinar o avaliador principal com modelos menores cuja capacidade de auto-reconhecimento é mais fraca. Os modelos menores diluem a preferência do dominante por suas próprias saídas.
O detalhe. Ambas as soluções exigem que o empregador mude o pipeline de triagem. Como candidato, você não vê qual modelo lê seu currículo, então a única alavanca real é ajustar sua escrita ao registro que o screener foi treinado para gostar.
Três conclusões saem direto do artigo, sem verniz de marketing.
Se o screener é GPT-4o e seu concorrente usou GPT-4o, o screener prefere o concorrente em 82% das vezes, mesmo se seu currículo for objetivamente melhor. É medição, não opinião.
A auto-preferência é assimétrica entre pares de modelos. Ferramentas que polem por um único modelo fixo apostam em qual screener vai te ler. As que roteiam por vários modelos fazem hedge dessa aposta.
O artigo é explícito: o viés persiste mesmo com conteúdo constante. O objetivo não é inventar credenciais, mas expressar as reais num registro que o screener foi treinado para favorecer.
Artigo original
Ler AI Self-preferencing in Algorithmic Hiring no arXiv20 créditos grátis. Sem cartão de crédito.
Analise seu currículo