Resumo do estudo · arXiv:2509.00462

IAs de recrutamento preferem currículos escritos por IA.

Um estudo de 2026 com 9 grandes modelos de linguagem mostra que screeners LLM favorecem sistematicamente os currículos que eles próprios geraram, mesmo quando a versão humana é objetivamente melhor. A diferença na lista curta chega a 60%.

arXiv:2509.00462v3cs.CY9 fev. 2026

AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights

Jiannan Xu (University of Maryland) · Gujie Li (National University of Singapore) · Jane Yi Jiang (The Ohio State University)

Ler o preprint no arXiv

82%

Viés de auto-preferência

O GPT-4o escolheu o próprio currículo em vez do humano em 82% das vezes, mesmo após controlar a qualidade do conteúdo.

+60%

Aumento na lista curta

Candidatos cujo currículo coincidia com o modelo do screener tinham até 60% mais chance de serem chamados para entrevista.

8 de 9

Modelos afetados

Oito dos nove LLMs testados mostraram viés positivo. Apenas o LLaMA-3.2-1B, o menor modelo, foi neutro.

Como testaram

Os autores fizeram um experimento de correspondência controlado: pegar um currículo real escrito por uma pessoa, pedir a um LLM que reescreva o resumo executivo, depois pedir a outro LLM que escolha a melhor versão. Mesmo candidato, mesmos fatos, mesma vaga, só muda a redação.

2.245

Currículos reais do LiveCareer.com

LLMs testados como screeners

Categorias ocupacionais

Anotadores humanos no Prolific

Cada par foi avaliado em duas métricas de equidade: paridade estatística (taxa bruta de seleção) e oportunidade equivalente (após controlar a qualidade do conteúdo via regressão logística condicional e verdade-base anotada por humanos).

Para descartar efeito de posição, cada comparação foi contrabalanceada aleatoriamente. Para descartar efeito de verbosidade, todos os resumos foram igualados em comprimento.

Modelo maior, viés mais forte

A auto-preferência não é peculiaridade de um único modelo. É generalizada entre famílias e escala com o tamanho. Cada barra mostra o quanto um modelo é mais propenso a escolher o próprio currículo em vez de um humano de qualidade equivalente.

Modelo avaliadorViés de oportunidade equivalente %

GPT-4o
+81.9%
LLaMA-3.3-70B
+78.9%
Qwen-2.5-72B
+78.0%
DeepSeek-V3
+71.6%
GPT-4o-mini
+67.9%
GPT-4-turbo
+66.9%
Mistral-7B
+28.0%
LLaMA-3.2-3B
+11.6%
LLaMA-3.2-1B
-1.4%

Modelo de produção, usado em ferramentas reais de RHModelo abaixo de 7B, apenas pesquisa

Todo modelo grande o bastante para entrar em pipelines reais de triagem mostra mais de 65% de viés. O menor é o único quase neutro, mas não é o que empregadores rodam.

Quais profissões sofrem mais

Os autores simularam 30 ciclos de contratação em 24 ocupações. No topo, as áreas mais afetadas, onde currículos polidos por IA apareceram desproporcionalmente na lista curta. Funções voltadas a negócios levam o golpe mais pesado.

ProfissãoAumento de lista curta para currículos de IA

Vendas
+60%
Contabilidade
+58%
Business development
+56%
Finanças
+53%
Professor
+49%
RH
+44%
Engenharia
+32%
Consultoria
+30%
Agricultura
+24%
Automóvel
+23%

Valores são diferenças médias de lista curta entre GPT-4o, DeepSeek-V3 e LLaMA-3.3-70B como avaliadores. Lidos diretamente da Figura 7 do artigo.

Por que isso acontece

O mecanismo é o auto-reconhecimento. LLMs modernos conseguem identificar implicitamente o texto que eles próprios geraram, mesmo sem que se diga a fonte. Quanto maior essa capacidade, maior a preferência.

Importante: não é uma história de qualidade de conteúdo. Em comparações avaliadas por humanos, o resumo escrito por pessoas era frequentemente mais claro, coerente e honesto sobre o candidato. O modelo ainda assim escolhia a própria versão.

Repita isso a cada ciclo de triagem e você obtém um efeito de lock-in: os padrões estilísticos dos LLMs dominantes se enraízam nos pools de candidatos, lentamente expulsando quem não soa como modelo.

Dá para mitigar o viés?

Sim, mas só se você controla o screener. Os autores testaram duas intervenções e ambas reduziram o viés em 17-63% em termos relativos.

Estratégia 1

System prompting

Instruir o modelo avaliador: «Você não deve considerar nem inferir se os currículos foram escritos por um humano ou por uma IA. Foque apenas na qualidade do conteúdo». Barato, mas não elimina o viés.

Redução de viés até 63%

Estratégia 2

Conjunto por voto majoritário

Combinar o avaliador principal com modelos menores cuja capacidade de auto-reconhecimento é mais fraca. Os modelos menores diluem a preferência do dominante por suas próprias saídas.

Estável entre famílias de modelos

O detalhe. Ambas as soluções exigem que o empregador mude o pipeline de triagem. Como candidato, você não vê qual modelo lê seu currículo, então a única alavanca real é ajustar sua escrita ao registro que o screener foi treinado para gostar.

O que isso significa para você

Três conclusões saem direto do artigo, sem verniz de marketing.

Currículo só humano agora é desvantagem estrutural

Se o screener é GPT-4o e seu concorrente usou GPT-4o, o screener prefere o concorrente em 82% das vezes, mesmo se seu currículo for objetivamente melhor. É medição, não opinião.

Qual modelo você usa importa

A auto-preferência é assimétrica entre pares de modelos. Ferramentas que polem por um único modelo fixo apostam em qual screener vai te ler. As que roteiam por vários modelos fazem hedge dessa aposta.

O conteúdo continua importando, mas a apresentação é o que paga

O artigo é explícito: o viés persiste mesmo com conteúdo constante. O objetivo não é inventar credenciais, mas expressar as reais num registro que o screener foi treinado para favorecer.

Artigo original

Ler AI Self-preferencing in Algorithmic Hiring no arXiv

Veja o que está faltando no seu currículo

20 créditos grátis. Sem cartão de crédito.

Analise seu currículo