AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights
Jiannan Xu (University of Maryland) · Gujie Li (National University of Singapore) · Jane Yi Jiang (The Ohio State University)
Leer el preprint en arXivUn estudio de 2026 sobre 9 modelos de lenguaje líderes encontró que los seleccionadores LLM favorecen sistemáticamente los currículums generados por ellos mismos, incluso cuando la versión escrita por humanos es objetivamente mejor. La diferencia en la lista corta llega al 60%.
AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights
Jiannan Xu (University of Maryland) · Gujie Li (National University of Singapore) · Jane Yi Jiang (The Ohio State University)
Leer el preprint en arXivGPT-4o eligió su propio currículum sobre el humano el 82% de las veces, incluso tras controlar la calidad del contenido.
Los candidatos cuyo currículum coincidía con el modelo del seleccionador tenían hasta un 60% más de probabilidades de pasar a entrevista.
Ocho de los nueve LLMs probados mostraron sesgo positivo. Solo LLaMA-3.2-1B, el modelo más pequeño, fue neutral.
Los autores ejecutaron un experimento de correspondencia controlado: tomar un currículum real escrito por una persona, hacer que un LLM reescriba el resumen ejecutivo, y luego pedir a otro LLM que elija la mejor versión. Mismo candidato, mismos hechos, mismo puesto, solo cambia la redacción.
Cada par fue evaluado bajo dos métricas de equidad: paridad estadística (tasa cruda de selección) y oportunidad equivalente (tras controlar la calidad del contenido con regresión logística condicional y ground truth anotado por humanos).
Para descartar efectos de orden, cada comparación se contrabalanceó al azar. Para descartar efectos de verbosidad, todos los resúmenes se ajustaron a la misma longitud.
La auto-preferencia no es una rareza de un solo modelo. Es generalizada entre familias de modelos y escala con el tamaño. Cada barra muestra cuánto más probable es que un modelo elija su propio currículum sobre uno humano de calidad equivalente.
Cada modelo con capacidad suficiente para usarse en pipelines reales de selección muestra más del 65% de sesgo. El más pequeño es el único aproximadamente neutral, pero no es el que usan los empleadores.
Los autores simularon 30 rondas de selección en 24 ocupaciones. Arriba están los campos más afectados, donde los currículums pulidos por IA aparecieron desproporcionadamente en la lista corta. Los roles orientados a negocios reciben el mayor impacto.
Los valores son diferencias medias de lista corta a través de GPT-4o, DeepSeek-V3 y LLaMA-3.3-70B como evaluadores. Leídos directamente de la Figura 7 del paper.
El mecanismo es el auto-reconocimiento. Los LLMs modernos pueden identificar implícitamente texto que ellos mismos generaron, incluso sin que se les diga la fuente. Cuanto más fuerte esa capacidad, más fuerte la preferencia.
Importante: no es una historia sobre calidad de contenido. En comparaciones evaluadas por humanos, el resumen escrito por personas era a menudo más claro, coherente y honesto sobre el candidato. El modelo seguía eligiendo su propia versión.
Repite esto en cada ciclo de selección y obtienes un efecto de lock-in: los patrones estilísticos de los LLMs dominantes se asientan en los grupos de candidatos, exprimiendo poco a poco a quien no suene a modelo.
Sí, pero solo si controlas el seleccionador. Los autores probaron dos intervenciones y ambas redujeron el sesgo entre un 17% y un 63% en términos relativos.
Indicar al modelo evaluador: «No considere ni infiera si los currículums fueron escritos por un humano o por una IA. Concéntrese solo en la calidad del contenido». Barato, pero no elimina el sesgo.
Combinar el evaluador principal con modelos más pequeños cuyo auto-reconocimiento es más débil. Los modelos pequeños diluyen la preferencia del modelo dominante por sus propios outputs.
El truco. Ambas soluciones requieren que el empleador cambie su pipeline de selección. Como candidato no ves qué modelo lee tu currículum, así que la única palanca real que controlas es ajustar tu escritura al registro que el seleccionador fue entrenado a preferir.
Tres conclusiones directas del paper, sin barniz de marketing.
Si el seleccionador es GPT-4o y tu competencia usó GPT-4o, el seleccionador prefiere a tu competencia el 82% de las veces, incluso si tu currículum es objetivamente mejor. Es una medición, no una opinión.
La auto-preferencia es asimétrica entre pares de modelos. Las herramientas que pulen con un único modelo fijo apuestan por qué seleccionador te tocará. Las que enrutan por varios modelos cubren esa apuesta.
El paper es explícito: el sesgo persiste incluso con contenido constante. La meta no es inventar credenciales, sino expresar las reales en un registro que el seleccionador fue entrenado a favorecer.
Paper original
Leer AI Self-preferencing in Algorithmic Hiring en arXiv