Skip to content
Tecnologías EmergentesJunior

Ejemplo de CV Junior AI Safety Engineer

Ejemplo de CV profesional Junior AI Safety Engineer. Plantilla optimizada para ATS.

Rango salarial Junior (US)

$180,000 - $260,000

Por qué este CV funciona

Verbos que prueban que ejecutaste el eval, no que lo consumiste

Redactó, Ejecutó, Construyó, Reportó, Reprodujo. Los CV junior de AI safety que se apoyan en 'probé AI por seguridad' se leen como capturas de LinkedIn. Abre con verbos que muestren que produjiste el artefacto.

Cada artefacto de red-team lleva un número

47 escenarios de jailbreak, ASR de 38 a 22 por ciento, 1.200 prompts dual-use, 14 issues reproducibles. Sin números, tu trabajo de safety no se distingue del compliance theatre.

Conecta cada eval con un resultado de release-gate

No 'probé el modelo contra jailbreaks' sino 'gateé una revisión de model-card' o 'alimenté el red-team de pre-deployment'. Cierra siempre con la decisión de safety que el artefacto desbloqueó.

Muestra entregas a la safety org, no trabajo en solitario

Trust and Safety reviewer, alignment-applied team, safety eval suite owner. El junior de AI safety que no devuelve señal a los model owners se lee como un proyecto académico.

Stack de safety real dentro de artefactos reales

HarmBench, Inspect AI, PAIR, Llama Guard 2, Eleuther LM-eval, simple-evals. Nombrar el framework dentro de un artefacto demuestra que lo cableaste, no que solo leíste el paper.

Habilidades esenciales

  • HarmBench scenario authoring
  • Inspect AI eval harness
  • Llama Guard 2
  • PAIR and AutoDAN attack chains
  • Refusal precision-recall benchmarking
  • Python
  • Eleuther LM-eval-harness
  • OpenAI simple-evals
  • GCG-style adversarial suffixes
  • MLCommons AILuminate
  • NeMo Guardrails
  • Lakera Guard
  • Protect AI Rebuff
  • Multimodal jailbreak triage
  • NIST AI RMF 1.0 reading
  • OpenAI Usage Policies

Mejore su CV

Plantillas y ejemplos de currículum de AI Safety Engineer para cada etapa de carrera. Tanto si reportas tu primer issue de jailbreak reproducible, lideras la capa de guardrails de producción, diseñas una release-gate eval suite, o charteras un Frontier Safety Council, tu CV debe demostrar que tratas la AI safety como un sistema de ingeniería medible, no como una postura de compliance o una rotación de moderación de contenido. Los hiring managers en Anthropic, OpenAI, DeepMind, xAI, NIST AISI y la UK AISI escanean por reducción de jailbreak attack success rate (ASR), refusal precision-recall, ownership de harm-taxonomy y autoridad de release-gate. Esta guía cubre estrategias de currículum de junior a lead para AI Safety Engineers con el stack real, las métricas reales y el lenguaje que separa el safety engineering del marketing genérico de responsible-AI.

Mejores Prácticas para CV de Junior AI Safety Engineer

  1. Abre cada bullet con un artefacto de eval reproducible. Sustituye 'probé AI por seguridad' por '47 escenarios de jailbreak en 6 categorías de daño usando templates de HarmBench y PAIR'. La reproducibilidad es todo el punto en nivel junior.
  2. Cuantifica ASR, refusal recall y false-positive rate. Incluso en junior, ancla cada bullet con un número: delta de ASR en una clase de daño nombrada, refusal precision-recall en un set de prompts dimensionado, false-positive rate en un holdout benigno. Los números separan a los eval engineers de los prompt taggers.
  3. Nombra el harness, el modelo y la clase de daño. Inspect AI sobre un stack de Llama Guard 2 sobre la clase de daño cibercrimen es la forma. Frasear vagamente como 'AI safety testing' se lee como moderación de contenido, no como eval engineering.
  4. Muestra la entrega. Trust and Safety reviewer, alignment-applied team, safety eval suite owner. El junior de AI safety que no devuelve señal al model owner se lee como un proyecto académico.
  5. Ancla a un slot de harm taxonomy. Elige una clase de daño (cibercrimen, CBRN, self-harm, persuasión) y ejecuta dos bullets en ella para mostrar ownership de un slot, no eval gigs aleatorios.

Errores Comunes de CV para Junior AI Safety Engineer

  1. Listar 'AI safety testing' sin clase de daño, harness o métrica

Por qué duele: Los reclutadores en Anthropic, OpenAI y DeepMind tratan 'probé AI por seguridad' como ruido. Sin una clase de daño nombrada, harness y métrica, el bullet es indistinguible del trabajo de moderación de contenido.

Cómo arreglarlo: Sustituye 'probé AI por seguridad' por '47 escenarios de jailbreak en 6 categorías de daño usando HarmBench y PAIR, elevó ASR en 16 puntos'. Harness, clase de daño, conteo, delta. Cuatro anclas, un bullet.

  1. Confundir AI safety con cybersecurity o moderación de contenido

Por qué duele: Los CVs junior que se apoyan en framing 'cybersecurity', 'compliance' o 'moderación de contenido' acaban filtrados al stack equivocado. Los paneles de hiring de AI safety buscan vocabulario jailbreak/refusal/harm, no vocabulario CVE o trust-and-safety-ticket.

Cómo arreglarlo: Reescribe los bullets de security o moderación en términos de eval engineering. 'Triagió 800 abuse reports' se vuelve 'redactó 32 casos de test de refusal-recall reproducibles que expusieron una brecha de 6 puntos en la clase self-harm'.

  1. Sin referencia a un eval harness o guardrail real

Por qué duele: Sin Inspect AI, Eleuther LM-eval, simple-evals, Llama Guard 2, NeMo Guardrails o Lakera Guard en los bullets, el trabajo es invisible para los senior eval engineers que revisan el CV.

Cómo arreglarlo: Elige un harness y un guardrail y coloca cada uno dentro de un artefacto. 'Implementó un Eleuther LM-eval-harness wrapper para Llama Guard 2 sobre un eval set dual-use de 900 prompts' es la forma.

Tips Rápidos de CV para Junior AI Safety Engineer

  1. Abre con harness más clase de daño más delta. Inspect AI sobre ASR de cibercrimen es una prueba de competencia en una línea.
  2. Usa el formato con-quién. 'Co-redactó una refusal rubric con el Trust and Safety reviewer' aterriza más fuerte que 'ayudó en safety'.
  3. Empareja cada herramienta con un outcome de release-gate. HarmBench más 'alimentó el red-team de pre-deployment' es la forma.
  4. Muestra una entrega cross-team por rol. Trust and Safety reviewer, alignment-applied team, safety eval suite owner.
  5. Mantén un proyecto en el CV que puedas whiteboardear de extremo a extremo. Elige un HarmBench scenario pack o un Llama Guard 2 wrapper sobre el que puedas hablar 25 minutos.

Preguntas frecuentes

Un AI Safety Engineer redacta y ejecuta evals adversariales (escenarios HarmBench, cadenas de ataque PAIR o AutoDAN), mantiene la capa de guardrails (Llama Guard 2, NeMo Guardrails, Lakera Guard) y la harm taxonomy que gateá releases, y devuelve evidencia reproducible de policy-violation a model owners y al Trust and Safety reviewer. El día mezcla trabajo de harness en Inspect AI con lectura de scorecards (ASR, refusal precision-recall, FPR) y brokerar decisiones go/no-go con el release exec council.

Los analistas de cybersecurity defienden infraestructura (CVEs, red, identidad); los moderadores de contenido aplican policy de plataforma sobre contenido de usuario; los AI Safety Engineers reducen daño a nivel de modelo: jailbreaks, capability uplift peligroso (CBRN, cyber), manipulación persuasiva y misuse de tool-use. El stack de métricas es distinto (ASR, refusal recall, harm-class FPR) y el stack de artefactos es distinto (eval harness, capa de guardrails, harm taxonomy, model card). Confundirlos en un CV lo filtra a la cola equivocada.

Sí para el eval harness, la capa de guardrails y la infraestructura de scoring. La línea es: código de calidad de producción que gateá releases (Inspect AI tasks, Llama Guard 2 wrappers, scoring pipelines), no features en el modelo de producto principal. Un AI Safety Engineer que no puede cablear un Inspect AI task de extremo a extremo contra un stack de Llama Guard 2 es funcionalmente un policy researcher con vocabulario técnico.

Lidera con reducción de jailbreak attack success rate (ASR) en una clase de daño nombrada, refusal precision-recall en un set de prompts dimensionado, false-positive rate de policy-violation en un holdout benigno, cobertura de red-team por categoría de daño, time-to-mitigation para una clase novedosa de jailbreak y post-deployment incident rate. Cinco números a través de estos ejes superan cualquier muro de prosa sobre 'AI responsable'.

Sí. La mayoría de los Junior AI Safety Engineers exitosos vienen de dos a tres años de software engineering regular más contribuciones de safety visibles: escenarios HarmBench, un Inspect AI task, una evaluación pública de Llama Guard 2, una submission a AILuminate, o un write-up de un ataque PAIR o AutoDAN reproducido. A los hiring managers les importa más el eval engineering reproducible que los papers en ICML en este nivel.

Un HarmBench scenario pack publicado con 20-50 escenarios reproducibles, más un Inspect AI task que puntúa Llama Guard 2 contra ellos, más un memo de una página sobre tres brechas de policy-taxonomy que cerrarías. Ese artefacto supera cualquier portfolio de demos a medio terminar y señala los tres músculos de AI safety (red-team, eval, policy) en quince minutos de tiempo de revisión.

Certificaciones recomendadas

Preparación para entrevistas

Los loops de AI Safety Engineer mezclan un panel clásico de IC engineering con tres estaciones específicas de safety: un take-home red-team task (construye un HarmBench scenario pack contra un modelo desconocido y escribe la harm taxonomy), un walkthrough en vivo de eval harness donde defiendes coverage y elecciones de false-positive, y un review de portfolio donde defiendes deltas de ASR, umbrales de FPR y una decisión de release-gate que tomaste o propusiste. Los loops senior y head-of añaden un memo cara al regulador, una conversación build-vs-buy sobre eval harness y una defensa de presupuesto al CSO.

Preguntas frecuentes

Preguntas comunes:

  • Recórreme un escenario HarmBench que redactaste y la clase de daño que estresa
  • ¿Cómo medirías si una refusal rubric funciona?
  • Demuéstrame este Inspect AI task y explica la false-positive rate en un holdout benigno
  • Háblame de una vez en la que devolviste evidencia reproducible de policy-violation a un model owner
  • ¿Cómo decides entre PAIR y GCG para un budget de ataque dado?
  • ¿Cuál es tu eval harness por defecto y por qué?
Actualizado: