Skip to content
Tecnologias EmergentesJunior

Exemplo de currículo Junior AI Safety Engineer

Exemplo de currículo profissional Junior AI Safety Engineer. Modelo otimizado para ATS.

Faixa salarial Junior (US)

$180,000 - $260,000

Por que este currículo funciona

Verbos que provam que você rodou o eval, não que consumiu

Redigiu, Executou, Construiu, Reportou, Reproduziu. CVs júnior de AI safety que se apoiam em 'testou AI por segurança' se leem como prints de LinkedIn. Abra com verbos que mostrem que você produziu o artefato.

Cada artefato de red-team carrega um número

47 cenários de jailbreak, ASR de 38 a 22 por cento, 1.200 prompts dual-use, 14 issues reproduzíveis. Sem números, seu trabalho de safety é indistinguível de compliance theatre.

Conecte cada eval a um resultado de release-gate

Não 'testou modelo contra jailbreaks' mas 'gateou uma revisão de model-card' ou 'alimentou o red-team de pre-deployment'. Sempre termine com a decisão de safety que o artefato desbloqueou.

Mostre repasses para a safety org, não trabalho solo

Trust and Safety reviewer, alignment-applied team, safety eval suite owner. Júnior de AI safety que não devolve sinal aos model owners se lê como projeto acadêmico.

Stack real de safety dentro de artefatos reais

HarmBench, Inspect AI, PAIR, Llama Guard 2, Eleuther LM-eval, simple-evals. Nomear o framework dentro de um artefato prova que você o fiou, não apenas leu o paper.

Habilidades essenciais

  • HarmBench scenario authoring
  • Inspect AI eval harness
  • Llama Guard 2
  • PAIR and AutoDAN attack chains
  • Refusal precision-recall benchmarking
  • Python
  • Eleuther LM-eval-harness
  • OpenAI simple-evals
  • GCG-style adversarial suffixes
  • MLCommons AILuminate
  • NeMo Guardrails
  • Lakera Guard
  • Protect AI Rebuff
  • Multimodal jailbreak triage
  • NIST AI RMF 1.0 reading
  • OpenAI Usage Policies

Melhore seu currículo

Modelos e exemplos de currículo de AI Safety Engineer para cada estágio de carreira. Seja você reportando seu primeiro issue de jailbreak reproduzível, operando a camada de guardrails de produção, designando uma release-gate eval suite, ou chartereando um Frontier Safety Council, seu CV deve provar que você trata AI safety como um sistema de engenharia mensurável, não como uma postura de compliance ou uma rotação de moderação de conteúdo. Hiring managers na Anthropic, OpenAI, DeepMind, xAI, NIST AISI e UK AISI escaneiam por redução de jailbreak attack success rate (ASR), refusal precision-recall, ownership de harm-taxonomy e autoridade de release-gate. Este guia cobre estratégias de currículo de júnior a lead para AI Safety Engineers com o stack real, métricas reais e a linguagem que separa safety engineering do marketing genérico de responsible-AI.

Melhores Práticas para CV de Junior AI Safety Engineer

  1. Abra cada bullet com um artefato de eval reproduzível. Substitua 'testou AI por segurança' por '47 cenários de jailbreak em 6 categorias de dano usando templates HarmBench e PAIR'. Reproduzibilidade é todo o ponto no nível júnior.
  2. Quantifique ASR, refusal recall e false-positive rate. Mesmo no júnior, ancore cada bullet com um número: delta de ASR em uma classe de dano nomeada, refusal precision-recall em um set de prompts dimensionado, false-positive rate em um holdout benigno. Números separam eval engineers de prompt taggers.
  3. Nomeie o harness, o modelo e a classe de dano. Inspect AI sobre um stack de Llama Guard 2 sobre a classe de dano cibercrime é a forma. Frasear vagamente como 'AI safety testing' se lê como moderação de conteúdo, não eval engineering.
  4. Mostre o repasse. Trust and Safety reviewer, alignment-applied team, safety eval suite owner. Júnior de AI safety que não devolve sinal ao model owner se lê como projeto acadêmico.
  5. Ancore em um slot de harm taxonomy. Escolha uma classe de dano (cibercrime, CBRN, self-harm, persuasão) e rode dois bullets nela para mostrar ownership de um slot, não eval gigs aleatórios.

Erros Comuns de CV para Junior AI Safety Engineer

  1. Listar 'AI safety testing' sem classe de dano, harness ou métrica

Por que machuca: Recrutadores na Anthropic, OpenAI e DeepMind tratam 'testou AI por segurança' como ruído. Sem classe de dano nomeada, harness e métrica, o bullet é indistinguível de trabalho de moderação de conteúdo.

Como consertar: Substitua 'testou AI por segurança' por '47 cenários de jailbreak em 6 categorias de dano usando HarmBench e PAIR, elevou ASR em 16 pontos'. Harness, classe de dano, contagem, delta. Quatro âncoras, um bullet.

  1. Confundir AI safety com cybersecurity ou moderação de conteúdo

Por que machuca: CVs júnior que se apoiam em framing 'cybersecurity', 'compliance' ou 'moderação de conteúdo' acabam filtrados na pilha errada. Painéis de hiring de AI safety procuram vocabulário jailbreak/refusal/harm, não vocabulário CVE ou trust-and-safety-ticket.

Como consertar: Reescreva os bullets de security ou moderação em termos de eval engineering. 'Triou 800 abuse reports' vira 'redigiu 32 casos de teste de refusal-recall reproduzíveis que expuseram uma lacuna de 6 pontos na classe self-harm'.

  1. Sem referência a um eval harness ou guardrail real

Por que machuca: Sem Inspect AI, Eleuther LM-eval, simple-evals, Llama Guard 2, NeMo Guardrails ou Lakera Guard nos bullets, o trabalho é invisível para senior eval engineers revisando o CV.

Como consertar: Escolha um harness e um guardrail e coloque cada um dentro de um artefato. 'Implementou um Eleuther LM-eval-harness wrapper para Llama Guard 2 sobre um eval set dual-use de 900 prompts' é a forma.

Dicas Rápidas de CV para Junior AI Safety Engineer

  1. Abra com harness mais classe de dano mais delta. Inspect AI sobre ASR de cibercrime é prova de competência em uma linha.
  2. Use o formato com-quem. 'Co-redigiu uma refusal rubric com o Trust and Safety reviewer' aterriza mais forte que 'ajudou em safety'.
  3. Pareie cada ferramenta com um outcome de release-gate. HarmBench mais 'alimentou o red-team de pre-deployment' é a forma.
  4. Mostre um repasse cross-team por papel. Trust and Safety reviewer, alignment-applied team, safety eval suite owner.
  5. Mantenha um projeto no CV que você possa explicar de ponta a ponta no whiteboard. Escolha um HarmBench scenario pack ou um Llama Guard 2 wrapper sobre o qual você possa falar 25 minutos.

Perguntas frequentes

Um AI Safety Engineer redige e executa evals adversariais (cenários HarmBench, cadeias de ataque PAIR ou AutoDAN), mantém a camada de guardrails (Llama Guard 2, NeMo Guardrails, Lakera Guard) e a harm taxonomy que gateá releases, e devolve evidência reproduzível de policy-violation aos model owners e ao Trust and Safety reviewer. O dia mistura trabalho de harness em Inspect AI com leitura de scorecards (ASR, refusal precision-recall, FPR) e brokerar decisões go/no-go com o release exec council.

Analistas de cybersecurity defendem infraestrutura (CVEs, rede, identidade); moderadores de conteúdo aplicam policy de plataforma sobre conteúdo de usuário; AI Safety Engineers reduzem dano em nível de modelo: jailbreaks, capability uplift perigoso (CBRN, cyber), manipulação persuasiva e tool-use misuse. O stack de métricas é diferente (ASR, refusal recall, harm-class FPR) e o stack de artefatos é diferente (eval harness, camada de guardrails, harm taxonomy, model card). Confundi-los em um CV o filtra na queue errada.

Sim para o eval harness, a camada de guardrails e a infraestrutura de scoring. A linha é: código de qualidade de produção que gateá releases (Inspect AI tasks, Llama Guard 2 wrappers, scoring pipelines), não features no modelo de produto principal. Um AI Safety Engineer que não consegue cabear um Inspect AI task ponta a ponta contra um stack de Llama Guard 2 é funcionalmente um policy researcher com vocabulário técnico.

Lidere com redução de jailbreak attack success rate (ASR) em uma classe de dano nomeada, refusal precision-recall em um set de prompts dimensionado, false-positive rate de policy-violation em um holdout benigno, cobertura de red-team por categoria de dano, time-to-mitigation para uma classe inédita de jailbreak, e post-deployment incident rate. Cinco números nesses eixos superam qualquer muro de prosa sobre 'AI responsável'.

Sim. A maioria dos Junior AI Safety Engineers de sucesso vem de dois a três anos de software engineering regular mais contribuições visíveis de safety: cenários HarmBench, um Inspect AI task, uma avaliação pública de Llama Guard 2, uma submission ao AILuminate, ou um write-up de um ataque PAIR ou AutoDAN reproduzido. Hiring managers se importam mais com eval engineering reproduzível do que com papers ICML neste nível.

Um HarmBench scenario pack publicado com 20-50 cenários reproduzíveis, mais um Inspect AI task que pontua Llama Guard 2 contra eles, mais um memo de uma página sobre três lacunas de policy-taxonomy que você fecharia. Esse artefato supera qualquer portfólio de demos pela metade e sinaliza os três músculos de AI safety (red-team, eval, policy) em quinze minutos de tempo de revisão.

Certificações recomendadas

Preparação para entrevistas

Loops de AI Safety Engineer misturam um painel clássico de IC engineering com três estações específicas de safety: um take-home red-team task (construa um HarmBench scenario pack contra um modelo desconhecido e escreva a harm taxonomy), um walkthrough ao vivo de eval harness onde você defende cobertura e escolhas de false-positive, e uma revisão de portfólio onde você defende deltas de ASR, limiares de FPR e uma decisão de release-gate que você tomou ou propôs. Loops sênior e head-of adicionam um memo voltado ao regulador, uma conversa build-vs-buy sobre eval harness e uma defesa de orçamento ao CSO.

Perguntas frequentes

Perguntas comuns:

  • Me leve por um cenário HarmBench que você redigiu e a classe de dano que ele estressa
  • Como você mediria se uma refusal rubric funciona?
  • Demonstre-me este Inspect AI task e explique a false-positive rate em um holdout benigno
  • Me conte sobre uma vez em que você devolveu evidência reproduzível de policy-violation a um model owner
  • Como você decide entre PAIR e GCG para um budget de ataque dado?
  • Qual seu eval harness padrão e por quê?
Atualizado: