Skip to content
Tecnología e Ingeniería

Ejemplo de CV Junior AI Research Engineer

Ejemplo de CV profesional Junior AI Research Engineer. Plantilla optimizada para ATS.

Elija su nivel

Seleccione el nivel de experiencia para una plantilla de CV adecuada

Por qué este CV funciona

Verbos que indican propiedad de research-to-prod

Reproduje, Redacté, Perfilé, Extendí, Implementé. Los frontier labs buscan verbos que demuestren que puedes coger un paper y convertirlo en código de entrenamiento ejecutable, no solo 'usé PyTorch'. Este es el listón que separa a los research engineers de los MLE genéricos.

Números de eval y training-runs, no intuiciones

A menos de 0.6 puntos del HumanEval pass@1, 38 ablation runs, 17% de GPU-hours, 1.7x throughput. A los research engineers se les juzga por deltas medidos; sin el número, tu ablation es folclore.

Rigor y disciplina de FLOPs visible en cada bullet

No 'entrené un modelo' sino 'a través de 3 distilled model sizes' y 'los 4 ajustes que sobrevivieron al golden-trace eval replay'. Los frontier labs contratan por rigor: ablations que prueban una hipótesis, no training runs que queman compute. Esta es la parte que los CV con sabor a MLE siempre olvidan.

Señal de colaboración, incluso a nivel de becario

En pareja con dos senior research engineers; aterrizó en 3 training stacks internos. Incluso como becario, demuestra que entregas a codebases compartidas de las que dependen otros investigadores. Este NO es un rol de MLE; es un rol de paper-a-codebase con peer reviewers.

Stack nombrado al nivel que le importa a un frontier lab

Triton kernel, FSDP-Z2 sharding, golden-trace replay, EleutherAI lm-evaluation-harness. No escribas 'PyTorch'; escribe la capa específica del training stack que tocaste. Así los recruiters de research-engineer distinguen aficionados de contribuidores.

Cambie entre niveles para recomendaciones específicas

Habilidades clave

  • Python
  • PyTorch
  • JAX
  • Hugging Face Transformers
  • Slurm
  • FSDP
  • Weights and Biases
  • lm-evaluation-harness
  • Triton
  • CUDA
  • DeepSpeed-Z2
  • Hydra
  • MMLU
  • GPQA-Diamond
  • HumanEval
  • MATH-500
  • vLLM
  • FSDP-Z3
  • DeepSpeed ZeRO
  • Megatron-LM
  • NCCL profiling
  • SFT
  • DPO
  • RLHF
  • RLAIF
  • PPO
  • Hugging Face TRL
  • DeepSpeed-MII
  • Triton kernels
  • NCCL
  • Rust
  • Tensor Parallel
  • Activation Checkpointing
  • Speculative Decoding
  • Reward Modeling
  • Constitutional AI
  • Golden-trace Replay
  • Scaling Laws
  • Inference-Time Compute
  • Mech-Interp Probes
  • Mixture-of-Experts
  • RLHF/DPO/RLAIF
  • Multimodal Alignment
  • Mech-Interp
  • Red-Team Eval
  • Eval-Harness Contracts
  • FLOPs Accounting
  • Org Design
  • Research Strategy
  • Hiring Rubrics
  • Compute Budget Planning

Mejore su CV

Rangos salariales (US)

Junior
$200,000 - $300,000
Middle
$300,000 - $500,000
Senior
$500,000 - $900,000
Lead
$700,000 - $1,500,000

Progresión profesional

AI Research Engineering es uno de los tracks de mayor apalancamiento en frontier labs. La progresión va de ablation-owner / contribuidor de eval-harness (junior) a lead de training run en modelos pequeños (intermedio) a lead de training run en tier de modelos grandes (senior) a arquitecto de área de research (lead, MTS, staff). Cada nivel añade escala de compute, ownership de eval-suite y artefactos reutilizables. El techo para ICs es staff o principal research engineer; muchos leads también pivotan a research-engineering management (head of pretraining, head of post-training).

  1. JuniorMiddle1-3 years

    Reproduce 2-3 papers de frontier lab con deltas de eval nombrados, contribuye una PR mergeada a lm-evaluation-harness / trl / vLLM, asume una serie de ablations de modelo pequeño end-to-end, perfila y reporta el coste en GPU-hours, entrega un Triton kernel o un fix de NCCL-tuning y empieza a ser el on-call nombrado de al menos un training run secundario.

    • FSDP-Z3 + activation checkpointing
    • SFT and DPO post-training
    • Triton kernel authoring
    • Eval-harness golden-trace replay
    • FLOPs accounting
  2. MiddleSenior2-4 years

    Sé primary on-call de un training run real (>=7B parámetros) con un porcentaje de fiabilidad, mata al menos una ablation multi-semana con evidencia de eval nombrada, mentoriza a 2 juniors en sus primeras rotaciones como ablation-owner, redacta un artefacto reutilizable (post-training run-book, eval template, kernel pack) y empieza a influir en el eval-harness contract usado por equipos adyacentes.

    • RLHF and RLAIF post-training
    • NCCL collective tuning
    • Tensor parallel + pipeline parallel
    • Speculative decoding stacks
    • Reusable run-books
  3. SeniorLead3-5 years

    Asume un training run de tier frontier (conteo de GPUs de 4 dígitos, 70B+ parámetros, duración multi-semana), produce un kill solo de senior (iniciativa multi-semana parada después de eval ablation, cientos de miles de GPU-hours redirigidos), mentoriza a 2 ICs hasta research-engineer senior, redacta un company-wide eval-harness contract o FLOPs accounting library, y colabora con un par a nivel de VP en el roadmap del área de research.

    • Research-area architecture (post-training, inference-time compute, multimodal alignment)
    • Multi-million GPU-hour budget ownership
    • Eval-harness contract design
    • Promotion ladder design and IC rotation mechanisms
    • Cross-team partnerships with VP-level peers

Caminos adyacentes: research scientist (más publicaciones, menos código), MLE / production AI engineer (serving e infra a escala), mech-interp researcher (rama especializada del campo), research-engineering manager (liderazgo de personas), inference-systems engineer (especialista en vLLM / TensorRT / speculative decoding). Algunos research engineers también pivotan a roles específicos de AI safety / red-team o a fundar startups de research-tooling (eval platforms, training-stack tooling).

Plantillas y ejemplos de CV para AI Research Engineer desde becario hasta lead, escritos para el job spec real de un frontier lab. El rol vive entre el research scientist y el MLE de producción: conviertes papers en código de entrenamiento e inferencia ejecutable, asumes el eval harness, ejecutas ablations y entregas componentes de modelos frontier. Los recruiters de Anthropic, OpenAI, Google DeepMind, FAIR, NVIDIA Research, Cohere y Apple AIML escanean señales muy específicas: tiempo de paper-a-checkpoint, porcentajes de fiabilidad de training-runs, tasas de pase en eval-suites como MMLU, GPQA-Diamond, HumanEval y MATH-500, eficiencia de FLOPs, disciplina de coste en GPU-hours y la disciplina de matar ablations que no elevan evals. Esta guía cubre de junior a lead con métricas concretas, las herramientas que importan (PyTorch, JAX, FSDP, DeepSpeed ZeRO, Megatron-LM, Triton, RLHF, DPO, golden-trace replay) y la redacción que separa a los research engineers de los ML engineers genéricos.

Preguntas frecuentes

Los AI Research Engineers convierten papers de research en código de entrenamiento e inferencia ejecutable, ejecutan ablations, asumen el eval harness y entregan componentes de modelos frontier. Se sitúan entre los research scientists (que enmarcan la hipótesis) y los applied-AI / MLE engineers (que productizan los modelos para los usuarios). En el día a día redactan recetas de entrenamiento, ajustan settings de FSDP / tensor-parallel / activation-checkpoint, escriben kernels en Triton o CUDA para los hot paths, ejecutan cientos de ablations contra eval suites nombradas (MMLU, GPQA-Diamond, HumanEval, MATH-500), matan experimentos que no elevan evals y escriben los post-mortems y run-books que reutilizan otros equipos de research.

Los MLE / applied-AI engineers asumen sistemas de producción: infraestructura de serving, pipelines RAG, latencia, uptime, deployment de modelos. Los AI Research Engineers asumen calidad de entrenamiento, eval harnesses, rigor de ablations, FLOPs efficiency y los kernels y estrategias de paralelismo que hacen que un training run a escala frontier termine sin crashear. El bullet de MLE es 'p99 latency 180ms a 50M req/día'. El bullet de research-engineer es '94% wall-clock-without-crash en 4096 H100s a 70B parámetros vía FSDP-Z3 + selective activation checkpointing'. Ambas son carreras válidas; los recruiters rechazan CV que las confunden.

No. El rol de AI Research Engineer es intencionalmente distinto del de research scientist; muchos ICs en Anthropic, OpenAI, DeepMind, FAIR y Cohere entraron con un MS fuerte más contribuciones open-source. Los PhDs son comunes a senior+ pero no requeridos. Lo que importa: una reproducción de un paper reciente, una PR mergeada en lm-evaluation-harness / trl / vLLM / un Triton kernel, deltas de eval nombrados y experiencia con entrenamiento basado en FSDP. Los niveles de senior+ research-engineer cada vez esperan más PhD o profundidad equivalente en industria (5+ años en un training stack frontier-adjacent).

MMLU (conocimiento), GPQA-Diamond (razonamiento de nivel posgrado), MATH-500 (matemáticas), HumanEval / MBPP / LiveCodeBench (código), AIME (matemáticas de competición), BBH (Big-Bench Hard) y cada vez más evals específicas de tarea como SWE-bench (agentes). Indica el shot count (p. ej. 5-shot MMLU, 0-shot GPQA-Diamond) y o bien un número absoluto o un delta contra un baseline nombrado. 'Evalué en benchmarks' genérico es un asesino de CV; las elecciones de eval de un research engineer son en sí mismas una señal de qué le importaba al rol del que vienes.

Elige un paper de un frontier lab de los últimos 12 meses y reproduce su receta de entrenamiento en un stack real basado en FSDP. Ejecuta al menos 30 ablations, mide deltas en una eval nombrada (MMLU, GPQA-Diamond, HumanEval) y publica una PR open-source mergeada (extensión de lm-evaluation-harness, una receta de trl, un Triton kernel, una optimización de vLLM). Una reproducción con un delta de eval real y una PR real es más creíble que diez certificados de Coursera.