Skip to content
Tecnologias Emergentes

Exemplo de currículo Junior LLM Engineer

Exemplo de currículo profissional Junior LLM Engineer. Modelo otimizado para ATS.

Escolha seu nível

Selecione o nível de experiência para um modelo de currículo adequado

Por que este currículo funciona

Verbos que provam que você entregou um LLM, não um prompt

Construí, Entreguei, Configurei, Perfilei, Escrevi. CVs de LLM júnior que se apoiam em 'experimentei com GPT-4' soam como turismo de notebook. Abra com verbos que mostrem um LLM rodando em produção.

Números ancoram cada afirmação de LLM

p95 TTFT, JSON-validity rate, eval-pass rate, custo por 1M tokens, contagem de golden traces. 'Usei GPT' sem métrica soa como pôster de hackathon. Números tornam o LLM real.

Conecte cada mudança a um resultado mensurável do LLM

Não 'usei vLLM' mas 'atingindo 71 por cento de eval-pass rate no eval set interno'. Cada bullet júnior deve aterrissar com um resultado medido, não com vibes.

Mostre feedback loops com pessoas, não apenas frameworks

Senior LLM engineer, time de applied science, inference-platform reviewer. Um LLM engineer júnior que nunca devolve feedback para plataforma ou ciência continua autor de notebooks.

Stack LLM real dentro de artefatos reais

vLLM, Outlines, Instructor, Llama 3.1 8B, lm-eval-harness, LangSmith, Helicone. Nomear o stack dentro de um deliverable prova que você de fato entregou o LLM.

Alterne entre níveis para recomendações específicas

Habilidades-chave

  • vLLM
  • Outlines
  • Instructor
  • Llama 3.1 / Qwen 2.5
  • OpenAI API
  • Anthropic API
  • lm-eval-harness
  • Python
  • LangSmith
  • Helicone
  • TGI
  • Ollama
  • llama.cpp
  • Guidance
  • JSON Schema
  • FastAPI
  • vLLM Cluster Operations
  • Structured-Output Gateway Design
  • Per-1M-Token Cost Governance
  • fp8 / fp16 Quantization
  • INT4 / AWQ Quantization
  • Axolotl SFT / DPO
  • Braintrust Eval Suite
  • Speculative Decoding
  • Unsloth
  • LLaMA-Factory
  • TRL
  • Inspect AI
  • DeepSeek-V3 / Gemma 2 / Phi-4
  • Postgres / pgvector
  • Kubernetes
  • Cost-Per-1M-Tokens Profiling
  • Multi-Model Serving Fabric
  • Triton (Nvidia)
  • TensorRT-LLM
  • LLM Capability Matrix
  • Inference-Trust Posture
  • LLM-Platform RFCs
  • Cost-Attribution Reviews
  • Build-vs-Buy on Inference
  • Prefix-Cache Reuse at Scale
  • Speculative Decoding Programs
  • LLM IC Mentorship
  • Hiring Loop Design
  • Executive Communication
  • Hallucination Rate Programs
  • Open-Weights Strategy
  • Frontier-Provider Negotiation
  • LLM Engineer Career Ladders
  • LLM Engineer Hiring Rubrics
  • LLM Runtime Lifecycle Policy
  • GPU-Budget Governance Framework
  • Multi-Year Compute Commitments
  • LLM Inference Councils
  • Reorg Planning
  • Board Communication
  • CFO Partnership
  • CISO Partnership
  • Procurement Negotiation
  • Multi-Region Org Design
  • Open-Weights Runtime Strategy
  • Industry Vertical Strategy
  • Together / Fireworks / Anyscale Economics
  • Databricks Mosaic Partnerships

Melhore seu currículo

Faixas salariais (US)

Junior
$150,000 - $220,000
Middle
$220,000 - $380,000
Senior
$350,000 - $550,000
Lead
$450,000 - $750,000

Progressão na carreira

LLM Engineer é um dos arcos de carreira tech emergentes mais íngremes porque a skill compõe em três eixos simultaneamente: profundidade de stack (vLLM, TGI, Triton, Outlines, Axolotl), disciplina de eval (golden-trace replay, JSON-validity rate, hallucination rate (custom metric)) e governança de custo e confiança (tetos de custo por 1M tokens, postura de inference-trust). A maioria dos LLM engineers fortes alcança sênior em frontier labs em cinco a sete anos e head-of em nove a doze, frequentemente pivotando de ML engineering, AI engineering ou bagagens de systems-infra.

  1. JuniorMiddle2-3 years

    Possua um stack LLM em produção end-to-end até GA, incluindo serving vLLM, structured-output gateway com Outlines e uma suíte de eval Braintrust ou lm-eval-harness com pelo menos 1.000 golden traces. Lidere um kill explícito (fluxo prompt-only, ad-hoc com temperatura aberta, inference vendor-only). Negocie um teto de custo por 1M tokens com produto ou finanças.

    • Structured-Output Gateway Design
    • Per-1M-Token Cost Governance
    • Axolotl Fine-Tune Basics
    • Quantization (fp8, INT4-AWQ)
  2. MiddleSenior3-4 years

    Arquitete um multi-model serving fabric cobrindo pelo menos 6 variantes de modelo com eval-pass rate mensurável mantido e wins de custo por 1M tokens. Lidere pelo menos um kill estratégico em nível de runtime. Escreva a matriz de capability LLM ou o RFC de plataforma LLM adotado entre times. Influencie pelo menos uma decisão de build-vs-buy sobre vendor de inference ou tooling de fine-tune com um memo escrito.

    • Multi-Model Serving Fabric
    • Speculative Decoding Programs
    • Cross-Org RFC Authorship
    • Build-vs-Buy Memos
  3. SeniorLead3-5 years

    Possua um portfólio de programas de runtime LLM em múltiplas superfícies de produto. Negocie um compromisso plurianual de compute e inference com vLLM, Together AI, Fireworks AI ou Anyscale. Levante pelo menos uma estrutura de governança (LLM Inference Council, política de lifecycle de runtime LLM). Escreva a career ladder de LLM engineer. Promova pelo menos um mentorado a IC sênior.

    • Compute-Partnership Economics
    • LLM Engineer Career Ladders
    • LLM Inference Council Design
    • Board Communication

LLM engineers fortes também pivotam para Director of AI Engineering, Chief of Staff de um CTO em um frontier lab, AI safety research engineering ou papéis de operating partner em venture funds focados em AI. Um movimento comum no fim de carreira é fundar uma startup de LLM-tooling (eval harnesses, structured-output gateways, plataformas de fine-tune, observability de inference) ou se juntar a um frontier lab como Principal LLM Engineer especializando-se em um domínio único (open-weights serving, pipelines de fine-tune, structured output, pesquisa de decoding).

Templates e exemplos de CV de LLM Engineer para cada estágio de carreira. Quer você esteja configurando um primeiro fluxo de prompt-engineering e RAG, assumindo um stack LLM eval-driven com structured output e quantização, projetando um multi-model serving fabric em vLLM, ou comandando a plataforma LLM contra a qual o resto da org factura, seu CV precisa provar que você entrega sistemas de language-model com JSON-validity rate, p95 TTFT, eval-pass rate e custo por 1M tokens mensuráveis. Os hiring panels da Anthropic, OpenAI, Cohere, Hugging Face, Mistral, Together AI, Fireworks AI, Anyscale, Databricks Mosaic, Notion AI, Glean, Perplexity, Cursor, Replit e do time da Vercel AI SDK filtram CVs que dizem 'usei GPT' ou 'integrei LLM' sem um eval harness, um serving stack ou um número de custo por 1M tokens. Este guia cobre estratégias de CV de júnior a lead para LLM engineers com o stack específico (vLLM, TGI, Triton, llama.cpp, Outlines, Instructor, Guidance, lm-eval-harness, Braintrust, LangSmith, Helicone, Axolotl, Unsloth, TRL), as métricas que importam e a linguagem senior-coded que rende loops em frontier LLM labs.

Perguntas frequentes

Um LLM engineer projeta, entrega e tunea stacks de language-model em produção: prompt engineering, RAG, structured output, fine-tuning, eval e inference serving. O dia mistura escrever schemas de structured output (Outlines, Instructor, Guidance, JSON Schema), tunear um cluster vLLM ou TGI (fp8, INT4-AWQ, prefix caching, speculative decoding), rodar eval harnesses de golden trace em LangSmith, Braintrust ou lm-eval-harness, observar dashboards de custo em Helicone e revisar deltas de fine-tune em Axolotl ou Unsloth. O trabalho LLM em produção é aproximadamente 30 por cento de código de serving e decoding, 35 por cento de eval e structured output, 20 por cento de trabalho de fine-tune e dataset, 15 por cento de governança de custo e reliability.

AI Engineers entregam features movidas a LLM amplamente (RAG, agents, embeddings, vector DBs, classificação); Agentic AI Engineers focam estritamente em loops de agentes autônomos multi-step com tool use; LLM Engineers focam estritamente no stack de language-model em si: prompt engineering, RAG, fine-tuning, eval, structured output, latência, custo e serving (vLLM, TGI, Triton, llama.cpp). Onde um AI engineer trata o LLM como um componente, um LLM engineer possui esse componente end-to-end em qualidade de produção.

Lidere com três lentes: eval (eval-pass rate, JSON-validity rate, structured-output match rate, hallucination rate (custom metric), adoção de context-length), custo (custo por 1M tokens, p95 TTFT, p95 inter-token latency, $-custo de fine-tune por pp em eval) e confiança (red-team review findings, postura de inference-trust, lag de detecção de regressão). Pareie com uma métrica de runtime (número de variantes de modelo, frontier providers cobertos) e uma métrica organizacional (RFCs adotados, ICs mentorados, councils levantados).

Não. A skill é engenharia, não pesquisa. Anthropic, OpenAI, Cohere, Hugging Face, Mistral, Together AI, Fireworks AI e Anyscale contratam LLM engineers com bagagens fortes de sistemas, BS ou MS, que conseguem ler um trace de serving, projetar um structured-output gateway, rodar um fine-tune em Axolotl e raciocinar sobre custo por 1M tokens. PhDs são exigidos para AI research engineering e trabalho de capability frontier, não para LLM platform engineering. A régua é entregar stacks LLM em produção com evals e números de custo mensuráveis, não publicar papers.

Uma pipeline real de structured-output em qualidade de produção em vLLM com Llama 3.1 8B servida atrás de Outlines e um eval harness em lm-eval-harness ou LangSmith, mais um benchmark open-source no GitHub com golden-trace replay (mesmo 180 exemplos rotulados são suficientes), mais um README de uma página sobre a JSON-validity rate, p95 TTFT e custo por 1M tokens que você mediu. Juntos sinalizam os três músculos (serving, eval, custo) em quinze minutos de revisão.

Os dois. A OpenAI API e a Anthropic API são a superfície baseline closed-model que todo LLM engineer precisa conhecer de cor. vLLM é a runtime open-source de serving de fato onde mora o trabalho real de LLM engineering: prefix caching, quantização fp8 e INT4-AWQ, speculative decoding, samplers custom e structured output via Outlines. Um júnior que só usa a OpenAI API ainda não cruzou para o LLM engineering; um júnior que entregou um stack vLLM com custo por 1M tokens medido, sim.