Exemplo de currículo Middle LLM Engineer
Exemplo de currículo profissional Middle LLM Engineer. Modelo otimizado para ATS.
Faixa salarial Middle (US)
$220,000 - $380,000
Por que este currículo funciona
Verbos que mostram ownership de programa LLM
Assumi, Matei, Negociei, Migrei, Escrevi. LLM engineers de nível pleno rodam programas LLM em produção, não demos. Verbos devem sinalizar que você decide o que fica e o que morre.
Números atrelados a custo, latência e eval do LLM
JSON-validity rate, custo por 1M tokens, p95 inter-token latency, contagem de golden traces, percentual de compute recuperado. Métricas de pleno atrelam o comportamento do LLM a reais e a confiança.
Tradeoffs e decisões de kill que redimensionam o stack LLM
O que você matou no stack LLM é mais informativo do que o que você entregou. 'Matei o fluxo prompt-only em favor de structured-output-with-Outlines' é uma sentença com código sênior.
Sinais de influência interna em produto e plataforma
Staff LLM engineer, head of inference platform, Director of Product, hiring loop. LLM engineers plenos mudam como a empresa entrega LLMs, não apenas como prototipa.
Sistemas LLM concretos e movimentos
Cluster vLLM atrás de um structured-output gateway, Qwen 2.5 32B quantizado em INT4-AWQ, pipeline SFT e DPO dirigida por Axolotl, suíte de eval Braintrust. Especificidades provam que você trata LLMs como sistema.
Habilidades essenciais
- vLLM Cluster Operations
- Structured-Output Gateway Design
- Per-1M-Token Cost Governance
- fp8 / fp16 Quantization
- INT4 / AWQ Quantization
- Axolotl SFT / DPO
- Braintrust Eval Suite
- Speculative Decoding
- Unsloth
- LLaMA-Factory
- TRL
- Inspect AI
- DeepSeek-V3 / Gemma 2 / Phi-4
- Postgres / pgvector
- Kubernetes
- Cost-Per-1M-Tokens Profiling
Melhore seu currículo
Templates e exemplos de CV de LLM Engineer para cada estágio de carreira. Quer você esteja configurando um primeiro fluxo de prompt-engineering e RAG, assumindo um stack LLM eval-driven com structured output e quantização, projetando um multi-model serving fabric em vLLM, ou comandando a plataforma LLM contra a qual o resto da org factura, seu CV precisa provar que você entrega sistemas de language-model com JSON-validity rate, p95 TTFT, eval-pass rate e custo por 1M tokens mensuráveis. Os hiring panels da Anthropic, OpenAI, Cohere, Hugging Face, Mistral, Together AI, Fireworks AI, Anyscale, Databricks Mosaic, Notion AI, Glean, Perplexity, Cursor, Replit e do time da Vercel AI SDK filtram CVs que dizem 'usei GPT' ou 'integrei LLM' sem um eval harness, um serving stack ou um número de custo por 1M tokens. Este guia cobre estratégias de CV de júnior a lead para LLM engineers com o stack específico (vLLM, TGI, Triton, llama.cpp, Outlines, Instructor, Guidance, lm-eval-harness, Braintrust, LangSmith, Helicone, Axolotl, Unsloth, TRL), as métricas que importam e a linguagem senior-coded que rende loops em frontier LLM labs.
Best Practices para CV de LLM Engineer Pleno
- Lidere cada cargo com um bullet de tradeoff. 'Substituí o fluxo prompt-only por structured-output-with-Outlines, elevando JSON-validity rate de 87 para 99 por cento' é o sinal de senioridade em duas cláusulas.
- Mostre um kill explícito por cargo. Matar o pattern de prompting ad-hoc com temperatura aberta, matar o fluxo prompt-only, matar um path de inference vendor-only. LLM engineers plenos provam julgamento pelo que removem, não apenas pelo que entregam.
- Quantifique sob três lentes. Eval (JSON-validity rate, eval-pass rate, hallucination rate (custom metric)), custo (custo por 1M tokens, p95 TTFT, p95 inter-token latency) e confiança (red-team review findings, structured-output match rate). Métricas plenas atrelam o comportamento do LLM a reais e a confiança.
- Cite as salas cross-funcionais que LLMs tocam. Staff LLM engineer, head of inference platform, Director of Product, cost-attribution review. LLMs plenos falham em produção por latência e custo, não apenas por qualidade de prompt.
- Nomeie as técnicas, não as vibes. Cluster vLLM atrás de um structured-output gateway, Qwen 2.5 32B quantizado em INT4-AWQ, pipeline SFT e DPO dirigida por Axolotl, suíte de eval Braintrust. Especificidades provam que você rodou o programa.
Erros Comuns de CV para LLM Engineer Pleno
- Sem decisões de kill ou sunset no stack LLM
Por que machuca: LLM engineers plenos sem um bullet de kill sinalizam que você não consegue decidir o que remover da runtime LLM. Prompting ad-hoc com temperatura aberta, fluxo prompt-only, paths de inference vendor-only são os modos de falha mais caros em escala.
Como corrigir: Escolha um pattern que você matou (prompt-only, temperatura aberta, vendor-only) com o gatilho (cost-attribution review, JSON-validity floor, regressão de eval). O bullet de kill reescreve todo o tom do CV.
- CV agnóstico ao modelo que não nomeia LLMs reais
Por que machuca: CVs plenos que dizem 'usei um LLM' sem nomear Llama 3.1, Qwen 2.5, DeepSeek-V3, Gemma 2, Phi-4 ou APIs closed-model específicas se leem como model-uncurious. Hiring panels frontier querem ver que você tem opiniões sobre qual modelo encaixa em qual workload.
Como corrigir: Nomeie ao menos três modelos concretos em deployments (Llama 3.1 8B, Qwen 2.5 32B, GPT-4o, Claude 3.5 Sonnet) com o workload e o custo por 1M tokens ou latência que entregaram.
- Sem trabalho de cost governance
Por que machuca: LLMs em produção agora são centros de custo. CVs que omitem custo por 1M tokens, p95 TTFT ou tetos de custo por 1M tokens sinalizam que você não esteve perto da fatura de produção.
Como corrigir: Inclua um bullet sobre delta de custo por 1M tokens (e.g., de $0,78 para $0,21) e um sobre teto de custo por 1M tokens negociado com produto ou finanças.
Tips Rápidos de CV para LLM Engineer Pleno
- Lidere cada cargo com um bullet de tradeoff. A cláusula 'em troca de' e a cláusula 'após substituir X por Y' são os sinais de senioridade mais eficientes.
- Um kill por cargo. Um pattern matado (fluxo prompt-only, ad-hoc com temperatura aberta) com o critério que o gatilhou (cost-attribution review, JSON-validity floor).
- Quantifique três lentes. Eval, custo, confiança. LLM engineers plenos sustentam as três.
- Cite salas cross-funcionais. Staff LLM engineer, head of inference platform, Director of Product, cost-attribution review.
- Nomeie técnicas, não vibes. Cluster vLLM atrás de um structured-output gateway, Qwen 2.5 32B quantizado em INT4-AWQ, pipeline SFT e DPO dirigida por Axolotl, suíte de eval Braintrust.
Perguntas frequentes
Certificações recomendadas
Preparação para entrevistas
Os loops de LLM engineer na Anthropic, OpenAI, Cohere, Hugging Face, Mistral, Together AI, Fireworks AI e Anyscale combinam um painel clássico de IC software com três estações específicas de LLM: um exercício escrito de design de stack LLM (workload, modelo, runtime, policy de structured output, eval gates, teto de custo), uma sessão ao vivo de debugging de uma regressão em JSON-validity rate ou p95 TTFT, e um debate de tradeoff cobrindo eval, custo e confiança. Loops sêniores e head-of adicionam um memo de build-vs-buy sobre runtime managed vs. self-hosted e um readout de deck em nível de board sobre postura de inference-trust.
Perguntas frequentes
Perguntas comuns:
- Descreva um pattern que você matou no stack LLM e os critérios que gatilharam o kill
- Como você negociou um teto de custo por 1M tokens com produto ou finanças?
- Me guie por um cluster vLLM que você possuía e o que falhou no primeiro mês
- Como você se associa com inference platform sem desacelerar a roadmap?
- Conte sobre um path de break de structured output que você descobriu
- Como você comunica risco de custo LLM a stakeholders executivos?