Skip to content
Tecnologias EmergentesMiddle

Exemplo de currículo Middle LLM Engineer

Exemplo de currículo profissional Middle LLM Engineer. Modelo otimizado para ATS.

Faixa salarial Middle (US)

$220,000 - $380,000

Por que este currículo funciona

Verbos que mostram ownership de programa LLM

Assumi, Matei, Negociei, Migrei, Escrevi. LLM engineers de nível pleno rodam programas LLM em produção, não demos. Verbos devem sinalizar que você decide o que fica e o que morre.

Números atrelados a custo, latência e eval do LLM

JSON-validity rate, custo por 1M tokens, p95 inter-token latency, contagem de golden traces, percentual de compute recuperado. Métricas de pleno atrelam o comportamento do LLM a reais e a confiança.

Tradeoffs e decisões de kill que redimensionam o stack LLM

O que você matou no stack LLM é mais informativo do que o que você entregou. 'Matei o fluxo prompt-only em favor de structured-output-with-Outlines' é uma sentença com código sênior.

Sinais de influência interna em produto e plataforma

Staff LLM engineer, head of inference platform, Director of Product, hiring loop. LLM engineers plenos mudam como a empresa entrega LLMs, não apenas como prototipa.

Sistemas LLM concretos e movimentos

Cluster vLLM atrás de um structured-output gateway, Qwen 2.5 32B quantizado em INT4-AWQ, pipeline SFT e DPO dirigida por Axolotl, suíte de eval Braintrust. Especificidades provam que você trata LLMs como sistema.

Habilidades essenciais

  • vLLM Cluster Operations
  • Structured-Output Gateway Design
  • Per-1M-Token Cost Governance
  • fp8 / fp16 Quantization
  • INT4 / AWQ Quantization
  • Axolotl SFT / DPO
  • Braintrust Eval Suite
  • Speculative Decoding
  • Unsloth
  • LLaMA-Factory
  • TRL
  • Inspect AI
  • DeepSeek-V3 / Gemma 2 / Phi-4
  • Postgres / pgvector
  • Kubernetes
  • Cost-Per-1M-Tokens Profiling

Melhore seu currículo

Templates e exemplos de CV de LLM Engineer para cada estágio de carreira. Quer você esteja configurando um primeiro fluxo de prompt-engineering e RAG, assumindo um stack LLM eval-driven com structured output e quantização, projetando um multi-model serving fabric em vLLM, ou comandando a plataforma LLM contra a qual o resto da org factura, seu CV precisa provar que você entrega sistemas de language-model com JSON-validity rate, p95 TTFT, eval-pass rate e custo por 1M tokens mensuráveis. Os hiring panels da Anthropic, OpenAI, Cohere, Hugging Face, Mistral, Together AI, Fireworks AI, Anyscale, Databricks Mosaic, Notion AI, Glean, Perplexity, Cursor, Replit e do time da Vercel AI SDK filtram CVs que dizem 'usei GPT' ou 'integrei LLM' sem um eval harness, um serving stack ou um número de custo por 1M tokens. Este guia cobre estratégias de CV de júnior a lead para LLM engineers com o stack específico (vLLM, TGI, Triton, llama.cpp, Outlines, Instructor, Guidance, lm-eval-harness, Braintrust, LangSmith, Helicone, Axolotl, Unsloth, TRL), as métricas que importam e a linguagem senior-coded que rende loops em frontier LLM labs.

Best Practices para CV de LLM Engineer Pleno

  1. Lidere cada cargo com um bullet de tradeoff. 'Substituí o fluxo prompt-only por structured-output-with-Outlines, elevando JSON-validity rate de 87 para 99 por cento' é o sinal de senioridade em duas cláusulas.
  2. Mostre um kill explícito por cargo. Matar o pattern de prompting ad-hoc com temperatura aberta, matar o fluxo prompt-only, matar um path de inference vendor-only. LLM engineers plenos provam julgamento pelo que removem, não apenas pelo que entregam.
  3. Quantifique sob três lentes. Eval (JSON-validity rate, eval-pass rate, hallucination rate (custom metric)), custo (custo por 1M tokens, p95 TTFT, p95 inter-token latency) e confiança (red-team review findings, structured-output match rate). Métricas plenas atrelam o comportamento do LLM a reais e a confiança.
  4. Cite as salas cross-funcionais que LLMs tocam. Staff LLM engineer, head of inference platform, Director of Product, cost-attribution review. LLMs plenos falham em produção por latência e custo, não apenas por qualidade de prompt.
  5. Nomeie as técnicas, não as vibes. Cluster vLLM atrás de um structured-output gateway, Qwen 2.5 32B quantizado em INT4-AWQ, pipeline SFT e DPO dirigida por Axolotl, suíte de eval Braintrust. Especificidades provam que você rodou o programa.

Erros Comuns de CV para LLM Engineer Pleno

  1. Sem decisões de kill ou sunset no stack LLM

Por que machuca: LLM engineers plenos sem um bullet de kill sinalizam que você não consegue decidir o que remover da runtime LLM. Prompting ad-hoc com temperatura aberta, fluxo prompt-only, paths de inference vendor-only são os modos de falha mais caros em escala.

Como corrigir: Escolha um pattern que você matou (prompt-only, temperatura aberta, vendor-only) com o gatilho (cost-attribution review, JSON-validity floor, regressão de eval). O bullet de kill reescreve todo o tom do CV.

  1. CV agnóstico ao modelo que não nomeia LLMs reais

Por que machuca: CVs plenos que dizem 'usei um LLM' sem nomear Llama 3.1, Qwen 2.5, DeepSeek-V3, Gemma 2, Phi-4 ou APIs closed-model específicas se leem como model-uncurious. Hiring panels frontier querem ver que você tem opiniões sobre qual modelo encaixa em qual workload.

Como corrigir: Nomeie ao menos três modelos concretos em deployments (Llama 3.1 8B, Qwen 2.5 32B, GPT-4o, Claude 3.5 Sonnet) com o workload e o custo por 1M tokens ou latência que entregaram.

  1. Sem trabalho de cost governance

Por que machuca: LLMs em produção agora são centros de custo. CVs que omitem custo por 1M tokens, p95 TTFT ou tetos de custo por 1M tokens sinalizam que você não esteve perto da fatura de produção.

Como corrigir: Inclua um bullet sobre delta de custo por 1M tokens (e.g., de $0,78 para $0,21) e um sobre teto de custo por 1M tokens negociado com produto ou finanças.

Tips Rápidos de CV para LLM Engineer Pleno

  1. Lidere cada cargo com um bullet de tradeoff. A cláusula 'em troca de' e a cláusula 'após substituir X por Y' são os sinais de senioridade mais eficientes.
  2. Um kill por cargo. Um pattern matado (fluxo prompt-only, ad-hoc com temperatura aberta) com o critério que o gatilhou (cost-attribution review, JSON-validity floor).
  3. Quantifique três lentes. Eval, custo, confiança. LLM engineers plenos sustentam as três.
  4. Cite salas cross-funcionais. Staff LLM engineer, head of inference platform, Director of Product, cost-attribution review.
  5. Nomeie técnicas, não vibes. Cluster vLLM atrás de um structured-output gateway, Qwen 2.5 32B quantizado em INT4-AWQ, pipeline SFT e DPO dirigida por Axolotl, suíte de eval Braintrust.

Perguntas frequentes

Um LLM engineer projeta, entrega e tunea stacks de language-model em produção: prompt engineering, RAG, structured output, fine-tuning, eval e inference serving. O dia mistura escrever schemas de structured output (Outlines, Instructor, Guidance, JSON Schema), tunear um cluster vLLM ou TGI (fp8, INT4-AWQ, prefix caching, speculative decoding), rodar eval harnesses de golden trace em LangSmith, Braintrust ou lm-eval-harness, observar dashboards de custo em Helicone e revisar deltas de fine-tune em Axolotl ou Unsloth. O trabalho LLM em produção é aproximadamente 30 por cento de código de serving e decoding, 35 por cento de eval e structured output, 20 por cento de trabalho de fine-tune e dataset, 15 por cento de governança de custo e reliability.

AI Engineers entregam features movidas a LLM amplamente (RAG, agents, embeddings, vector DBs, classificação); Agentic AI Engineers focam estritamente em loops de agentes autônomos multi-step com tool use; LLM Engineers focam estritamente no stack de language-model em si: prompt engineering, RAG, fine-tuning, eval, structured output, latência, custo e serving (vLLM, TGI, Triton, llama.cpp). Onde um AI engineer trata o LLM como um componente, um LLM engineer possui esse componente end-to-end em qualidade de produção.

Lidere com três lentes: eval (eval-pass rate, JSON-validity rate, structured-output match rate, hallucination rate (custom metric), adoção de context-length), custo (custo por 1M tokens, p95 TTFT, p95 inter-token latency, $-custo de fine-tune por pp em eval) e confiança (red-team review findings, postura de inference-trust, lag de detecção de regressão). Pareie com uma métrica de runtime (número de variantes de modelo, frontier providers cobertos) e uma métrica organizacional (RFCs adotados, ICs mentorados, councils levantados).

Não. A skill é engenharia, não pesquisa. Anthropic, OpenAI, Cohere, Hugging Face, Mistral, Together AI, Fireworks AI e Anyscale contratam LLM engineers com bagagens fortes de sistemas, BS ou MS, que conseguem ler um trace de serving, projetar um structured-output gateway, rodar um fine-tune em Axolotl e raciocinar sobre custo por 1M tokens. PhDs são exigidos para AI research engineering e trabalho de capability frontier, não para LLM platform engineering. A régua é entregar stacks LLM em produção com evals e números de custo mensuráveis, não publicar papers.

Defina kill-criteria de antemão: floor de JSON-validity rate (e.g., 95 por cento), teto de p95 TTFT (e.g., 250ms), cap de custo por 1M tokens (e.g., $0,40), floor de eval-pass rate em uma suíte release-gating. Quando um fluxo prompt-only erra dois de quatro por dois ciclos consecutivos de eval, mate-o e escreva o memo de kill com critérios, traces observados e o stack structured-output-with-Outlines com prefix caching que o substitui. O memo, não o kill, é o artefato que você coloca no CV.

Quando eval, custo ou confiança estão em risco de forma mensurável: red-team review trazendo paths de break de structured output, cost-attribution review mostrando o LLM acima do plano, ou eval-pass rate caindo abaixo do gate. Tradeoffs são o produto do LLM engineer; pushback sem tradeoff medido é só atrito e te marca como o blocker do time.

Certificações recomendadas

Preparação para entrevistas

Os loops de LLM engineer na Anthropic, OpenAI, Cohere, Hugging Face, Mistral, Together AI, Fireworks AI e Anyscale combinam um painel clássico de IC software com três estações específicas de LLM: um exercício escrito de design de stack LLM (workload, modelo, runtime, policy de structured output, eval gates, teto de custo), uma sessão ao vivo de debugging de uma regressão em JSON-validity rate ou p95 TTFT, e um debate de tradeoff cobrindo eval, custo e confiança. Loops sêniores e head-of adicionam um memo de build-vs-buy sobre runtime managed vs. self-hosted e um readout de deck em nível de board sobre postura de inference-trust.

Perguntas frequentes

Perguntas comuns:

  • Descreva um pattern que você matou no stack LLM e os critérios que gatilharam o kill
  • Como você negociou um teto de custo por 1M tokens com produto ou finanças?
  • Me guie por um cluster vLLM que você possuía e o que falhou no primeiro mês
  • Como você se associa com inference platform sem desacelerar a roadmap?
  • Conte sobre um path de break de structured output que você descobriu
  • Como você comunica risco de custo LLM a stakeholders executivos?
Atualizado: