Skip to content
Новые ТехнологииMiddle

Шаблон CV Middle LLM-инженер

Готовый шаблон CV для Middle LLM-инженер. Оптимизирован под ATS-системы.

Зарплата Middle (US)

$220,000 - $380,000

Почему это CV работает

Глаголы ownership LLM-программ

Владел, Закрыл, Согласовал, Перевёл, Написал. Mid-level LLM-инженер ведёт production-программы, не демо. Глаголы должны транслировать решение, что оставить и что убить.

Цифры по cost, latency и eval, не vanity

JSON-validity rate, cost per 1M tokens, p95 inter-token latency, число golden traces, процент compute. Mid-level метрики связывают поведение LLM с долларами и доверием.

Tradeoffs и kill-решения, переразмеряющие LLM-стек

Что вы убрали из LLM-стека, информативнее, чем что выпустили. «Закрыл prompt-only flow в пользу structured-output-with-Outlines» — senior-кодированное предложение.

Сигналы внутреннего влияния через продукт и платформу

Staff LLM-инженер, head of inference platform, Director of Product, hiring loop. Mid-level LLM-инженер меняет, как компания выпускает LLM, а не только как прототипирует.

Конкретные LLM-системы и движения

vLLM-кластер за structured-output gateway, INT4-AWQ-quantized Qwen 2.5 32B, Axolotl-driven SFT and DPO pipeline, Braintrust eval suite. Конкретика доказывает, что вы относитесь к LLM как к системе.

Необходимые навыки

  • Эксплуатация vLLM-кластера
  • Дизайн structured-output gateway
  • Per-1M-token cost governance
  • fp8 / fp16 quantization
  • INT4 / AWQ quantization
  • Axolotl SFT / DPO
  • Braintrust eval suite
  • Speculative decoding
  • Unsloth
  • LLaMA-Factory
  • TRL
  • Inspect AI
  • DeepSeek-V3 / Gemma 2 / Phi-4
  • Postgres / pgvector
  • Kubernetes
  • Профилирование cost-per-1M-tokens

Улучшите своё CV

Шаблоны и примеры резюме LLM-инженера для каждого этапа карьеры. Будь то первый prompt-engineering и RAG-flow, eval-driven LLM-стек со structured output и quantization, multi-model serving fabric на vLLM или LLM-платформа, на которую биллится вся организация - резюме должно доказывать, что вы выпускаете language-model системы с измеримыми JSON-validity rate, p95 TTFT, eval-pass rate и cost per 1M tokens. Хайринг в Anthropic, OpenAI, Cohere, Hugging Face, Mistral, Together AI, Fireworks AI, Anyscale, Databricks Mosaic, Notion AI, Glean, Perplexity, Cursor, Replit и команде Vercel AI SDK фильтрует резюме на «использовал GPT» или «интегрировал LLM» без eval-харнесса, serving-стека или числа cost per 1M tokens. Гайд покрывает стратегии резюме от junior до lead для LLM-инженеров с конкретным стеком (vLLM, TGI, Triton, llama.cpp, Outlines, Instructor, Guidance, lm-eval-harness, Braintrust, LangSmith, Helicone, Axolotl, Unsloth, TRL), метриками и senior-кодированным языком, который приводит на лупы во frontier LLM-лабах.

Лучшие практики резюме Mid-Level LLM-инженера

  1. Открывайте каждую роль tradeoff-буллетом. «Заменил prompt-only flow на structured-output-with-Outlines, подняв JSON-validity rate с 87 до 99 процентов» - сигнал seniority в двух частях.
  2. Один явный kill на роль. Закрытие open-temperature ad-hoc prompting паттерна, закрытие prompt-only flow, закрытие vendor-only inference-пути. Mid-level LLM-инженер доказывает суждение тем, что убирает, а не только тем, что выпускает.
  3. Считайте по трём линзам. Eval (JSON-validity rate, eval-pass rate, hallucination rate (custom metric)), cost (cost per 1M tokens, p95 TTFT, p95 inter-token latency), trust (red-team review findings, structured-output match rate). Mid-level метрики связывают поведение LLM с долларами и доверием.
  4. Ссылайтесь на кросс-функциональные комнаты, которые трогают LLM. Staff LLM-инженер, head of inference platform, Director of Product, cost-attribution ревью. Mid-level LLM падают в проде через latency и cost, не только через качество промпта.
  5. Называйте техники, не вайбы. vLLM-кластер за structured-output gateway, INT4-AWQ-quantized Qwen 2.5 32B, Axolotl-driven SFT and DPO pipeline, Braintrust eval suite. Конкретика доказывает, что вы вели программу.

Частые ошибки в резюме Mid-Level LLM-инженера

  1. Нет kill- или sunset-решений в LLM-стеке

Почему вредит: Mid-level LLM-инженер без kill-буллета сигнализирует, что вы не можете решить, что убрать из LLM runtime. Open-temperature ad-hoc prompting, prompt-only flow, vendor-only inference paths - самые дорогие failure modes в масштабе.

Как исправить: возьмите один паттерн, который вы закрыли (prompt-only flow, open-temperature, vendor-only), с триггером (cost-attribution ревью, JSON-validity пол, eval regression). Kill-буллет переписывает весь тон резюме.

  1. Model-agnostic резюме без названий реальных LLM

Почему вредит: Mid-level резюме на «использовал LLM» без названия Llama 3.1, Qwen 2.5, DeepSeek-V3, Gemma 2, Phi-4 или конкретных closed-model API читаются как model-uncurious. Хайринг-панели frontier-лаб хотят видеть, что у вас есть мнения, какая модель под какую нагрузку.

Как исправить: называйте минимум три конкретные модели в деплоях (Llama 3.1 8B, Qwen 2.5 32B, GPT-4o, Claude 3.5 Sonnet) с нагрузкой и cost-per-1M-tokens или latency, которые они дали.

  1. Нет работы по cost governance

Почему вредит: production-LLM теперь центры затрат. Резюме без cost per 1M tokens, p95 TTFT или per-1M-token cost ceilings сигнализирует, что вы не были рядом с production-биллом.

Как исправить: включите один буллет про дельту cost per 1M tokens (например, с $0.78 до $0.21) и один про per-1M-token cost ceiling, согласованный с продуктом или финансами.

Быстрые советы для резюме Mid-Level LLM-инженера

  1. Открывайте каждую роль tradeoff-буллетом. Часть «после замены X на Y» - самый эффективный seniority-сигнал.
  2. Один kill на роль. Закрытый паттерн (prompt-only flow, open-temperature ad-hoc) с критерием (cost-attribution ревью, JSON-validity пол).
  3. Считайте по трём линзам. Eval, cost, trust. Mid-level LLM-инженер держит все три.
  4. Ссылайтесь на кросс-функциональные комнаты. Staff LLM-инженер, head of inference platform, Director of Product, cost-attribution ревью.
  5. Называйте техники, не вайбы. vLLM-кластер за structured-output gateway, INT4-AWQ-quantized Qwen 2.5 32B, Axolotl-driven SFT and DPO pipeline, Braintrust eval suite.

Часто задаваемые вопросы

LLM-инженер проектирует, выпускает и тюнит production language-model стеки: prompt engineering, RAG, structured output, fine-tuning, eval и inference serving. День смешивает написание structured-output схем (Outlines, Instructor, Guidance, JSON Schema), тюнинг vLLM или TGI кластера (fp8, INT4-AWQ, prefix caching, speculative decoding), запуск golden-trace eval-харнессов на LangSmith, Braintrust или lm-eval-harness, мониторинг cost-дашбордов на Helicone и ревью дельт fine-tune на Axolotl или Unsloth. Production-работа над LLM — это примерно 30 процентов serving- и decoding-код, 35 процентов eval и structured output, 20 процентов fine-tune и dataset, 15 процентов cost и reliability governance.

AI Engineer выпускает LLM-фичи широко (RAG, агенты, embeddings, vector DB, классификация); Agentic AI Engineer фокусируется узко на автономных multi-step agent loops с tool use; LLM-инженер фокусируется узко на самом language-model стеке: prompt engineering, RAG, fine-tuning, eval, structured output, latency, cost и serving (vLLM, TGI, Triton, llama.cpp). Где AI-инженер обращается с LLM как с одним компонентом, LLM-инженер владеет этим компонентом end-to-end на production-качестве.

Открывайте тремя линзами: eval (eval-pass rate, JSON-validity rate, structured-output match rate, hallucination rate (custom metric), context-length adoption), cost (cost per 1M tokens, p95 TTFT, p95 inter-token latency, fine-tune $-cost per pp on eval), trust (red-team review findings, inference-trust posture, lag обнаружения регрессий). Сочетайте с одной runtime-метрикой (число model variants, frontier-провайдеров) и одной организационной (принятые RFC, ментренные IC, развёрнутые councils).

Нет. Навык — инженерный, не исследовательский. Anthropic, OpenAI, Cohere, Hugging Face, Mistral, Together AI, Fireworks AI и Anyscale нанимают LLM-инженеров с сильным system-бэкграундом, BS или MS, способных читать serving-трейс, проектировать structured-output gateway, прогонять fine-tune на Axolotl и рассуждать про cost per 1M tokens. PhD требуются для AI research engineering и frontier capability work, не для LLM platform engineering. Планка — выпуск production LLM-стеков с измеримыми eval и cost-числами, не публикация статей.

Определите kill-критерии заранее: пол JSON-validity rate (например, 95 процентов), потолок p95 TTFT (например, 250мс), cap cost-per-1M-tokens (например, $0.40), пол eval-pass rate на release-gating сьюте. Когда prompt-only flow мажет два из четырёх в двух циклах подряд — закрывайте и пишите kill-мемо с критериями, наблюдаемыми трейсами и structured-output-with-Outlines стеком с prefix caching, заменяющим его. Артефакт для резюме — мемо, а не сам kill.

Когда eval, cost или trust под риском измеримо: red-team review показал structured-output break paths, cost-attribution review показал LLM выше плана или eval-pass rate упал ниже gate. Tradeoffs — продукт LLM-инженера; pushback без измеренного tradeoff — просто трение и теггирует вас как блокера команды.

Рекомендуемые сертификации

Подготовка к собеседованию

Лупы LLM-инженера в Anthropic, OpenAI, Cohere, Hugging Face, Mistral, Together AI, Fireworks AI и Anyscale смешивают классическую IC software-панель с тремя LLM-специфическими станциями: письменное LLM-stack design упражнение (workload, model, runtime, structured-output policy, eval gates, cost ceiling), live-дебаг регрессии по JSON-validity rate или p95 TTFT и tradeoff-дебат по eval, cost и trust. Senior- и head-of-лупы добавляют build-vs-buy memo по managed vs. self-hosted runtime и board-level чтение колоды по inference-trust posture.

Частые вопросы

Типичные вопросы:

  • Опишите паттерн, который закрыли в LLM-стеке, и критерии
  • Как согласовывали per-1M-token cost ceiling с продуктом или финансами?
  • Расскажите про vLLM-кластер, которым владели, и что сломалось в первый месяц
  • Как партнёриться с inference platform, не замедляя роадмап?
  • Расскажите про structured-output break path, который обнаружили
  • Как доносить LLM-cost риск executive стейкхолдерам?
Обновлено: