Шаблон CV Middle LLM-инженер
Готовый шаблон CV для Middle LLM-инженер. Оптимизирован под ATS-системы.
Зарплата Middle (US)
$220,000 - $380,000
Почему это CV работает
Глаголы ownership LLM-программ
Владел, Закрыл, Согласовал, Перевёл, Написал. Mid-level LLM-инженер ведёт production-программы, не демо. Глаголы должны транслировать решение, что оставить и что убить.
Цифры по cost, latency и eval, не vanity
JSON-validity rate, cost per 1M tokens, p95 inter-token latency, число golden traces, процент compute. Mid-level метрики связывают поведение LLM с долларами и доверием.
Tradeoffs и kill-решения, переразмеряющие LLM-стек
Что вы убрали из LLM-стека, информативнее, чем что выпустили. «Закрыл prompt-only flow в пользу structured-output-with-Outlines» — senior-кодированное предложение.
Сигналы внутреннего влияния через продукт и платформу
Staff LLM-инженер, head of inference platform, Director of Product, hiring loop. Mid-level LLM-инженер меняет, как компания выпускает LLM, а не только как прототипирует.
Конкретные LLM-системы и движения
vLLM-кластер за structured-output gateway, INT4-AWQ-quantized Qwen 2.5 32B, Axolotl-driven SFT and DPO pipeline, Braintrust eval suite. Конкретика доказывает, что вы относитесь к LLM как к системе.
Необходимые навыки
- Эксплуатация vLLM-кластера
- Дизайн structured-output gateway
- Per-1M-token cost governance
- fp8 / fp16 quantization
- INT4 / AWQ quantization
- Axolotl SFT / DPO
- Braintrust eval suite
- Speculative decoding
- Unsloth
- LLaMA-Factory
- TRL
- Inspect AI
- DeepSeek-V3 / Gemma 2 / Phi-4
- Postgres / pgvector
- Kubernetes
- Профилирование cost-per-1M-tokens
Улучшите своё CV
Шаблоны и примеры резюме LLM-инженера для каждого этапа карьеры. Будь то первый prompt-engineering и RAG-flow, eval-driven LLM-стек со structured output и quantization, multi-model serving fabric на vLLM или LLM-платформа, на которую биллится вся организация - резюме должно доказывать, что вы выпускаете language-model системы с измеримыми JSON-validity rate, p95 TTFT, eval-pass rate и cost per 1M tokens. Хайринг в Anthropic, OpenAI, Cohere, Hugging Face, Mistral, Together AI, Fireworks AI, Anyscale, Databricks Mosaic, Notion AI, Glean, Perplexity, Cursor, Replit и команде Vercel AI SDK фильтрует резюме на «использовал GPT» или «интегрировал LLM» без eval-харнесса, serving-стека или числа cost per 1M tokens. Гайд покрывает стратегии резюме от junior до lead для LLM-инженеров с конкретным стеком (vLLM, TGI, Triton, llama.cpp, Outlines, Instructor, Guidance, lm-eval-harness, Braintrust, LangSmith, Helicone, Axolotl, Unsloth, TRL), метриками и senior-кодированным языком, который приводит на лупы во frontier LLM-лабах.
Лучшие практики резюме Mid-Level LLM-инженера
- Открывайте каждую роль tradeoff-буллетом. «Заменил prompt-only flow на structured-output-with-Outlines, подняв JSON-validity rate с 87 до 99 процентов» - сигнал seniority в двух частях.
- Один явный kill на роль. Закрытие open-temperature ad-hoc prompting паттерна, закрытие prompt-only flow, закрытие vendor-only inference-пути. Mid-level LLM-инженер доказывает суждение тем, что убирает, а не только тем, что выпускает.
- Считайте по трём линзам. Eval (JSON-validity rate, eval-pass rate, hallucination rate (custom metric)), cost (cost per 1M tokens, p95 TTFT, p95 inter-token latency), trust (red-team review findings, structured-output match rate). Mid-level метрики связывают поведение LLM с долларами и доверием.
- Ссылайтесь на кросс-функциональные комнаты, которые трогают LLM. Staff LLM-инженер, head of inference platform, Director of Product, cost-attribution ревью. Mid-level LLM падают в проде через latency и cost, не только через качество промпта.
- Называйте техники, не вайбы. vLLM-кластер за structured-output gateway, INT4-AWQ-quantized Qwen 2.5 32B, Axolotl-driven SFT and DPO pipeline, Braintrust eval suite. Конкретика доказывает, что вы вели программу.
Частые ошибки в резюме Mid-Level LLM-инженера
- Нет kill- или sunset-решений в LLM-стеке
Почему вредит: Mid-level LLM-инженер без kill-буллета сигнализирует, что вы не можете решить, что убрать из LLM runtime. Open-temperature ad-hoc prompting, prompt-only flow, vendor-only inference paths - самые дорогие failure modes в масштабе.
Как исправить: возьмите один паттерн, который вы закрыли (prompt-only flow, open-temperature, vendor-only), с триггером (cost-attribution ревью, JSON-validity пол, eval regression). Kill-буллет переписывает весь тон резюме.
- Model-agnostic резюме без названий реальных LLM
Почему вредит: Mid-level резюме на «использовал LLM» без названия Llama 3.1, Qwen 2.5, DeepSeek-V3, Gemma 2, Phi-4 или конкретных closed-model API читаются как model-uncurious. Хайринг-панели frontier-лаб хотят видеть, что у вас есть мнения, какая модель под какую нагрузку.
Как исправить: называйте минимум три конкретные модели в деплоях (Llama 3.1 8B, Qwen 2.5 32B, GPT-4o, Claude 3.5 Sonnet) с нагрузкой и cost-per-1M-tokens или latency, которые они дали.
- Нет работы по cost governance
Почему вредит: production-LLM теперь центры затрат. Резюме без cost per 1M tokens, p95 TTFT или per-1M-token cost ceilings сигнализирует, что вы не были рядом с production-биллом.
Как исправить: включите один буллет про дельту cost per 1M tokens (например, с $0.78 до $0.21) и один про per-1M-token cost ceiling, согласованный с продуктом или финансами.
Быстрые советы для резюме Mid-Level LLM-инженера
- Открывайте каждую роль tradeoff-буллетом. Часть «после замены X на Y» - самый эффективный seniority-сигнал.
- Один kill на роль. Закрытый паттерн (prompt-only flow, open-temperature ad-hoc) с критерием (cost-attribution ревью, JSON-validity пол).
- Считайте по трём линзам. Eval, cost, trust. Mid-level LLM-инженер держит все три.
- Ссылайтесь на кросс-функциональные комнаты. Staff LLM-инженер, head of inference platform, Director of Product, cost-attribution ревью.
- Называйте техники, не вайбы. vLLM-кластер за structured-output gateway, INT4-AWQ-quantized Qwen 2.5 32B, Axolotl-driven SFT and DPO pipeline, Braintrust eval suite.
Часто задаваемые вопросы
Рекомендуемые сертификации
Подготовка к собеседованию
Лупы LLM-инженера в Anthropic, OpenAI, Cohere, Hugging Face, Mistral, Together AI, Fireworks AI и Anyscale смешивают классическую IC software-панель с тремя LLM-специфическими станциями: письменное LLM-stack design упражнение (workload, model, runtime, structured-output policy, eval gates, cost ceiling), live-дебаг регрессии по JSON-validity rate или p95 TTFT и tradeoff-дебат по eval, cost и trust. Senior- и head-of-лупы добавляют build-vs-buy memo по managed vs. self-hosted runtime и board-level чтение колоды по inference-trust posture.
Частые вопросы
Типичные вопросы:
- Опишите паттерн, который закрыли в LLM-стеке, и критерии
- Как согласовывали per-1M-token cost ceiling с продуктом или финансами?
- Расскажите про vLLM-кластер, которым владели, и что сломалось в первый месяц
- Как партнёриться с inference platform, не замедляя роадмап?
- Расскажите про structured-output break path, который обнаружили
- Как доносить LLM-cost риск executive стейкхолдерам?