Skip to content
Новые ТехнологииSenior

Шаблон CV Senior LLM-инженер

Готовый шаблон CV для Senior LLM-инженер. Оптимизирован под ATS-системы.

Зарплата Senior (US)

$350,000 - $550,000

Почему это CV работает

Глаголы, сигнализирующие, что вы задаёте LLM-плейбук

Архитектировала, Установила, Направляла, Пионерила, Написала. Senior LLM-инженер не запускает промпты — она проектирует LLM-runtime, на котором работают LLM IC.

Цифры, транслирующие охват multi-model портфеля

62 процента сокращения cost, 9 model variants, three frontier providers, eval-pass rate без проседания, 2 IC ментренных. Senior-метрики LLM покрывают модели, доллары и риск.

Стратегические kill и ставки на уровне LLM-стека

«Закрыла prompt-only flow в пользу structured-output-with-Outlines» — сигнал seniority. Senior LLM-инженер говорит «нет» целым категориям паттернов, не отдельным промптам.

Cross-org и executive-влияние

VP of Research, Head of Inference Platform, Chief Risk Officer, board readout. Покажите, что формируете LLM-программу на executive-уровне, не на IC-уровне.

Архитектурный словарь для LLM-систем

Multi-model serving fabric на vLLM и TGI, structured-output gateway, Axolotl и Unsloth fine-tune pipeline, speculative-decoding с prefix-cache reuse, golden-trace replay eval harness. Senior LLM-инженер называет системы, которыми владеет.

Необходимые навыки

  • Multi-model serving fabric
  • Triton (Nvidia)
  • TensorRT-LLM
  • LLM capability matrix
  • Inference-trust posture
  • LLM-platform RFC
  • Cost-attribution ревью
  • Build-vs-Buy на inference
  • Prefix-cache reuse в масштабе
  • Speculative decoding программы
  • Менторство LLM IC
  • Дизайн hiring loop
  • Executive communication
  • Hallucination rate программы
  • Стратегия open-weights
  • Переговоры с frontier-провайдерами

Улучшите своё CV

Шаблоны и примеры резюме LLM-инженера для каждого этапа карьеры. Будь то первый prompt-engineering и RAG-flow, eval-driven LLM-стек со structured output и quantization, multi-model serving fabric на vLLM или LLM-платформа, на которую биллится вся организация - резюме должно доказывать, что вы выпускаете language-model системы с измеримыми JSON-validity rate, p95 TTFT, eval-pass rate и cost per 1M tokens. Хайринг в Anthropic, OpenAI, Cohere, Hugging Face, Mistral, Together AI, Fireworks AI, Anyscale, Databricks Mosaic, Notion AI, Glean, Perplexity, Cursor, Replit и команде Vercel AI SDK фильтрует резюме на «использовал GPT» или «интегрировал LLM» без eval-харнесса, serving-стека или числа cost per 1M tokens. Гайд покрывает стратегии резюме от junior до lead для LLM-инженеров с конкретным стеком (vLLM, TGI, Triton, llama.cpp, Outlines, Instructor, Guidance, lm-eval-harness, Braintrust, LangSmith, Helicone, Axolotl, Unsloth, TRL), метриками и senior-кодированным языком, который приводит на лупы во frontier LLM-лабах.

Лучшие практики резюме Senior LLM-инженера

  1. Формулируйте работу как дизайн runtime, а не выпуск одного промпта. «Архитектировала multi-model serving fabric на vLLM и TGI, покрывающий 9 model variants» бьёт «выпустила четырнадцать промптов». Senior LLM-инженер владеет runtime, на котором работают IC.
  2. Считайте охват портфеля по моделям, долларам и риску. Число model variants, frontier-провайдеров, cost per 1M tokens в масштабе, дельта hallucination. Три числа сообщают seniority быстрее трёх абзацев.
  3. Показывайте executive-уровень коммуникации. «В соавторстве с Chief Risk Officer написала inference-trust posture, попавший в board readout deck». Одной ссылки на роль хватает.
  4. Документируйте исходы менти и adoption RFC. «Менторила 2 IC в LLM-engineering specialization с собственным production-пайплайном за 4 месяца и сформировала LLM-platform RFC, принятый четырьмя продуктовыми командами» - единственная форма менторства, которую стоит писать.
  5. Делайте минимум один стратегический kill явным. «Закрыла prompt-only flow в пользу structured-output-with-Outlines, подняв JSON-validity rate с 87 до 99 процентов» - сигнал seniority, который ищут хайринг-панели в Anthropic и OpenAI.

Частые ошибки в резюме Senior LLM-инженера

  1. Читается как senior IC, а не runtime-дизайнер

Почему вредит: senior LLM-резюме на личных выпущенных промптах сигнализируют, что вы не сделали переход к ownership runtime. Хайринг-панели в Anthropic и OpenAI ждут force-multiplier-доказательств.

Как исправить: добавьте буллеты по multi-model serving fabric, который вы архитектировали, LLM capability matrix, который определили, и LLM-platform RFC, принятому другими командами. Два таких на роль переписывают seniority-сигнал.

  1. Пропуск cost governance и runtime build-vs-buy

Почему вредит: senior LLM-инженер должен влиять на inference vendor (vLLM vs. managed), дизайн structured-output gateway и per-1M-token cost ceilings. Резюме без этого выглядит так, будто вы бежите downstream чужого runtime-решения.

Как исправить: включите один буллет про build-vs-buy или cost-attribution решение, которое вы направили, с долларовым следствием и executive-партнёром (CFO, VP of Research).

  1. Нет ownership fine-tune pipeline

Почему вредит: senior LLM-инженер без истории fine-tune pipeline не выживает во frontier-лабах. Резюме без Axolotl, Unsloth, LLaMA-Factory, TRL или DPO/SFT/SimPO в production-масштабе сигнализирует, что вы запускали inference только на чужом чекпойнте.

Как исправить: включите один буллет про Axolotl и Unsloth fine-tune pipeline, который вы установили, один про eval-сьют, гейтящий релизы fine-tune, и один про cost-per-pp-on-eval, который вы измеряете.

Быстрые советы для резюме Senior LLM-инженера

  1. Открывайте каждую роль runtime, а не одним промптом. Multi-model serving fabric, structured-output gateway, speculative-decoding с prefix-cache reuse.
  2. Три оси цифр на роль. Model variants, frontier-провайдеров, cost per 1M tokens delta.
  3. Governance-буллет в каждой роли. Per-1M-token cost governance framework, golden-trace replay eval harness, inference-trust posture.
  4. Упоминайте executive-соавтора или спонсора. Chief Risk Officer, VP of Research, Head of Inference Platform, board readout deck.
  5. Считайте исходы менти. «Менторила 2 IC в LLM-engineering specialization с собственным production-пайплайном за 4 месяца» - единственная форма.

Часто задаваемые вопросы

LLM-инженер проектирует, выпускает и тюнит production language-model стеки: prompt engineering, RAG, structured output, fine-tuning, eval и inference serving. День смешивает написание structured-output схем (Outlines, Instructor, Guidance, JSON Schema), тюнинг vLLM или TGI кластера (fp8, INT4-AWQ, prefix caching, speculative decoding), запуск golden-trace eval-харнессов на LangSmith, Braintrust или lm-eval-harness, мониторинг cost-дашбордов на Helicone и ревью дельт fine-tune на Axolotl или Unsloth. Production-работа над LLM — это примерно 30 процентов serving- и decoding-код, 35 процентов eval и structured output, 20 процентов fine-tune и dataset, 15 процентов cost и reliability governance.

AI Engineer выпускает LLM-фичи широко (RAG, агенты, embeddings, vector DB, классификация); Agentic AI Engineer фокусируется узко на автономных multi-step agent loops с tool use; LLM-инженер фокусируется узко на самом language-model стеке: prompt engineering, RAG, fine-tuning, eval, structured output, latency, cost и serving (vLLM, TGI, Triton, llama.cpp). Где AI-инженер обращается с LLM как с одним компонентом, LLM-инженер владеет этим компонентом end-to-end на production-качестве.

Открывайте тремя линзами: eval (eval-pass rate, JSON-validity rate, structured-output match rate, hallucination rate (custom metric), context-length adoption), cost (cost per 1M tokens, p95 TTFT, p95 inter-token latency, fine-tune $-cost per pp on eval), trust (red-team review findings, inference-trust posture, lag обнаружения регрессий). Сочетайте с одной runtime-метрикой (число model variants, frontier-провайдеров) и одной организационной (принятые RFC, ментренные IC, развёрнутые councils).

Нет. Навык — инженерный, не исследовательский. Anthropic, OpenAI, Cohere, Hugging Face, Mistral, Together AI, Fireworks AI и Anyscale нанимают LLM-инженеров с сильным system-бэкграундом, BS или MS, способных читать serving-трейс, проектировать structured-output gateway, прогонять fine-tune на Axolotl и рассуждать про cost per 1M tokens. PhD требуются для AI research engineering и frontier capability work, не для LLM platform engineering. Планка — выпуск production LLM-стеков с измеримыми eval и cost-числами, не публикация статей.

Три артефакта: 24-месячная TCO-модель, сравнивающая managed (OpenAI API, Anthropic API, Bedrock) с self-hosted (vLLM за Outlines, TGI, Triton с TensorRT-LLM), включая лицензии, интеграцию и exit-стоимость; memo про стратегический рычаг, объясняющий, что покупает in-house runtime (кастомное decoding, контроль prefix-cache, structured-output gateway, cost attribution на маршрут), чего не даёт vendor; риск-реестр с vendor lock-in, reliability и exit-экспозициями. Принесите все три CFO и VP of Research — решение прорастает само.

Workload (например, extraction, summarization, chat, code), предпочитаемые model variants (Llama 3.1 70B, Qwen 2.5 32B, Claude 3.5 Sonnet, GPT-4o), serving runtime (vLLM, TGI, vendor API), structured-output policy (Outlines schema, JSON Schema, free-form), eval gates (пол eval-pass rate, пол JSON-validity rate, потолок hallucination rate), cost ceiling (per-1M-tokens, p95 TTFT) и quantization (fp8, INT4-AWQ, fp16). Матрица — контракт LLM runtime, подписанный inference platform и продуктом до выхода любого workload в прод.

Рекомендуемые сертификации

Подготовка к собеседованию

Лупы LLM-инженера в Anthropic, OpenAI, Cohere, Hugging Face, Mistral, Together AI, Fireworks AI и Anyscale смешивают классическую IC software-панель с тремя LLM-специфическими станциями: письменное LLM-stack design упражнение (workload, model, runtime, structured-output policy, eval gates, cost ceiling), live-дебаг регрессии по JSON-validity rate или p95 TTFT и tradeoff-дебат по eval, cost и trust. Senior- и head-of-лупы добавляют build-vs-buy memo по managed vs. self-hosted runtime и board-level чтение колоды по inference-trust posture.

Частые вопросы

Типичные вопросы:

  • Как бы вы архитектурили multi-model serving fabric по 9+ model variants?
  • Расскажите про build-vs-buy решение по inference (vLLM vs. managed) или fine-tune pipeline tooling
  • Как операционализировать hallucination-программы и cadence red-team eval без pushback инженеров?
  • Опишите LLM-platform RFC, который написали и который приняли другие команды
  • Расскажите про senior-level kill в LLM-стеке
  • Как менторите mid-level LLM-инженера в неоднозначной fine-tune работе?
Обновлено: