Skip to content
Новые Технологии

Шаблон CV Junior LLM-инженер

Готовый шаблон CV для Junior LLM-инженер. Оптимизирован под ATS-системы.

Выберите свой уровень

Выберите уровень опыта для подходящего шаблона CV

Почему это CV работает

Глаголы, доказывающие, что вы выпустили LLM, а не промпт

Построила, Подключила, Выпустила, Профилировала, Написала. Junior LLM-резюме на «экспериментировала с GPT-4» читаются как notebook-туризм. Открывайте глаголами, показывающими работающую LLM в проде.

Цифры якорят каждое заявление про LLM

p95 TTFT, JSON-validity rate, eval-pass rate, cost per 1M tokens, число golden traces. «Использовала GPT» без метрики читается как hackathon-постер. Цифры делают LLM реальной.

Связывайте каждое изменение с измеримым исходом

Не «использовала vLLM», а «достигнув 71 процента eval-pass rate на внутреннем eval-сете». Каждый junior-буллет должен заканчиваться измеримым исходом, а не вайбом.

Показывайте feedback-петли с людьми, а не только с фреймворками

Senior LLM-инженер, applied-science команда, inference-platform ревьюер. Junior LLM-инженер, не возвращающий сигнал в платформу или science, остаётся автором ноутбуков.

Реальный LLM-стек внутри реальных артефактов

vLLM, Outlines, Instructor, Llama 3.1 8B, lm-eval-harness, LangSmith, Helicone. Назвать стек внутри deliverable — доказательство того, что вы реально выпустили LLM.

Переключайтесь между уровнями для конкретных рекомендаций

Ключевые навыки

  • vLLM
  • Outlines
  • Instructor
  • Llama 3.1 / Qwen 2.5
  • OpenAI API
  • Anthropic API
  • lm-eval-harness
  • Python
  • LangSmith
  • Helicone
  • TGI
  • Ollama
  • llama.cpp
  • Guidance
  • JSON Schema
  • FastAPI
  • Эксплуатация vLLM-кластера
  • Дизайн structured-output gateway
  • Per-1M-token cost governance
  • fp8 / fp16 quantization
  • INT4 / AWQ quantization
  • Axolotl SFT / DPO
  • Braintrust eval suite
  • Speculative decoding
  • Unsloth
  • LLaMA-Factory
  • TRL
  • Inspect AI
  • DeepSeek-V3 / Gemma 2 / Phi-4
  • Postgres / pgvector
  • Kubernetes
  • Профилирование cost-per-1M-tokens
  • Multi-model serving fabric
  • Triton (Nvidia)
  • TensorRT-LLM
  • LLM capability matrix
  • Inference-trust posture
  • LLM-platform RFC
  • Cost-attribution ревью
  • Build-vs-Buy на inference
  • Prefix-cache reuse в масштабе
  • Speculative decoding программы
  • Менторство LLM IC
  • Дизайн hiring loop
  • Executive communication
  • Hallucination rate программы
  • Стратегия open-weights
  • Переговоры с frontier-провайдерами
  • LLM engineer career ladders
  • LLM engineer hiring rubrics
  • LLM runtime lifecycle policy
  • GPU-budget governance framework
  • Multi-year compute коммитменты
  • LLM Inference Councils
  • Планирование реорга
  • Board communication
  • Партнёрство с CFO
  • Партнёрство с CISO
  • Procurement negotiation
  • Дизайн multi-region организации
  • Стратегия open-weights runtime
  • Стратегия по индустриям
  • Together / Fireworks / Anyscale economics
  • Партнёрства с Databricks Mosaic

Улучшите своё CV

Зарплаты (US)

Junior
$150,000 - $220,000
Middle
$220,000 - $380,000
Senior
$350,000 - $550,000
Lead
$450,000 - $750,000

Карьерный рост

LLM-инженер - одна из самых крутых emerging-технических карьерных дуг, потому что навык накапливается по трём осям одновременно: глубина стека (vLLM, TGI, Triton, Outlines, Axolotl), eval-дисциплина (golden-trace replay, JSON-validity rate, hallucination rate (custom metric)) и cost-and-trust governance (per-1M-token cost ceilings, inference-trust posture). Большинство сильных LLM-инженеров выходят на senior во frontier-лабах за пять-семь лет и на head-of за девять-двенадцать, часто разворачиваясь из ML engineering, AI engineering или systems-infra-бэкграунда.

  1. JuniorMiddle2-3 years

    Возьмите один production LLM-стек end-to-end до GA, включая vLLM serving, structured-output gateway с Outlines и Braintrust или lm-eval-harness eval-сьют минимум с 1,000 golden traces. Проведите один явный kill (prompt-only flow, open-temperature ad-hoc, vendor-only inference). Согласуйте один per-1M-token cost ceiling с продуктом или финансами.

    • Дизайн structured-output gateway
    • Per-1M-token cost governance
    • Основы Axolotl fine-tune
    • Quantization (fp8, INT4-AWQ)
  2. MiddleSenior3-4 years

    Архитектурьте multi-model serving fabric, покрывающий минимум 6 model variants, с измеримым неизменным eval-pass rate и cost-per-1M-tokens wins. Проведите минимум один стратегический kill на уровне runtime. Напишите LLM capability matrix или LLM-platform RFC, принятый по командам. Повлияйте на минимум одно build-vs-buy решение по inference vendor или fine-tune tooling письменным мемо.

    • Multi-model serving fabric
    • Speculative decoding программы
    • Авторство Cross-Org RFC
    • Build-vs-Buy мемо
  3. SeniorLead3-5 years

    Возьмите портфель LLM runtime программ по нескольким продуктовым поверхностям. Согласуйте multi-year compute и inference коммитмент с vLLM, Together AI, Fireworks AI или Anyscale. Развернитe минимум одну governance-структуру (LLM Inference Council, LLM runtime lifecycle policy). Напишите LLM engineer career ladder. Промоутьте минимум одного менти до senior IC.

    • Compute-partnership economics
    • LLM engineer career ladders
    • Дизайн LLM Inference Council
    • Board communication

Сильные LLM-инженеры также разворачиваются в Director of AI Engineering, Chief of Staff к CTO во frontier-лабе, AI safety research engineering или operating partner в AI-фокусных венчурных фондах. Частый поздне-карьерный ход - основание LLM-tooling стартапа (eval-харнессы, structured-output gateways, fine-tune платформы, inference observability) или присоединение к frontier-лабе как Principal LLM Engineer, специализирующийся в одном домене (open-weights serving, fine-tune pipelines, structured output, decoding research).

Шаблоны и примеры резюме LLM-инженера для каждого этапа карьеры. Будь то первый prompt-engineering и RAG-flow, eval-driven LLM-стек со structured output и quantization, multi-model serving fabric на vLLM или LLM-платформа, на которую биллится вся организация - резюме должно доказывать, что вы выпускаете language-model системы с измеримыми JSON-validity rate, p95 TTFT, eval-pass rate и cost per 1M tokens. Хайринг в Anthropic, OpenAI, Cohere, Hugging Face, Mistral, Together AI, Fireworks AI, Anyscale, Databricks Mosaic, Notion AI, Glean, Perplexity, Cursor, Replit и команде Vercel AI SDK фильтрует резюме на «использовал GPT» или «интегрировал LLM» без eval-харнесса, serving-стека или числа cost per 1M tokens. Гайд покрывает стратегии резюме от junior до lead для LLM-инженеров с конкретным стеком (vLLM, TGI, Triton, llama.cpp, Outlines, Instructor, Guidance, lm-eval-harness, Braintrust, LangSmith, Helicone, Axolotl, Unsloth, TRL), метриками и senior-кодированным языком, который приводит на лупы во frontier LLM-лабах.

Часто задаваемые вопросы

LLM-инженер проектирует, выпускает и тюнит production language-model стеки: prompt engineering, RAG, structured output, fine-tuning, eval и inference serving. День смешивает написание structured-output схем (Outlines, Instructor, Guidance, JSON Schema), тюнинг vLLM или TGI кластера (fp8, INT4-AWQ, prefix caching, speculative decoding), запуск golden-trace eval-харнессов на LangSmith, Braintrust или lm-eval-harness, мониторинг cost-дашбордов на Helicone и ревью дельт fine-tune на Axolotl или Unsloth. Production-работа над LLM — это примерно 30 процентов serving- и decoding-код, 35 процентов eval и structured output, 20 процентов fine-tune и dataset, 15 процентов cost и reliability governance.

AI Engineer выпускает LLM-фичи широко (RAG, агенты, embeddings, vector DB, классификация); Agentic AI Engineer фокусируется узко на автономных multi-step agent loops с tool use; LLM-инженер фокусируется узко на самом language-model стеке: prompt engineering, RAG, fine-tuning, eval, structured output, latency, cost и serving (vLLM, TGI, Triton, llama.cpp). Где AI-инженер обращается с LLM как с одним компонентом, LLM-инженер владеет этим компонентом end-to-end на production-качестве.

Открывайте тремя линзами: eval (eval-pass rate, JSON-validity rate, structured-output match rate, hallucination rate (custom metric), context-length adoption), cost (cost per 1M tokens, p95 TTFT, p95 inter-token latency, fine-tune $-cost per pp on eval), trust (red-team review findings, inference-trust posture, lag обнаружения регрессий). Сочетайте с одной runtime-метрикой (число model variants, frontier-провайдеров) и одной организационной (принятые RFC, ментренные IC, развёрнутые councils).

Нет. Навык — инженерный, не исследовательский. Anthropic, OpenAI, Cohere, Hugging Face, Mistral, Together AI, Fireworks AI и Anyscale нанимают LLM-инженеров с сильным system-бэкграундом, BS или MS, способных читать serving-трейс, проектировать structured-output gateway, прогонять fine-tune на Axolotl и рассуждать про cost per 1M tokens. PhD требуются для AI research engineering и frontier capability work, не для LLM platform engineering. Планка — выпуск production LLM-стеков с измеримыми eval и cost-числами, не публикация статей.

Один реальный production-grade structured-output пайплайн на vLLM с Llama 3.1 8B за Outlines и eval-харнессом на lm-eval-harness или LangSmith, плюс open-source benchmark на GitHub с golden-trace replay (180 размеченных примеров хватает), плюс одностраничный README про JSON-validity rate, p95 TTFT и cost-per-1M-tokens. Вместе они сигнализируют все три мышцы (serving, eval, cost) за пятнадцать минут ревью.

Оба. OpenAI API и Anthropic API — базовая closed-model поверхность, которую LLM-инженер должен знать назубок. vLLM — де-факто open-source serving runtime, где живёт реальная LLM-engineering работа: prefix caching, fp8 и INT4-AWQ quantization, speculative decoding, кастомные samplers и structured output через Outlines. Junior, который использует только OpenAI API, ещё не пересёк в LLM engineering; junior, выпустивший vLLM-стек с измеренным cost-per-1M-tokens, — пересёк.