Exemple de CV Middle LLM Engineer
Exemple de CV professionnel Middle LLM Engineer. Modèle optimisé ATS.
Fourchette salariale Middle (US)
$220,000 - $380,000
Pourquoi ce CV fonctionne
Verbes qui montrent l'ownership d'un programme LLM
Pris en charge, Tué, Négocié, Migré, Rédigé. Les LLM engineers confirmés font tourner des programmes LLM en production, pas des démos. Les verbes doivent signaler que tu décides ce qui reste et ce qui meurt.
Chiffres liés au coût, à la latence et à l'eval LLM
JSON-validity rate, coût par 1M tokens, p95 inter-token latency, nombre de golden traces, pourcentage de compute récupéré. Les métriques confirmées lient le comportement LLM à des euros et de la confiance.
Tradeoffs et décisions de kill qui redimensionnent le stack LLM
Ce que tu as tué dans le stack LLM est plus informatif que ce que tu as livré. 'Tué le flow prompt-only au profit du structured-output-with-Outlines' est une phrase au code senior.
Signaux d'influence interne sur produit et plateforme
Staff LLM engineer, head of inference platform, Director of Product, hiring loop. Les LLM engineers confirmés changent comment l'entreprise livre les LLMs, pas seulement comment elle prototype.
Systèmes LLM concrets et mouvements
Cluster vLLM derrière un structured-output gateway, Qwen 2.5 32B quantisé en INT4-AWQ, pipeline SFT et DPO pilotée par Axolotl, suite d'eval Braintrust. Les spécificités prouvent que tu traites les LLMs comme un système.
Compétences essentielles
- vLLM Cluster Operations
- Structured-Output Gateway Design
- Per-1M-Token Cost Governance
- fp8 / fp16 Quantization
- INT4 / AWQ Quantization
- Axolotl SFT / DPO
- Braintrust Eval Suite
- Speculative Decoding
- Unsloth
- LLaMA-Factory
- TRL
- Inspect AI
- DeepSeek-V3 / Gemma 2 / Phi-4
- Postgres / pgvector
- Kubernetes
- Cost-Per-1M-Tokens Profiling
Améliorez votre CV
Templates et exemples de CV LLM Engineer pour chaque étape de carrière. Que tu câbles un premier flow de prompt-engineering et RAG, possèdes un stack LLM eval-driven avec structured output et quantization, conçoives un multi-model serving fabric sur vLLM, ou diriges la plateforme LLM contre laquelle le reste de l'org facture, ton CV doit prouver que tu livres des systèmes language-model avec JSON-validity rate, p95 TTFT, eval-pass rate et coût par 1M tokens mesurables. Les hiring panels d'Anthropic, OpenAI, Cohere, Hugging Face, Mistral, Together AI, Fireworks AI, Anyscale, Databricks Mosaic, Notion AI, Glean, Perplexity, Cursor, Replit et de l'équipe Vercel AI SDK filtrent les CV qui disent 'utilisé GPT' ou 'intégré LLM' sans eval harness, sans serving stack, sans coût par 1M tokens. Ce guide couvre les stratégies CV junior à lead pour LLM engineers avec le stack spécifique (vLLM, TGI, Triton, llama.cpp, Outlines, Instructor, Guidance, lm-eval-harness, Braintrust, LangSmith, Helicone, Axolotl, Unsloth, TRL), les métriques qui comptent, et le langage senior-coded qui décroche les loops dans les frontier LLM labs.
Best Practices pour CV LLM Engineer Confirmé
- Mène chaque rôle avec un bullet de tradeoff. 'Remplacé le flow prompt-only par structured-output-with-Outlines, faisant grimper la JSON-validity rate de 87 à 99 pour cent' est le signal de séniorité en deux clauses.
- Montre un kill explicite par rôle. Tuer le pattern de prompting ad-hoc à température ouverte, tuer le flow prompt-only, tuer un path d'inference vendor-only. Les LLM engineers confirmés prouvent leur jugement par ce qu'ils enlèvent, pas seulement par ce qu'ils livrent.
- Quantifie selon trois lentilles. Eval (JSON-validity rate, eval-pass rate, hallucination rate (custom metric)), coût (coût par 1M tokens, p95 TTFT, p95 inter-token latency) et confiance (red-team review findings, structured-output match rate). Les métriques confirmées lient le comportement LLM aux euros et à la confiance.
- Référence les salles cross-fonctionnelles que les LLMs touchent. Staff LLM engineer, head of inference platform, Director of Product, cost-attribution review. Les LLMs confirmés échouent en production par latence et coût, pas seulement par qualité de prompt.
- Nomme les techniques, pas le flou. Cluster vLLM derrière un structured-output gateway, Qwen 2.5 32B quantisé en INT4-AWQ, pipeline SFT et DPO pilotée par Axolotl, suite d'eval Braintrust. Les spécificités prouvent que tu as fait tourner le programme.
Erreurs CV Courantes pour LLM Engineer Confirmé
- Aucune décision de kill ou sunset dans le stack LLM
Pourquoi ça fait mal : Les LLM engineers confirmés sans bullet de kill signalent que tu ne peux pas décider quoi enlever de la runtime LLM. Le prompting ad-hoc à température ouverte, le flow prompt-only, les paths d'inference vendor-only sont les modes d'échec les plus chers à l'échelle.
Comment réparer : Choisis un pattern que tu as tué (flow prompt-only, température ouverte, vendor-only) avec le trigger (cost-attribution review, JSON-validity floor, régression d'eval). Le bullet de kill réécrit tout le ton du CV.
- CV agnostique au modèle qui ne nomme aucun LLM réel
Pourquoi ça fait mal : Les CV confirmés qui disent 'utilisé un LLM' sans nommer Llama 3.1, Qwen 2.5, DeepSeek-V3, Gemma 2, Phi-4 ou des APIs closed-model spécifiques se lisent comme model-uncurious. Les hiring panels frontier veulent voir que tu as des opinions sur quel modèle convient à quel workload.
Comment réparer : Nomme au moins trois modèles concrets en deployments (Llama 3.1 8B, Qwen 2.5 32B, GPT-4o, Claude 3.5 Sonnet) avec le workload et le coût par 1M tokens ou la latence qu'ils ont délivrés.
- Aucun travail de cost governance
Pourquoi ça fait mal : Les LLMs en production sont désormais des centres de coût. Les CV qui omettent coût par 1M tokens, p95 TTFT ou plafonds de coût par 1M tokens signalent que tu n'as pas été près de la facture de production.
Comment réparer : Inclus un bullet sur un delta de coût par 1M tokens (e.g., de 0,78 $ à 0,21 $) et un sur un plafond de coût par 1M tokens négocié avec produit ou finance.
Tips CV Rapides pour LLM Engineer Confirmé
- Mène chaque rôle avec un bullet de tradeoff. La clause 'en échange de' et la clause 'après avoir remplacé X par Y' sont les signaux de séniorité les plus efficaces.
- Un kill par rôle. Un pattern tué (flow prompt-only, ad-hoc à température ouverte) avec le critère qui l'a déclenché (cost-attribution review, JSON-validity floor).
- Quantifie trois lentilles. Eval, coût, confiance. Les LLM engineers confirmés tiennent les trois.
- Référence des salles cross-fonctionnelles. Staff LLM engineer, head of inference platform, Director of Product, cost-attribution review.
- Nomme les techniques, pas le flou. Cluster vLLM derrière un structured-output gateway, Qwen 2.5 32B quantisé en INT4-AWQ, pipeline SFT et DPO pilotée par Axolotl, suite d'eval Braintrust.
Questions fréquemment posées
Certifications recommandées
Préparation aux entretiens
Les loops de LLM engineer chez Anthropic, OpenAI, Cohere, Hugging Face, Mistral, Together AI, Fireworks AI et Anyscale combinent un panel IC software classique avec trois stations spécifiques au LLM : un exercice écrit de design de stack LLM (workload, modèle, runtime, policy de structured output, eval gates, plafond de coût), une session live de debugging d'une régression sur JSON-validity rate ou p95 TTFT, et un débat de tradeoff couvrant eval, coût et confiance. Les loops senior et head-of ajoutent un memo de build-vs-buy sur runtime managed vs. self-hosted et un readout de deck à niveau board sur la posture inference-trust.
Questions fréquentes
Questions courantes :
- Décris un pattern que tu as tué dans le stack LLM et les critères qui ont déclenché le kill
- Comment as-tu négocié un plafond de coût par 1M tokens avec produit ou finance ?
- Guide-moi à travers un cluster vLLM que tu possédais et ce qui a échoué le premier mois
- Comment t'associes-tu avec inference platform sans ralentir la roadmap ?
- Raconte-moi un path de break de structured output que tu as mis au jour
- Comment communiques-tu le risque de coût LLM aux stakeholders execs ?