axolotl/docs/vllm_serving.html

<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml" lang="en" xml:lang="en"><head>

<meta charset="utf-8">
<meta name="generator" content="quarto-1.9.37">

<meta name="viewport" content="width=device-width, initial-scale=1.0, user-scalable=yes">

<meta name="description" content="How to configure and run vLLM as a generation backend for GRPO reinforcement learning in Axolotl.">

<title>vLLM Serving for GRPO Training – Axolotl</title>
<style>
/* Default styles provided by pandoc.
** See https://pandoc.org/MANUAL.html#variables-for-html for config info.
*/
code{white-space: pre-wrap;}
span.smallcaps{font-variant: small-caps;}
div.columns{display: flex; gap: min(4vw, 1.5em);}
div.column{flex: auto; overflow-x: auto;}
div.hanging-indent{margin-left: 1.5em; text-indent: -1.5em;}
ul.task-list{list-style: none;}
ul.task-list li input[type="checkbox"] {
  width: 0.8em;
  margin: 0 0.8em 0.2em -1em; /* quarto-specific, see https://github.com/quarto-dev/quarto-cli/issues/4556 */
  vertical-align: middle;
}
/* CSS for syntax highlighting */
html { -webkit-text-size-adjust: 100%; }
pre > code.sourceCode { white-space: pre; position: relative; }
pre > code.sourceCode > span { display: inline-block; line-height: 1.25; }
pre > code.sourceCode > span:empty { height: 1.2em; }
.sourceCode { overflow: visible; }
code.sourceCode > span { color: inherit; text-decoration: inherit; }
div.sourceCode { margin: 1em 0; }
pre.sourceCode { margin: 0; }
@media screen {
div.sourceCode { overflow: auto; }
}
@media print {
pre > code.sourceCode { white-space: pre-wrap; }
pre > code.sourceCode > span { text-indent: -5em; padding-left: 5em; }
}
pre.numberSource code
  { counter-reset: source-line 0; }
pre.numberSource code > span
  { position: relative; left: -4em; counter-increment: source-line; }
pre.numberSource code > span > a:first-child::before
  { content: counter(source-line);
    position: relative; left: -1em; text-align: right; vertical-align: baseline;
    border: none; display: inline-block;
    -webkit-touch-callout: none; -webkit-user-select: none;
    -khtml-user-select: none; -moz-user-select: none;
    -ms-user-select: none; user-select: none;
    padding: 0 4px; width: 4em;
  }
pre.numberSource { margin-left: 3em;  padding-left: 4px; }
div.sourceCode
  {   }
@media screen {
pre > code.sourceCode > span > a:first-child::before { text-decoration: underline; }
}
</style>


<script src="../site_libs/quarto-nav/quarto-nav.js"></script>
<script src="../site_libs/clipboard/clipboard.min.js"></script>
<script src="../site_libs/quarto-search/autocomplete.umd.js"></script>
<script src="../site_libs/quarto-search/fuse.min.js"></script>
<script src="../site_libs/quarto-search/quarto-search.js"></script>
<meta name="quarto:offset" content="../">
<link href="../favicon.jpg" rel="icon" type="image/jpeg">
<script src="../site_libs/quarto-html/quarto.js" type="module"></script>
<script src="../site_libs/quarto-html/tabsets/tabsets.js" type="module"></script>
<script src="../site_libs/quarto-html/popper.min.js"></script>
<script src="../site_libs/quarto-html/tippy.umd.min.js"></script>
<script src="../site_libs/quarto-html/anchor.min.js"></script>
<link href="../site_libs/quarto-html/tippy.css" rel="stylesheet">
<link href="../site_libs/quarto-html/quarto-syntax-highlighting-dark-d0ae9245876894da5ac7e18953ecc5cc.css" rel="stylesheet" id="quarto-text-highlighting-styles">
<script src="../site_libs/bootstrap/bootstrap.min.js"></script>
<link href="../site_libs/bootstrap/bootstrap-icons.css" rel="stylesheet">
<link href="../site_libs/bootstrap/bootstrap-ab6ebd6eb475c4578b58908bc314f719.min.css" rel="stylesheet" append-hash="true" id="quarto-bootstrap" data-mode="dark">
<script id="quarto-search-options" type="application/json">{
  "location": "navbar",
  "copy-button": false,
  "collapse-after": 3,
  "panel-placement": "end",
  "type": "overlay",
  "limit": 50,
  "keyboard-shortcut": [
    "f",
    "/",
    "s"
  ],
  "show-item-context": false,
  "language": {
    "search-no-results-text": "No results",
    "search-matching-documents-text": "matching documents",
    "search-copy-link-title": "Copy link to search",
    "search-hide-matches-text": "Hide additional matches",
    "search-more-match-text": "more match in this document",
    "search-more-matches-text": "more matches in this document",
    "search-clear-button-title": "Clear",
    "search-text-placeholder": "",
    "search-detached-cancel-button-title": "Cancel",
    "search-submit-button-title": "Submit",
    "search-label": "Search"
  }
}</script>
<script async="" src="https://www.googletagmanager.com/gtag/js?id=G-9KYCVJBNMQ"></script>

<script type="text/javascript">

window.dataLayer = window.dataLayer || [];
function gtag(){dataLayer.push(arguments);}
gtag('js', new Date());
gtag('config', 'G-9KYCVJBNMQ', { 'anonymize_ip': true});
</script>


<link rel="stylesheet" href="../styles.css">
</head>

<body class="nav-sidebar docked nav-fixed quarto-light">

<div id="quarto-search-results"></div>
  <header id="quarto-header" class="headroom fixed-top">
    <nav class="navbar navbar-expand " data-bs-theme="dark">
      <div class="navbar-container container-fluid">
      <div class="navbar-brand-container mx-auto">
    <a href="../index.html" class="navbar-brand navbar-brand-logo">
    <img src="../image/axolotl_logo_digital_white.svg" alt="" class="navbar-logo light-content">
    <img src="../image/axolotl_logo_digital_white.svg" alt="" class="navbar-logo dark-content">
    </a>
  </div>
        <div class="quarto-navbar-tools tools-wide tools-end">
    <a href="https://twitter.com/axolotl_ai" title="" class="quarto-navigation-tool px-1" aria-label=""><i class="bi bi-twitter"></i></a>
    <a href="https://github.com/axolotl-ai-cloud/axolotl/" title="" class="quarto-navigation-tool px-1" aria-label=""><i class="bi bi-github"></i></a>
    <a href="https://discord.gg/7m9sfhzaf3" title="" class="quarto-navigation-tool px-1" aria-label=""><i class="bi bi-discord"></i></a>
</div>
          <div id="quarto-search" class="" title="Search"></div>
      </div> <!-- /container-fluid -->
    </nav>
  <nav class="quarto-secondary-nav">
    <div class="container-fluid d-flex">
      <button type="button" class="quarto-btn-toggle btn" data-bs-toggle="collapse" role="button" data-bs-target=".quarto-sidebar-collapse-item" aria-controls="quarto-sidebar" aria-expanded="false" aria-label="Toggle sidebar navigation" onclick="if (window.quartoToggleHeadroom) { window.quartoToggleHeadroom(); }">
        <i class="bi bi-layout-text-sidebar-reverse"></i>
      </button>
        <nav class="quarto-page-breadcrumbs" aria-label="breadcrumb"><ol class="breadcrumb"><li class="breadcrumb-item"><a href="../docs/multimodal.html">How To Guides</a></li><li class="breadcrumb-item"><a href="../docs/vllm_serving.html">vLLM Serving for GRPO Training</a></li></ol></nav>
        <a class="flex-grow-1" role="navigation" data-bs-toggle="collapse" data-bs-target=".quarto-sidebar-collapse-item" aria-controls="quarto-sidebar" aria-expanded="false" aria-label="Toggle sidebar navigation" onclick="if (window.quartoToggleHeadroom) { window.quartoToggleHeadroom(); }">
        </a>
    </div>
  </nav>
</header>
<!-- content -->
<div id="quarto-content" class="quarto-container page-columns page-rows-contents page-layout-article page-navbar">
<!-- sidebar -->
  <nav id="quarto-sidebar" class="sidebar collapse collapse-horizontal quarto-sidebar-collapse-item sidebar-navigation docked overflow-auto">
    <div class="sidebar-menu-container">
    <ul class="list-unstyled mt-1">
        <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../index.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Home</span></a>
  </div>
</li>
        <li class="sidebar-item sidebar-item-section">
      <div class="sidebar-item-container">
            <a class="sidebar-item-text sidebar-link text-start" data-bs-toggle="collapse" data-bs-target="#quarto-sidebar-section-1" role="navigation" aria-expanded="true">
 <span class="menu-text">Getting Started</span></a>
          <a class="sidebar-item-toggle text-start" data-bs-toggle="collapse" data-bs-target="#quarto-sidebar-section-1" role="navigation" aria-expanded="true" aria-label="Toggle section">
            <i class="bi bi-chevron-right ms-2"></i>
          </a>
      </div>
      <ul id="quarto-sidebar-section-1" class="collapse list-unstyled sidebar-section depth1 show">
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/getting-started.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Quickstart</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/choosing_method.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Which Fine-Tuning Method Should I Use?</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/installation.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Installation</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/inference.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Inference and Merging</span></a>
  </div>
</li>
          <li class="sidebar-item sidebar-item-section">
      <div class="sidebar-item-container">
            <a class="sidebar-item-text sidebar-link text-start collapsed" data-bs-toggle="collapse" data-bs-target="#quarto-sidebar-section-2" role="navigation" aria-expanded="false">
 <span class="menu-text">Model Guides</span></a>
          <a class="sidebar-item-toggle text-start collapsed" data-bs-toggle="collapse" data-bs-target="#quarto-sidebar-section-2" role="navigation" aria-expanded="false" aria-label="Toggle section">
            <i class="bi bi-chevron-right ms-2"></i>
          </a>
      </div>
      <ul id="quarto-sidebar-section-2" class="collapse list-unstyled sidebar-section depth2 ">
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/kimi-linear.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Kimi Linear</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/plano.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Plano Orchestrator</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/mimo.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">MiMo</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/internvl3_5.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">InternVL 3.5</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/olmo3.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">OLMo 3</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/trinity.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Trinity</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/arcee.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Arcee AFM</span></a>
  </div>
</li>
          <li class="sidebar-item sidebar-item-section">
      <div class="sidebar-item-container">
            <a class="sidebar-item-text sidebar-link text-start collapsed" data-bs-toggle="collapse" data-bs-target="#quarto-sidebar-section-3" role="navigation" aria-expanded="false">
 <span class="menu-text">Ministral3</span></a>
          <a class="sidebar-item-toggle text-start collapsed" data-bs-toggle="collapse" data-bs-target="#quarto-sidebar-section-3" role="navigation" aria-expanded="false" aria-label="Toggle section">
            <i class="bi bi-chevron-right ms-2"></i>
          </a>
      </div>
      <ul id="quarto-sidebar-section-3" class="collapse list-unstyled sidebar-section depth3 ">
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/ministral3.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Ministral3</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/ministral3/think.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Ministral 3 Thinking</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/ministral3/vision.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Ministral 3 Vision</span></a>
  </div>
</li>
      </ul>
  </li>
          <li class="sidebar-item sidebar-item-section">
      <div class="sidebar-item-container">
            <a class="sidebar-item-text sidebar-link text-start collapsed" data-bs-toggle="collapse" data-bs-target="#quarto-sidebar-section-4" role="navigation" aria-expanded="false">
 <span class="menu-text">Magistral</span></a>
          <a class="sidebar-item-toggle text-start collapsed" data-bs-toggle="collapse" data-bs-target="#quarto-sidebar-section-4" role="navigation" aria-expanded="false" aria-label="Toggle section">
            <i class="bi bi-chevron-right ms-2"></i>
          </a>
      </div>
      <ul id="quarto-sidebar-section-4" class="collapse list-unstyled sidebar-section depth3 ">
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/magistral.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Magistral</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/magistral/think.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Magistral Thinking</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/magistral/vision.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Magistral Vision</span></a>
  </div>
</li>
      </ul>
  </li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/ministral.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Ministral</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/mistral-small.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Mistral Small 3.1/3.2</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/voxtral.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Voxtral</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/devstral.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Devstral</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/mistral.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Mistral 7B</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/llama-4.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Llama 4</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/llama-2.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Llama 2</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/qwen3-next.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Qwen 3 Next</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/qwen3.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Qwen 3</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/gemma3n.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Gemma 3n</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/apertus.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Apertus</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/gpt-oss.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">GPT-OSS</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/seed-oss.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Seed-OSS</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/phi.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Phi</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/smolvlm2.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">SmolVLM 2</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/granite4.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Granite 4</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/LiquidAI.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Liquid Foundation Models 2</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/hunyuan.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Hunyuan</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/jamba.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Jamba</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/models/orpheus.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Orpheus</span></a>
  </div>
</li>
      </ul>
  </li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/cli.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Command Line Interface (CLI)</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/telemetry.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Telemetry</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/config-reference.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Config Reference</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/api" class="sidebar-item-text sidebar-link">
 <span class="menu-text">API Reference</span></a>
  </div>
</li>
      </ul>
  </li>
        <li class="sidebar-item sidebar-item-section">
      <div class="sidebar-item-container">
            <a href="../docs/dataset-formats/index.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Dataset Formats</span></a>
          <a class="sidebar-item-toggle text-start" data-bs-toggle="collapse" data-bs-target="#quarto-sidebar-section-5" role="navigation" aria-expanded="true" aria-label="Toggle section">
            <i class="bi bi-chevron-right ms-2"></i>
          </a>
      </div>
      <ul id="quarto-sidebar-section-5" class="collapse list-unstyled sidebar-section depth1 show">
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/dataset-formats/pretraining.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Pre-training</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/dataset-formats/inst_tune.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Instruction Tuning</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/dataset-formats/conversation.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Conversation</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/dataset-formats/stepwise_supervised.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Stepwise Supervised Format</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/dataset-formats/template_free.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Template-Free</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/dataset-formats/tokenized.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Custom Pre-Tokenized Dataset</span></a>
  </div>
</li>
      </ul>
  </li>
        <li class="sidebar-item sidebar-item-section">
      <div class="sidebar-item-container">
            <a class="sidebar-item-text sidebar-link text-start" data-bs-toggle="collapse" data-bs-target="#quarto-sidebar-section-6" role="navigation" aria-expanded="true">
 <span class="menu-text">Deployments</span></a>
          <a class="sidebar-item-toggle text-start" data-bs-toggle="collapse" data-bs-target="#quarto-sidebar-section-6" role="navigation" aria-expanded="true" aria-label="Toggle section">
            <i class="bi bi-chevron-right ms-2"></i>
          </a>
      </div>
      <ul id="quarto-sidebar-section-6" class="collapse list-unstyled sidebar-section depth1 show">
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/docker.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Docker</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/multi-gpu.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Multi-GPU</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/multi-node.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Multi Node</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/ray-integration.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Ray Train</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/amd_hpc.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">AMD GPUs on HPC Systems</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/mac.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Mac M-series</span></a>
  </div>
</li>
      </ul>
  </li>
        <li class="sidebar-item sidebar-item-section">
      <div class="sidebar-item-container">
            <a class="sidebar-item-text sidebar-link text-start" data-bs-toggle="collapse" data-bs-target="#quarto-sidebar-section-7" role="navigation" aria-expanded="true">
 <span class="menu-text">How To Guides</span></a>
          <a class="sidebar-item-toggle text-start" data-bs-toggle="collapse" data-bs-target="#quarto-sidebar-section-7" role="navigation" aria-expanded="true" aria-label="Toggle section">
            <i class="bi bi-chevron-right ms-2"></i>
          </a>
      </div>
      <ul id="quarto-sidebar-section-7" class="collapse list-unstyled sidebar-section depth1 show">
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/multimodal.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">MultiModal / Vision Language Models (BETA)</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/rlhf.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">RLHF (Beta)</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/grpo.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">GRPO Training</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/ebft.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">EBFT Training</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/vllm_serving.html" class="sidebar-item-text sidebar-link active">
 <span class="menu-text">vLLM Serving for GRPO Training</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/reward_modelling.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Reward Modelling</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/lr_groups.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Learning Rate Groups</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/lora_optims.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">LoRA Optimizations</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/dataset_loading.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Dataset Loading</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/qat.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Quantization Aware Training (QAT)</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/quantize.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Quantization with torchao</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/optimizations.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Optimizations Guide</span></a>
  </div>
</li>
      </ul>
  </li>
        <li class="sidebar-item sidebar-item-section">
      <div class="sidebar-item-container">
            <a class="sidebar-item-text sidebar-link text-start" data-bs-toggle="collapse" data-bs-target="#quarto-sidebar-section-8" role="navigation" aria-expanded="true">
 <span class="menu-text">Core Concepts</span></a>
          <a class="sidebar-item-toggle text-start" data-bs-toggle="collapse" data-bs-target="#quarto-sidebar-section-8" role="navigation" aria-expanded="true" aria-label="Toggle section">
            <i class="bi bi-chevron-right ms-2"></i>
          </a>
      </div>
      <ul id="quarto-sidebar-section-8" class="collapse list-unstyled sidebar-section depth1 show">
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/batch_vs_grad.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Batch size vs Gradient accumulation</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/dataset_preprocessing.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Dataset Preprocessing</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/streaming.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Streaming Datasets</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/multipack.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Multipack (Sample Packing)</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/mixed_precision.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Mixed Precision Training</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/optimizers.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Optimizers</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/attention.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Attention</span></a>
  </div>
</li>
      </ul>
  </li>
        <li class="sidebar-item sidebar-item-section">
      <div class="sidebar-item-container">
            <a class="sidebar-item-text sidebar-link text-start" data-bs-toggle="collapse" data-bs-target="#quarto-sidebar-section-9" role="navigation" aria-expanded="true">
 <span class="menu-text">Advanced Features</span></a>
          <a class="sidebar-item-toggle text-start" data-bs-toggle="collapse" data-bs-target="#quarto-sidebar-section-9" role="navigation" aria-expanded="true" aria-label="Toggle section">
            <i class="bi bi-chevron-right ms-2"></i>
          </a>
      </div>
      <ul id="quarto-sidebar-section-9" class="collapse list-unstyled sidebar-section depth1 show">
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/fsdp_qlora.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">FSDP + QLoRA</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/unsloth.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Unsloth</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/torchao.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">PyTorch ao</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/custom_integrations.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Custom Integrations</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/sequence_parallelism.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Sequence Parallelism</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/gradient_checkpointing.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Gradient Checkpointing, Activation Offloading, and Layer Offloading</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/nd_parallelism.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">N-D Parallelism (Beta)</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/expert_quantization.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">MoE Expert Quantization</span></a>
  </div>
</li>
      </ul>
  </li>
        <li class="sidebar-item sidebar-item-section">
      <div class="sidebar-item-container">
            <a class="sidebar-item-text sidebar-link text-start" data-bs-toggle="collapse" data-bs-target="#quarto-sidebar-section-10" role="navigation" aria-expanded="true">
 <span class="menu-text">Troubleshooting</span></a>
          <a class="sidebar-item-toggle text-start" data-bs-toggle="collapse" data-bs-target="#quarto-sidebar-section-10" role="navigation" aria-expanded="true" aria-label="Toggle section">
            <i class="bi bi-chevron-right ms-2"></i>
          </a>
      </div>
      <ul id="quarto-sidebar-section-10" class="collapse list-unstyled sidebar-section depth1 show">
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/faq.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">FAQ</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/training_stability.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Training Stability &amp; Debugging</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/debugging.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">Debugging</span></a>
  </div>
</li>
          <li class="sidebar-item">
  <div class="sidebar-item-container">
  <a href="../docs/nccl.html" class="sidebar-item-text sidebar-link">
 <span class="menu-text">NCCL</span></a>
  </div>
</li>
      </ul>
  </li>
    </ul>
    </div>
</nav>
<div id="quarto-sidebar-glass" class="quarto-sidebar-collapse-item" data-bs-toggle="collapse" data-bs-target=".quarto-sidebar-collapse-item"></div>
<!-- margin-sidebar -->
    <div id="quarto-margin-sidebar" class="sidebar margin-sidebar">
        <nav id="TOC" role="doc-toc" class="toc-active">
    <h2 id="toc-title">On this page</h2>

  <ul>
  <li><a href="#sec-overview" id="toc-sec-overview" class="nav-link active" data-scroll-target="#sec-overview"><span class="header-section-number">1</span> Overview</a></li>
  <li><a href="#sec-server-mode" id="toc-sec-server-mode" class="nav-link" data-scroll-target="#sec-server-mode"><span class="header-section-number">2</span> Server Mode</a>
  <ul class="collapse">
  <li><a href="#starting-the-server" id="toc-starting-the-server" class="nav-link" data-scroll-target="#starting-the-server"><span class="header-section-number">2.1</span> Starting the Server</a></li>
  <li><a href="#minimal-server-config" id="toc-minimal-server-config" class="nav-link" data-scroll-target="#minimal-server-config"><span class="header-section-number">2.2</span> Minimal Server Config</a></li>
  <li><a href="#multi-gpu-vllm" id="toc-multi-gpu-vllm" class="nav-link" data-scroll-target="#multi-gpu-vllm"><span class="header-section-number">2.3</span> Multi-GPU vLLM</a></li>
  </ul></li>
  <li><a href="#sec-colocate-mode" id="toc-sec-colocate-mode" class="nav-link" data-scroll-target="#sec-colocate-mode"><span class="header-section-number">3</span> Colocate Mode</a></li>
  <li><a href="#sec-lora-sync" id="toc-sec-lora-sync" class="nav-link" data-scroll-target="#sec-lora-sync"><span class="header-section-number">4</span> LoRA Sync</a>
  <ul class="collapse">
  <li><a href="#how-it-works" id="toc-how-it-works" class="nav-link" data-scroll-target="#how-it-works"><span class="header-section-number">4.1</span> How It Works</a></li>
  <li><a href="#benefits" id="toc-benefits" class="nav-link" data-scroll-target="#benefits"><span class="header-section-number">4.2</span> Benefits</a></li>
  <li><a href="#configuration" id="toc-configuration" class="nav-link" data-scroll-target="#configuration"><span class="header-section-number">4.3</span> Configuration</a></li>
  </ul></li>
  <li><a href="#sec-weight-sync" id="toc-sec-weight-sync" class="nav-link" data-scroll-target="#sec-weight-sync"><span class="header-section-number">5</span> Weight Synchronization</a>
  <ul class="collapse">
  <li><a href="#sync-interval" id="toc-sync-interval" class="nav-link" data-scroll-target="#sync-interval"><span class="header-section-number">5.1</span> Sync Interval</a></li>
  <li><a href="#sync-methods" id="toc-sync-methods" class="nav-link" data-scroll-target="#sync-methods"><span class="header-section-number">5.2</span> Sync Methods</a></li>
  <li><a href="#importance-sampling-correction" id="toc-importance-sampling-correction" class="nav-link" data-scroll-target="#importance-sampling-correction"><span class="header-section-number">5.3</span> Importance Sampling Correction</a></li>
  </ul></li>
  <li><a href="#sec-restart" id="toc-sec-restart" class="nav-link" data-scroll-target="#sec-restart"><span class="header-section-number">6</span> Restart Requirements</a>
  <ul class="collapse">
  <li><a href="#when-to-restart" id="toc-when-to-restart" class="nav-link" data-scroll-target="#when-to-restart"><span class="header-section-number">6.1</span> When to Restart</a></li>
  <li><a href="#how-to-restart" id="toc-how-to-restart" class="nav-link" data-scroll-target="#how-to-restart"><span class="header-section-number">6.2</span> How to Restart</a></li>
  <li><a href="#health-check" id="toc-health-check" class="nav-link" data-scroll-target="#health-check"><span class="header-section-number">6.3</span> Health Check</a></li>
  </ul></li>
  <li><a href="#sec-config-reference" id="toc-sec-config-reference" class="nav-link" data-scroll-target="#sec-config-reference"><span class="header-section-number">7</span> Configuration Reference</a>
  <ul class="collapse">
  <li><a href="#vllm-server-options-vllm-section" id="toc-vllm-server-options-vllm-section" class="nav-link" data-scroll-target="#vllm-server-options-vllm-section"><span class="header-section-number">7.1</span> vLLM Server Options (<code>vllm:</code> section)</a></li>
  <li><a href="#trainer-vllm-options-trl-section" id="toc-trainer-vllm-options-trl-section" class="nav-link" data-scroll-target="#trainer-vllm-options-trl-section"><span class="header-section-number">7.2</span> Trainer vLLM Options (<code>trl:</code> section)</a></li>
  </ul></li>
  <li><a href="#sec-complete-example" id="toc-sec-complete-example" class="nav-link" data-scroll-target="#sec-complete-example"><span class="header-section-number">8</span> Complete Example</a></li>
  <li><a href="#sec-troubleshooting" id="toc-sec-troubleshooting" class="nav-link" data-scroll-target="#sec-troubleshooting"><span class="header-section-number">9</span> Troubleshooting</a></li>
  </ul>
</nav>
    </div>
<!-- main -->
<main class="content" id="quarto-document-content">

<header id="title-block-header" class="quarto-title-block default"><nav class="quarto-page-breadcrumbs quarto-title-breadcrumbs d-none d-lg-block" aria-label="breadcrumb"><ol class="breadcrumb"><li class="breadcrumb-item"><a href="../docs/multimodal.html">How To Guides</a></li><li class="breadcrumb-item"><a href="../docs/vllm_serving.html">vLLM Serving for GRPO Training</a></li></ol></nav>
<div class="quarto-title">
<h1 class="title">vLLM Serving for GRPO Training</h1>
</div>

<div>
  <div class="description">
    How to configure and run vLLM as a generation backend for GRPO reinforcement learning in Axolotl.
  </div>
</div>


<div class="quarto-title-meta">


  </div>


</header>


<section id="sec-overview" class="level2" data-number="1">
<h2 data-number="1" class="anchored" data-anchor-id="sec-overview"><span class="header-section-number">1</span> Overview</h2>
<p>GRPO (Group Relative Policy Optimization) trains a language model by generating completions, scoring them with reward functions, and updating the policy to favor higher-reward outputs. The generation step is the bottleneck: producing thousands of tokens per training step with the policy model is slow using standard HuggingFace generation.</p>
<p>Axolotl uses <a href="https://github.com/vllm-project/vllm">vLLM</a> as a high-throughput generation backend. vLLM runs as a separate process (either on a dedicated GPU or colocated on the training GPU) and serves completions via an HTTP API. The trainer sends prompts to vLLM, receives completions, scores them, and performs gradient updates.</p>
<pre><code>┌──────────────────────┐       HTTP        ┌──────────────────────┐
│   Trainer (GPU 1)    │ ───────────────── │   vLLM Server (GPU 0)│
│                      │  prompts/compls   │                      │
│  - Policy model      │ ◄──────────────── │  - Same base model   │
│  - Reward scoring    │                   │  - Fast generation   │
│  - Gradient updates  │  weight sync      │  - LoRA adapter      │
│  - LoRA adapter      │ ─────────────────►│    (periodically     │
│                      │  (every N steps)  │     updated)         │
└──────────────────────┘                   └──────────────────────┘</code></pre>
<div class="callout callout-style-default callout-important callout-titled">
<div class="callout-header d-flex align-content-center">
<div class="callout-icon-container">
<i class="callout-icon"></i>
</div>
<div class="callout-title-container flex-fill">
Important
</div>
</div>
<div class="callout-body-container callout-body">
<p>vLLM must serve the <strong>same base model</strong> specified in your training config. If the models do not match, weight synchronization will silently produce incorrect results.</p>
</div>
</div>
</section>
<section id="sec-server-mode" class="level2" data-number="2">
<h2 data-number="2" class="anchored" data-anchor-id="sec-server-mode"><span class="header-section-number">2</span> Server Mode</h2>
<p>Server mode runs vLLM as an external process on dedicated GPU(s). This is the recommended configuration for most setups.</p>
<section id="starting-the-server" class="level3" data-number="2.1">
<h3 data-number="2.1" class="anchored" data-anchor-id="starting-the-server"><span class="header-section-number">2.1</span> Starting the Server</h3>
<p>Use the <code>axolotl vllm-serve</code> command with your training config:</p>
<div class="code-copy-outer-scaffold"><div class="sourceCode" id="cb2"><pre class="sourceCode bash code-with-copy"><code class="sourceCode bash"><span id="cb2-1"><a href="#cb2-1" aria-hidden="true" tabindex="-1"></a><span class="co"># Terminal 1: Start vLLM on GPU 0</span></span>
<span id="cb2-2"><a href="#cb2-2" aria-hidden="true" tabindex="-1"></a><span class="va">CUDA_VISIBLE_DEVICES</span><span class="op">=</span>0 <span class="ex">axolotl</span> vllm-serve grpo_config.yaml</span></code></pre></div><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></div>
<div class="code-copy-outer-scaffold"><div class="sourceCode" id="cb3"><pre class="sourceCode bash code-with-copy"><code class="sourceCode bash"><span id="cb3-1"><a href="#cb3-1" aria-hidden="true" tabindex="-1"></a><span class="co"># Terminal 2: Start training on GPU 1</span></span>
<span id="cb3-2"><a href="#cb3-2" aria-hidden="true" tabindex="-1"></a><span class="va">CUDA_VISIBLE_DEVICES</span><span class="op">=</span>1 <span class="ex">axolotl</span> train grpo_config.yaml</span></code></pre></div><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></div>
<p>The server reads vLLM settings from the <code>vllm:</code> section of your config and starts an HTTP server (default: <code>http://0.0.0.0:8000</code>).</p>
<div class="callout callout-style-default callout-tip callout-titled">
<div class="callout-header d-flex align-content-center">
<div class="callout-icon-container">
<i class="callout-icon"></i>
</div>
<div class="callout-title-container flex-fill">
Tip
</div>
</div>
<div class="callout-body-container callout-body">
<p>Use <code>tmux</code> or <code>screen</code> to manage the vLLM server process. Typical startup time is 30-90 seconds depending on model size and whether CUDA graphs are captured.</p>
</div>
</div>
</section>
<section id="minimal-server-config" class="level3" data-number="2.2">
<h3 data-number="2.2" class="anchored" data-anchor-id="minimal-server-config"><span class="header-section-number">2.2</span> Minimal Server Config</h3>
<div class="code-copy-outer-scaffold"><div class="sourceCode" id="cb4"><pre class="sourceCode yaml code-with-copy"><code class="sourceCode yaml"><span id="cb4-1"><a href="#cb4-1" aria-hidden="true" tabindex="-1"></a><span class="fu">base_model</span><span class="kw">:</span><span class="at"> Qwen/Qwen2.5-1.5B-Instruct</span></span>
<span id="cb4-2"><a href="#cb4-2" aria-hidden="true" tabindex="-1"></a></span>
<span id="cb4-3"><a href="#cb4-3" aria-hidden="true" tabindex="-1"></a><span class="fu">vllm</span><span class="kw">:</span></span>
<span id="cb4-4"><a href="#cb4-4" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">host</span><span class="kw">:</span><span class="at"> </span><span class="fl">0.0.0.0</span></span>
<span id="cb4-5"><a href="#cb4-5" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">port</span><span class="kw">:</span><span class="at"> </span><span class="dv">8000</span></span>
<span id="cb4-6"><a href="#cb4-6" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">gpu_memory_utilization</span><span class="kw">:</span><span class="at"> </span><span class="fl">0.85</span></span>
<span id="cb4-7"><a href="#cb4-7" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">dtype</span><span class="kw">:</span><span class="at"> auto</span></span>
<span id="cb4-8"><a href="#cb4-8" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">max_model_len</span><span class="kw">:</span><span class="at"> </span><span class="dv">4096</span></span>
<span id="cb4-9"><a href="#cb4-9" aria-hidden="true" tabindex="-1"></a></span>
<span id="cb4-10"><a href="#cb4-10" aria-hidden="true" tabindex="-1"></a><span class="fu">rl</span><span class="kw">:</span><span class="at"> grpo</span></span>
<span id="cb4-11"><a href="#cb4-11" aria-hidden="true" tabindex="-1"></a><span class="fu">trl</span><span class="kw">:</span></span>
<span id="cb4-12"><a href="#cb4-12" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">use_vllm</span><span class="kw">:</span><span class="at"> </span><span class="ch">true</span></span>
<span id="cb4-13"><a href="#cb4-13" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">vllm_server_host</span><span class="kw">:</span><span class="at"> </span><span class="fl">0.0.0.0</span></span>
<span id="cb4-14"><a href="#cb4-14" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">vllm_server_port</span><span class="kw">:</span><span class="at"> </span><span class="dv">8000</span></span>
<span id="cb4-15"><a href="#cb4-15" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">vllm_server_timeout</span><span class="kw">:</span><span class="at"> </span><span class="dv">300</span></span></code></pre></div><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></div>
</section>
<section id="multi-gpu-vllm" class="level3" data-number="2.3">
<h3 data-number="2.3" class="anchored" data-anchor-id="multi-gpu-vllm"><span class="header-section-number">2.3</span> Multi-GPU vLLM</h3>
<p>For larger models, use tensor parallelism across multiple GPUs:</p>
<div class="code-copy-outer-scaffold"><div class="sourceCode" id="cb5"><pre class="sourceCode yaml code-with-copy"><code class="sourceCode yaml"><span id="cb5-1"><a href="#cb5-1" aria-hidden="true" tabindex="-1"></a><span class="fu">vllm</span><span class="kw">:</span></span>
<span id="cb5-2"><a href="#cb5-2" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">tensor_parallel_size</span><span class="kw">:</span><span class="at"> </span><span class="dv">2</span></span>
<span id="cb5-3"><a href="#cb5-3" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">gpu_memory_utilization</span><span class="kw">:</span><span class="at"> </span><span class="fl">0.85</span></span></code></pre></div><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></div>
<div class="code-copy-outer-scaffold"><div class="sourceCode" id="cb6"><pre class="sourceCode bash code-with-copy"><code class="sourceCode bash"><span id="cb6-1"><a href="#cb6-1" aria-hidden="true" tabindex="-1"></a><span class="co"># vLLM on GPUs 2,3; training on GPUs 0,1</span></span>
<span id="cb6-2"><a href="#cb6-2" aria-hidden="true" tabindex="-1"></a><span class="va">CUDA_VISIBLE_DEVICES</span><span class="op">=</span>2,3 <span class="ex">axolotl</span> vllm-serve grpo_config.yaml</span>
<span id="cb6-3"><a href="#cb6-3" aria-hidden="true" tabindex="-1"></a><span class="va">CUDA_VISIBLE_DEVICES</span><span class="op">=</span>0,1 <span class="ex">axolotl</span> train grpo_config.yaml <span class="at">--num-processes</span> 2</span></code></pre></div><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></div>
<div class="callout callout-style-default callout-note callout-titled">
<div class="callout-header d-flex align-content-center">
<div class="callout-icon-container">
<i class="callout-icon"></i>
</div>
<div class="callout-title-container flex-fill">
Note
</div>
</div>
<div class="callout-body-container callout-body">
<p>Due to how TRL maps vLLM device indices, the vLLM instance should use the <strong>last</strong> N GPUs (highest device indices), while training uses the first N.</p>
</div>
</div>
</section>
</section>
<section id="sec-colocate-mode" class="level2" data-number="3">
<h2 data-number="3" class="anchored" data-anchor-id="sec-colocate-mode"><span class="header-section-number">3</span> Colocate Mode</h2>
<p>Colocate mode runs vLLM on the same GPU as the trainer. This is useful when you only have a single GPU.</p>
<div class="code-copy-outer-scaffold"><div class="sourceCode" id="cb7"><pre class="sourceCode yaml code-with-copy"><code class="sourceCode yaml"><span id="cb7-1"><a href="#cb7-1" aria-hidden="true" tabindex="-1"></a><span class="fu">trl</span><span class="kw">:</span></span>
<span id="cb7-2"><a href="#cb7-2" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">use_vllm</span><span class="kw">:</span><span class="at"> </span><span class="ch">true</span></span>
<span id="cb7-3"><a href="#cb7-3" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">vllm_mode</span><span class="kw">:</span><span class="at"> colocate</span></span>
<span id="cb7-4"><a href="#cb7-4" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">vllm_enable_sleep_mode</span><span class="kw">:</span><span class="at"> </span><span class="ch">true</span></span></code></pre></div><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></div>
<p>With <code>vllm_enable_sleep_mode: true</code>, vLLM offloads its VRAM allocation when not actively generating, freeing memory for training. When the trainer needs new completions, vLLM wakes up and reclaims VRAM.</p>
<div class="callout callout-style-default callout-warning callout-titled">
<div class="callout-header d-flex align-content-center">
<div class="callout-icon-container">
<i class="callout-icon"></i>
</div>
<div class="callout-title-container flex-fill">
Warning
</div>
</div>
<div class="callout-body-container callout-body">
<p>Colocate mode is significantly slower than server mode because generation and training cannot overlap. The GPU alternates between the two workloads. This mode is practical only for smaller models (up to ~3B on a 24 GB GPU).</p>
</div>
</div>
<p><strong>When to use colocate mode:</strong></p>
<ul>
<li>You have exactly one GPU</li>
<li>The model fits in memory with both vLLM and training active (with sleep mode), or is small enough to time-share</li>
<li>You accept the performance tradeoff for simpler setup (no separate vLLM process to manage)</li>
</ul>
<p><strong>When to use server mode:</strong></p>
<ul>
<li>You have two or more GPUs</li>
<li>You want maximum throughput (generation overlaps with training via async prefetch)</li>
<li>You are running larger models (7B+)</li>
</ul>
</section>
<section id="sec-lora-sync" class="level2" data-number="4">
<h2 data-number="4" class="anchored" data-anchor-id="sec-lora-sync"><span class="header-section-number">4</span> LoRA Sync</h2>
<p>LoRA sync is the recommended weight synchronization method when training with LoRA adapters. Instead of merging adapter weights into the base model and broadcasting the full merged weights over NCCL, it saves only the LoRA adapter files to the filesystem and tells vLLM to load them natively.</p>
<section id="how-it-works" class="level3" data-number="4.1">
<h3 data-number="4.1" class="anchored" data-anchor-id="how-it-works"><span class="header-section-number">4.1</span> How It Works</h3>
<ol type="1">
<li>The trainer calls <code>model.save_pretrained()</code> to write the LoRA adapter weights to a temporary directory</li>
<li>The trainer sends an HTTP POST to <code>/set_lora_adapter/</code> on the vLLM server</li>
<li>vLLM loads the adapter using its native LoRA support (Punica kernels)</li>
<li>Generation uses the updated adapter on the next request</li>
</ol>
</section>
<section id="benefits" class="level3" data-number="4.2">
<h3 data-number="4.2" class="anchored" data-anchor-id="benefits"><span class="header-section-number">4.2</span> Benefits</h3>
<ul>
<li><strong>Smaller sync payload</strong>: Transfers ~40 MB of LoRA weights instead of ~1.4 GB+ of merged model weights (for a typical 0.5-3B model)</li>
<li><strong>No NCCL communicator</strong>: Eliminates the need for a cross-GPU NCCL communication channel, removing GPU contention between vLLM generation and weight sync</li>
<li><strong>Faster sync</strong>: ~200 ms per sync vs.&nbsp;350 ms to 5+ seconds for NCCL merge sync</li>
<li><strong>Simpler multi-GPU</strong>: No need to set up NCCL groups between trainer and vLLM processes</li>
</ul>
</section>
<section id="configuration" class="level3" data-number="4.3">
<h3 data-number="4.3" class="anchored" data-anchor-id="configuration"><span class="header-section-number">4.3</span> Configuration</h3>
<div class="code-copy-outer-scaffold"><div class="sourceCode" id="cb8"><pre class="sourceCode yaml code-with-copy"><code class="sourceCode yaml"><span id="cb8-1"><a href="#cb8-1" aria-hidden="true" tabindex="-1"></a><span class="fu">adapter</span><span class="kw">:</span><span class="at"> lora</span></span>
<span id="cb8-2"><a href="#cb8-2" aria-hidden="true" tabindex="-1"></a><span class="fu">lora_r</span><span class="kw">:</span><span class="at"> </span><span class="dv">32</span></span>
<span id="cb8-3"><a href="#cb8-3" aria-hidden="true" tabindex="-1"></a><span class="fu">lora_alpha</span><span class="kw">:</span><span class="at"> </span><span class="dv">64</span></span>
<span id="cb8-4"><a href="#cb8-4" aria-hidden="true" tabindex="-1"></a><span class="fu">lora_target_linear</span><span class="kw">:</span><span class="at"> </span><span class="ch">true</span></span>
<span id="cb8-5"><a href="#cb8-5" aria-hidden="true" tabindex="-1"></a></span>
<span id="cb8-6"><a href="#cb8-6" aria-hidden="true" tabindex="-1"></a><span class="fu">trl</span><span class="kw">:</span></span>
<span id="cb8-7"><a href="#cb8-7" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">vllm_lora_sync</span><span class="kw">:</span><span class="at"> </span><span class="ch">true</span><span class="co">    # Enables LoRA sync mode</span></span>
<span id="cb8-8"><a href="#cb8-8" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">vllm_sync_interval</span><span class="kw">:</span><span class="at"> </span><span class="dv">5</span><span class="co">   # Sync every 5 training steps</span></span></code></pre></div><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></div>
<p>Setting <code>vllm_lora_sync: true</code> automatically selects the LoRA-aware vLLM serve script (<code>axolotl.scripts.vllm_serve_lora</code>). You do not need to set <code>vllm.serve_module</code> manually.</p>
<div class="callout callout-style-default callout-important callout-titled">
<div class="callout-header d-flex align-content-center">
<div class="callout-icon-container">
<i class="callout-icon"></i>
</div>
<div class="callout-title-container flex-fill">
Important
</div>
</div>
<div class="callout-body-container callout-body">
<p>LoRA sync requires that you are training with a LoRA adapter (<code>adapter: lora</code> or <code>adapter: qlora</code>). It is not applicable to full fine-tuning.</p>
</div>
</div>
</section>
</section>
<section id="sec-weight-sync" class="level2" data-number="5">
<h2 data-number="5" class="anchored" data-anchor-id="sec-weight-sync"><span class="header-section-number">5</span> Weight Synchronization</h2>
<p>During GRPO training, the policy model on the trainer is continuously updated via gradient steps. The vLLM server, however, still holds the old weights. Periodically, the trainer must push updated weights to vLLM so that future generations reflect the improved policy.</p>
<section id="sync-interval" class="level3" data-number="5.1">
<h3 data-number="5.1" class="anchored" data-anchor-id="sync-interval"><span class="header-section-number">5.1</span> Sync Interval</h3>
<p>The <code>vllm_sync_interval</code> parameter controls how often weights are synced:</p>
<div class="code-copy-outer-scaffold"><div class="sourceCode" id="cb9"><pre class="sourceCode yaml code-with-copy"><code class="sourceCode yaml"><span id="cb9-1"><a href="#cb9-1" aria-hidden="true" tabindex="-1"></a><span class="fu">trl</span><span class="kw">:</span></span>
<span id="cb9-2"><a href="#cb9-2" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">vllm_sync_interval</span><span class="kw">:</span><span class="at"> </span><span class="dv">5</span><span class="co">   # Sync every 5 optimizer steps</span></span></code></pre></div><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></div>
<p><strong>Tradeoffs:</strong></p>
<ul>
<li><strong>Lower interval</strong> (e.g., 1-3): Fresher generations, better on-policy data, but more sync overhead per step</li>
<li><strong>Higher interval</strong> (e.g., 5-10): Less overhead, but generations become increasingly off-policy between syncs</li>
<li><strong>Recommended</strong>: 3-5 for most setups. Axolotl includes importance sampling correction (<code>vllm_importance_sampling_correction: true</code>) to handle mild distribution mismatch from stale vLLM weights.</li>
</ul>
</section>
<section id="sync-methods" class="level3" data-number="5.2">
<h3 data-number="5.2" class="anchored" data-anchor-id="sync-methods"><span class="header-section-number">5.2</span> Sync Methods</h3>
<table class="caption-top table">
<colgroup>
<col style="width: 16%">
<col style="width: 16%">
<col style="width: 18%">
<col style="width: 22%">
<col style="width: 26%">
</colgroup>
<thead>
<tr class="header">
<th>Method</th>
<th>Config</th>
<th>Payload</th>
<th>Mechanism</th>
<th>Typical Time</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td><strong>LoRA sync</strong></td>
<td><code>vllm_lora_sync: true</code></td>
<td>LoRA adapter only (~40 MB)</td>
<td>Filesystem + HTTP</td>
<td>~200 ms</td>
</tr>
<tr class="even">
<td><strong>NCCL merge sync</strong></td>
<td>Default (no lora_sync)</td>
<td>Full merged weights (~1.4 GB+)</td>
<td>HTTP trigger + NCCL broadcast</td>
<td>350 ms - 5 s</td>
</tr>
</tbody>
</table>
<div class="callout callout-style-default callout-tip callout-titled">
<div class="callout-header d-flex align-content-center">
<div class="callout-icon-container">
<i class="callout-icon"></i>
</div>
<div class="callout-title-container flex-fill">
Tip
</div>
</div>
<div class="callout-body-container callout-body">
<p>If you are training with LoRA (which is recommended for GRPO), always enable <code>vllm_lora_sync: true</code>. The performance difference is substantial, especially as training progresses and NCCL contention increases.</p>
</div>
</div>
</section>
<section id="importance-sampling-correction" class="level3" data-number="5.3">
<h3 data-number="5.3" class="anchored" data-anchor-id="importance-sampling-correction"><span class="header-section-number">5.3</span> Importance Sampling Correction</h3>
<p>When vLLM weights are stale (between syncs), the generated data is slightly off-policy. Axolotl can correct for this:</p>
<div class="code-copy-outer-scaffold"><div class="sourceCode" id="cb10"><pre class="sourceCode yaml code-with-copy"><code class="sourceCode yaml"><span id="cb10-1"><a href="#cb10-1" aria-hidden="true" tabindex="-1"></a><span class="fu">trl</span><span class="kw">:</span></span>
<span id="cb10-2"><a href="#cb10-2" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">vllm_importance_sampling_correction</span><span class="kw">:</span><span class="at"> </span><span class="ch">true</span></span>
<span id="cb10-3"><a href="#cb10-3" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">importance_sampling_level</span><span class="kw">:</span><span class="at"> token</span><span class="co">          # 'token' or 'sequence'</span></span>
<span id="cb10-4"><a href="#cb10-4" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">off_policy_mask_threshold</span><span class="kw">:</span><span class="at"> </span><span class="fl">0.5</span><span class="co">            # KL threshold for masking stale sequences</span></span></code></pre></div><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></div>
<ul>
<li><strong>Token-level IS</strong> is recommended when using Liger kernel (sequence-level has numerical issues with chunked computation)</li>
<li><strong>Off-policy sequence masking (OPSM)</strong> drops sequences that have diverged too far from the current policy, providing a safety net against stale data</li>
</ul>
</section>
</section>
<section id="sec-restart" class="level2" data-number="6">
<h2 data-number="6" class="anchored" data-anchor-id="sec-restart"><span class="header-section-number">6</span> Restart Requirements</h2>
<div class="callout callout-style-default callout-warning callout-titled">
<div class="callout-header d-flex align-content-center">
<div class="callout-icon-container">
<i class="callout-icon"></i>
</div>
<div class="callout-title-container flex-fill">
Warning
</div>
</div>
<div class="callout-body-container callout-body">
<p><strong>vLLM must be restarted between training runs.</strong> Weight syncs from a previous run leave the server in a corrupted state. If you start a new training run against a stale vLLM server, the model may fail to learn.</p>
</div>
</div>
<section id="when-to-restart" class="level3" data-number="6.1">
<h3 data-number="6.1" class="anchored" data-anchor-id="when-to-restart"><span class="header-section-number">6.1</span> When to Restart</h3>
<ul>
<li>Before every new training experiment</li>
<li>After a training run crashes or is interrupted</li>
<li>If you change the base model in your config</li>
</ul>
</section>
<section id="how-to-restart" class="level3" data-number="6.2">
<h3 data-number="6.2" class="anchored" data-anchor-id="how-to-restart"><span class="header-section-number">6.2</span> How to Restart</h3>
<p>Killing vLLM reliably requires terminating both the main process and its background EngineCore subprocess:</p>
<div class="code-copy-outer-scaffold"><div class="sourceCode" id="cb11"><pre class="sourceCode bash code-with-copy"><code class="sourceCode bash"><span id="cb11-1"><a href="#cb11-1" aria-hidden="true" tabindex="-1"></a><span class="co"># Kill all vLLM-related processes</span></span>
<span id="cb11-2"><a href="#cb11-2" aria-hidden="true" tabindex="-1"></a><span class="ex">pkill</span> <span class="at">-9</span> <span class="at">-f</span> <span class="st">"vllm|EngineCore"</span></span>
<span id="cb11-3"><a href="#cb11-3" aria-hidden="true" tabindex="-1"></a></span>
<span id="cb11-4"><a href="#cb11-4" aria-hidden="true" tabindex="-1"></a><span class="co"># Verify GPU memory is freed</span></span>
<span id="cb11-5"><a href="#cb11-5" aria-hidden="true" tabindex="-1"></a><span class="ex">nvidia-smi</span></span>
<span id="cb11-6"><a href="#cb11-6" aria-hidden="true" tabindex="-1"></a></span>
<span id="cb11-7"><a href="#cb11-7" aria-hidden="true" tabindex="-1"></a><span class="co"># Restart the server</span></span>
<span id="cb11-8"><a href="#cb11-8" aria-hidden="true" tabindex="-1"></a><span class="va">CUDA_VISIBLE_DEVICES</span><span class="op">=</span>0 <span class="ex">axolotl</span> vllm-serve grpo_config.yaml</span></code></pre></div><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></div>
<div class="callout callout-style-default callout-tip callout-titled">
<div class="callout-header d-flex align-content-center">
<div class="callout-icon-container">
<i class="callout-icon"></i>
</div>
<div class="callout-title-container flex-fill">
Tip
</div>
</div>
<div class="callout-body-container callout-body">
<p>A single <code>kill</code> often does not fully stop vLLM. Always use <code>kill -9</code> and verify with <code>nvidia-smi</code> that GPU memory has been released before restarting.</p>
</div>
</div>
</section>
<section id="health-check" class="level3" data-number="6.3">
<h3 data-number="6.3" class="anchored" data-anchor-id="health-check"><span class="header-section-number">6.3</span> Health Check</h3>
<p>The vLLM server exposes a health endpoint. Wait for it to return 200 before starting training:</p>
<div class="code-copy-outer-scaffold"><div class="sourceCode" id="cb12"><pre class="sourceCode bash code-with-copy"><code class="sourceCode bash"><span id="cb12-1"><a href="#cb12-1" aria-hidden="true" tabindex="-1"></a><span class="co"># For the LoRA serve script (trailing slash required)</span></span>
<span id="cb12-2"><a href="#cb12-2" aria-hidden="true" tabindex="-1"></a><span class="ex">curl</span> http://localhost:8000/health/</span>
<span id="cb12-3"><a href="#cb12-3" aria-hidden="true" tabindex="-1"></a></span>
<span id="cb12-4"><a href="#cb12-4" aria-hidden="true" tabindex="-1"></a><span class="co"># For the default TRL serve script</span></span>
<span id="cb12-5"><a href="#cb12-5" aria-hidden="true" tabindex="-1"></a><span class="ex">curl</span> http://localhost:8000/health</span></code></pre></div><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></div>
</section>
</section>
<section id="sec-config-reference" class="level2" data-number="7">
<h2 data-number="7" class="anchored" data-anchor-id="sec-config-reference"><span class="header-section-number">7</span> Configuration Reference</h2>
<section id="vllm-server-options-vllm-section" class="level3" data-number="7.1">
<h3 data-number="7.1" class="anchored" data-anchor-id="vllm-server-options-vllm-section"><span class="header-section-number">7.1</span> vLLM Server Options (<code>vllm:</code> section)</h3>
<p>These control the vLLM server process started by <code>axolotl vllm-serve</code>.</p>
<table class="caption-top table">
<colgroup>
<col style="width: 22%">
<col style="width: 16%">
<col style="width: 25%">
<col style="width: 36%">
</colgroup>
<thead>
<tr class="header">
<th>Option</th>
<th>Type</th>
<th>Default</th>
<th>Description</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td><code>host</code></td>
<td>str</td>
<td><code>0.0.0.0</code></td>
<td>Host address for the vLLM server</td>
</tr>
<tr class="even">
<td><code>port</code></td>
<td>int</td>
<td><code>8000</code></td>
<td>Port for the vLLM server</td>
</tr>
<tr class="odd">
<td><code>device</code></td>
<td>str</td>
<td><code>auto</code></td>
<td>Device to use for vLLM</td>
</tr>
<tr class="even">
<td><code>tensor_parallel_size</code></td>
<td>int</td>
<td><code>None</code></td>
<td>Number of GPUs for tensor parallelism</td>
</tr>
<tr class="odd">
<td><code>data_parallel_size</code></td>
<td>int</td>
<td><code>None</code></td>
<td>Number of data parallel replicas</td>
</tr>
<tr class="even">
<td><code>gpu_memory_utilization</code></td>
<td>float</td>
<td><code>0.9</code></td>
<td>Fraction of GPU memory for vLLM (0.0-1.0)</td>
</tr>
<tr class="odd">
<td><code>dtype</code></td>
<td>str</td>
<td><code>auto</code></td>
<td>Data type (<code>auto</code>, <code>float16</code>, <code>bfloat16</code>)</td>
</tr>
<tr class="even">
<td><code>max_model_len</code></td>
<td>int</td>
<td><code>None</code></td>
<td>Maximum model context length. Set explicitly if the default is too large for your GPU</td>
</tr>
<tr class="odd">
<td><code>enable_prefix_caching</code></td>
<td>bool</td>
<td><code>None</code></td>
<td>Enable prefix caching for repeated prompt prefixes</td>
</tr>
<tr class="even">
<td><code>enable_reasoning</code></td>
<td>bool</td>
<td><code>None</code></td>
<td>Enable reasoning mode for models with thinking tokens</td>
</tr>
<tr class="odd">
<td><code>reasoning_parser</code></td>
<td>str</td>
<td><code>None</code></td>
<td>Parser for reasoning output</td>
</tr>
<tr class="even">
<td><code>enforce_eager</code></td>
<td>bool</td>
<td><code>None</code></td>
<td>Disable CUDA graph capture (required for some architectures like Qwen3.5 hybrid attention)</td>
</tr>
<tr class="odd">
<td><code>serve_module</code></td>
<td>str</td>
<td><code>None</code></td>
<td>Python module for vLLM serve script. Auto-set when <code>vllm_lora_sync: true</code></td>
</tr>
<tr class="even">
<td><code>worker_extension_cls</code></td>
<td>str</td>
<td><code>None</code></td>
<td>vLLM worker extension class for weight sync</td>
</tr>
</tbody>
</table>
</section>
<section id="trainer-vllm-options-trl-section" class="level3" data-number="7.2">
<h3 data-number="7.2" class="anchored" data-anchor-id="trainer-vllm-options-trl-section"><span class="header-section-number">7.2</span> Trainer vLLM Options (<code>trl:</code> section)</h3>
<p>These control how the trainer interacts with vLLM.</p>
<table class="caption-top table">
<colgroup>
<col style="width: 22%">
<col style="width: 16%">
<col style="width: 25%">
<col style="width: 36%">
</colgroup>
<thead>
<tr class="header">
<th>Option</th>
<th>Type</th>
<th>Default</th>
<th>Description</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td><code>use_vllm</code></td>
<td>bool</td>
<td><code>false</code></td>
<td>Enable vLLM for generation</td>
</tr>
<tr class="even">
<td><code>vllm_mode</code></td>
<td>str</td>
<td><code>None</code></td>
<td><code>server</code> (external process) or <code>colocate</code> (same GPU)</td>
</tr>
<tr class="odd">
<td><code>vllm_server_host</code></td>
<td>str</td>
<td><code>0.0.0.0</code></td>
<td>Host of the vLLM server to connect to</td>
</tr>
<tr class="even">
<td><code>vllm_server_port</code></td>
<td>int</td>
<td><code>8000</code></td>
<td>Port of the vLLM server to connect to</td>
</tr>
<tr class="odd">
<td><code>vllm_server_timeout</code></td>
<td>int</td>
<td><code>None</code></td>
<td>Timeout in seconds for vLLM requests</td>
</tr>
<tr class="even">
<td><code>vllm_lora_sync</code></td>
<td>bool</td>
<td><code>false</code></td>
<td>Sync LoRA adapters via filesystem instead of NCCL merge</td>
</tr>
<tr class="odd">
<td><code>vllm_sync_interval</code></td>
<td>int</td>
<td><code>None</code></td>
<td>Sync weights every N optimizer steps</td>
</tr>
<tr class="even">
<td><code>vllm_enable_sleep_mode</code></td>
<td>bool</td>
<td><code>None</code></td>
<td>Offload vLLM VRAM when idle (colocate mode)</td>
</tr>
<tr class="odd">
<td><code>vllm_guided_decoding_regex</code></td>
<td>str</td>
<td><code>None</code></td>
<td>Regex constraint for guided decoding</td>
</tr>
</tbody>
</table>
<p>For async pipeline and off-policy correction options, see the <a href="../docs/grpo.html#configuration-reference">GRPO Configuration Reference</a>.</p>
</section>
</section>
<section id="sec-complete-example" class="level2" data-number="8">
<h2 data-number="8" class="anchored" data-anchor-id="sec-complete-example"><span class="header-section-number">8</span> Complete Example</h2>
<p>For a full working GRPO config including vLLM, LoRA sync, async generation, rewards, and dataset setup, see the <a href="../docs/grpo.html#quick-start">GRPO Quick Start</a>. That config includes all the vLLM settings covered in this guide.</p>
<div class="code-copy-outer-scaffold"><div class="sourceCode" id="cb13"><pre class="sourceCode bash code-with-copy"><code class="sourceCode bash"><span id="cb13-1"><a href="#cb13-1" aria-hidden="true" tabindex="-1"></a><span class="co"># Terminal 1: Start vLLM</span></span>
<span id="cb13-2"><a href="#cb13-2" aria-hidden="true" tabindex="-1"></a><span class="va">CUDA_VISIBLE_DEVICES</span><span class="op">=</span>0 <span class="ex">axolotl</span> vllm-serve grpo_config.yaml</span>
<span id="cb13-3"><a href="#cb13-3" aria-hidden="true" tabindex="-1"></a></span>
<span id="cb13-4"><a href="#cb13-4" aria-hidden="true" tabindex="-1"></a><span class="co"># Wait for health check to pass</span></span>
<span id="cb13-5"><a href="#cb13-5" aria-hidden="true" tabindex="-1"></a><span class="ex">curl</span> http://localhost:8000/health/</span>
<span id="cb13-6"><a href="#cb13-6" aria-hidden="true" tabindex="-1"></a></span>
<span id="cb13-7"><a href="#cb13-7" aria-hidden="true" tabindex="-1"></a><span class="co"># Terminal 2: Start training</span></span>
<span id="cb13-8"><a href="#cb13-8" aria-hidden="true" tabindex="-1"></a><span class="va">CUDA_VISIBLE_DEVICES</span><span class="op">=</span>1 <span class="ex">axolotl</span> train grpo_config.yaml</span></code></pre></div><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></div>
</section>
<section id="sec-troubleshooting" class="level2" data-number="9">
<h2 data-number="9" class="anchored" data-anchor-id="sec-troubleshooting"><span class="header-section-number">9</span> Troubleshooting</h2>
<table class="caption-top table">
<colgroup>
<col style="width: 28%">
<col style="width: 40%">
<col style="width: 31%">
</colgroup>
<thead>
<tr class="header">
<th>Problem</th>
<th>Likely Cause</th>
<th>Solution</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td>Training hangs waiting for vLLM</td>
<td>Server not started or wrong port</td>
<td>Check <code>curl http://localhost:8000/health/</code> and verify <code>vllm_server_host</code>/<code>vllm_server_port</code> match</td>
</tr>
<tr class="even">
<td>OOM on vLLM GPU</td>
<td><code>gpu_memory_utilization</code> too high or <code>max_model_len</code> too large</td>
<td>Reduce <code>gpu_memory_utilization</code> to 0.7 or set <code>max_model_len</code> explicitly</td>
</tr>
<tr class="odd">
<td>OOM on training GPU</td>
<td>Batch too large for policy logprobs</td>
<td>Reduce <code>micro_batch_size</code> or <code>num_generations</code></td>
</tr>
<tr class="even">
<td>Accuracy stays at zero</td>
<td>Stale vLLM from previous run</td>
<td>Restart vLLM: <code>pkill -9 -f "vllm\|EngineCore"</code>, verify with <code>nvidia-smi</code>, restart</td>
</tr>
<tr class="odd">
<td><code>ResponseValidationError</code> from vLLM</td>
<td>Missing logprobs in response</td>
<td>Ensure you are using the correct serve module (auto-selected with <code>vllm_lora_sync: true</code>)</td>
</tr>
<tr class="even">
<td>Weight sync takes 5+ seconds</td>
<td>NCCL contention with vLLM generation</td>
<td>Switch to <code>vllm_lora_sync: true</code> to eliminate NCCL</td>
</tr>
<tr class="odd">
<td><code>async_prefetch</code> deadlocks with FSDP</td>
<td>Background threads run unsynchronized FSDP collectives</td>
<td>Set <code>async_prefetch: false</code> when using FSDP or DeepSpeed multi-GPU</td>
</tr>
</tbody>
</table>


</section>

</main> <!-- /main -->
<script id="quarto-html-after-body" type="application/javascript">
  window.document.addEventListener("DOMContentLoaded", function (event) {
    const icon = "";
    const anchorJS = new window.AnchorJS();
    anchorJS.options = {
      placement: 'right',
      icon: icon
    };
    anchorJS.add('.anchored');
    const isCodeAnnotation = (el) => {
      for (const clz of el.classList) {
        if (clz.startsWith('code-annotation-')) {
          return true;
        }
      }
      return false;
    }
    const onCopySuccess = function(e) {
      // button target
      const button = e.trigger;
      // don't keep focus
      button.blur();
      // flash "checked"
      button.classList.add('code-copy-button-checked');
      var currentTitle = button.getAttribute("title");
      button.setAttribute("title", "Copied!");
      let tooltip;
      if (window.bootstrap) {
        button.setAttribute("data-bs-toggle", "tooltip");
        button.setAttribute("data-bs-placement", "left");
        button.setAttribute("data-bs-title", "Copied!");
        tooltip = new bootstrap.Tooltip(button,
          { trigger: "manual",
            customClass: "code-copy-button-tooltip",
            offset: [0, -8]});
        tooltip.show();
      }
      setTimeout(function() {
        if (tooltip) {
          tooltip.hide();
          button.removeAttribute("data-bs-title");
          button.removeAttribute("data-bs-toggle");
          button.removeAttribute("data-bs-placement");
        }
        button.setAttribute("title", currentTitle);
        button.classList.remove('code-copy-button-checked');
      }, 1000);
      // clear code selection
      e.clearSelection();
    }
    const getTextToCopy = function(trigger) {
      const outerScaffold = trigger.parentElement.cloneNode(true);
      const codeEl = outerScaffold.querySelector('code');
      for (const childEl of codeEl.children) {
        if (isCodeAnnotation(childEl)) {
          childEl.remove();
        }
      }
      return codeEl.innerText;
    }
    const clipboard = new window.ClipboardJS('.code-copy-button:not([data-in-quarto-modal])', {
      text: getTextToCopy
    });
    clipboard.on('success', onCopySuccess);
    if (window.document.getElementById('quarto-embedded-source-code-modal')) {
      const clipboardModal = new window.ClipboardJS('.code-copy-button[data-in-quarto-modal]', {
        text: getTextToCopy,
        container: window.document.getElementById('quarto-embedded-source-code-modal')
      });
      clipboardModal.on('success', onCopySuccess);
    }
      var localhostRegex = new RegExp(/^(?:http|https):\/\/localhost\:?[0-9]*\//);
      var mailtoRegex = new RegExp(/^mailto:/);
        var filterRegex = new RegExp("https:\/\/docs\.axolotl\.ai");
      var isInternal = (href) => {
          return filterRegex.test(href) || localhostRegex.test(href) || mailtoRegex.test(href);
      }
      // Inspect non-navigation links and adorn them if external
     var links = window.document.querySelectorAll('a[href]:not(.nav-link):not(.navbar-brand):not(.toc-action):not(.sidebar-link):not(.sidebar-item-toggle):not(.pagination-link):not(.no-external):not([aria-hidden]):not(.dropdown-item):not(.quarto-navigation-tool):not(.about-link)');
      for (var i=0; i<links.length; i++) {
        const link = links[i];
        if (!isInternal(link.href)) {
          // undo the damage that might have been done by quarto-nav.js in the case of
          // links that we want to consider external
          if (link.dataset.originalHref !== undefined) {
            link.href = link.dataset.originalHref;
          }
        }
      }
    function tippyHover(el, contentFn, onTriggerFn, onUntriggerFn) {
      const config = {
        allowHTML: true,
        maxWidth: 500,
        delay: 100,
        arrow: false,
        appendTo: function(el) {
            return el.parentElement;
        },
        interactive: true,
        interactiveBorder: 10,
        theme: 'quarto',
        placement: 'bottom-start',
      };
      if (contentFn) {
        config.content = contentFn;
      }
      if (onTriggerFn) {
        config.onTrigger = onTriggerFn;
      }
      if (onUntriggerFn) {
        config.onUntrigger = onUntriggerFn;
      }
      window.tippy(el, config);
    }
    const noterefs = window.document.querySelectorAll('a[role="doc-noteref"]');
    for (var i=0; i<noterefs.length; i++) {
      const ref = noterefs[i];
      tippyHover(ref, function() {
        // use id or data attribute instead here
        let href = ref.getAttribute('data-footnote-href') || ref.getAttribute('href');
        try { href = new URL(href).hash; } catch {}
        const id = href.replace(/^#\/?/, "");
        const note = window.document.getElementById(id);
        if (note) {
          return note.innerHTML;
        } else {
          return "";
        }
      });
    }
    const xrefs = window.document.querySelectorAll('a.quarto-xref');
    const processXRef = (id, note) => {
      // Strip column container classes
      const stripColumnClz = (el) => {
        el.classList.remove("page-full", "page-columns");
        if (el.children) {
          for (const child of el.children) {
            stripColumnClz(child);
          }
        }
      }
      stripColumnClz(note)
      if (id === null || id.startsWith('sec-')) {
        // Special case sections, only their first couple elements
        const container = document.createElement("div");
        if (note.children && note.children.length > 2) {
          container.appendChild(note.children[0].cloneNode(true));
          for (let i = 1; i < note.children.length; i++) {
            const child = note.children[i];
            if (child.tagName === "P" && child.innerText === "") {
              continue;
            } else {
              container.appendChild(child.cloneNode(true));
              break;
            }
          }
          if (window.Quarto?.typesetMath) {
            window.Quarto.typesetMath(container);
          }
          return container.innerHTML
        } else {
          if (window.Quarto?.typesetMath) {
            window.Quarto.typesetMath(note);
          }
          return note.innerHTML;
        }
      } else {
        // Remove any anchor links if they are present
        const anchorLink = note.querySelector('a.anchorjs-link');
        if (anchorLink) {
          anchorLink.remove();
        }
        if (window.Quarto?.typesetMath) {
          window.Quarto.typesetMath(note);
        }
        if (note.classList.contains("callout")) {
          return note.outerHTML;
        } else {
          return note.innerHTML;
        }
      }
    }
    for (var i=0; i<xrefs.length; i++) {
      const xref = xrefs[i];
      tippyHover(xref, undefined, function(instance) {
        instance.disable();
        let url = xref.getAttribute('href');
        let hash = undefined;
        if (url.startsWith('#')) {
          hash = url;
        } else {
          try { hash = new URL(url).hash; } catch {}
        }
        if (hash) {
          const id = hash.replace(/^#\/?/, "");
          const note = window.document.getElementById(id);
          if (note !== null) {
            try {
              const html = processXRef(id, note.cloneNode(true));
              instance.setContent(html);
            } finally {
              instance.enable();
              instance.show();
            }
          } else {
            // See if we can fetch this
            fetch(url.split('#')[0])
            .then(res => res.text())
            .then(html => {
              const parser = new DOMParser();
              const htmlDoc = parser.parseFromString(html, "text/html");
              const note = htmlDoc.getElementById(id);
              if (note !== null) {
                const html = processXRef(id, note);
                instance.setContent(html);
              }
            }).finally(() => {
              instance.enable();
              instance.show();
            });
          }
        } else {
          // See if we can fetch a full url (with no hash to target)
          // This is a special case and we should probably do some content thinning / targeting
          fetch(url)
          .then(res => res.text())
          .then(html => {
            const parser = new DOMParser();
            const htmlDoc = parser.parseFromString(html, "text/html");
            const note = htmlDoc.querySelector('main.content');
            if (note !== null) {
              // This should only happen for chapter cross references
              // (since there is no id in the URL)
              // remove the first header
              if (note.children.length > 0 && note.children[0].tagName === "HEADER") {
                note.children[0].remove();
              }
              const html = processXRef(null, note);
              instance.setContent(html);
            }
          }).finally(() => {
            instance.enable();
            instance.show();
          });
        }
      }, function(instance) {
      });
    }
        let selectedAnnoteEl;
        const selectorForAnnotation = ( cell, annotation) => {
          let cellAttr = 'data-code-cell="' + cell + '"';
          let lineAttr = 'data-code-annotation="' +  annotation + '"';
          const selector = 'span[' + cellAttr + '][' + lineAttr + ']';
          return selector;
        }
        const selectCodeLines = (annoteEl) => {
          const doc = window.document;
          const targetCell = annoteEl.getAttribute("data-target-cell");
          const targetAnnotation = annoteEl.getAttribute("data-target-annotation");
          const annoteSpan = window.document.querySelector(selectorForAnnotation(targetCell, targetAnnotation));
          const lines = annoteSpan.getAttribute("data-code-lines").split(",");
          const lineIds = lines.map((line) => {
            return targetCell + "-" + line;
          })
          let top = null;
          let height = null;
          let parent = null;
          if (lineIds.length > 0) {
              //compute the position of the single el (top and bottom and make a div)
              const el = window.document.getElementById(lineIds[0]);
              top = el.offsetTop;
              height = el.offsetHeight;
              parent = el.parentElement.parentElement;
            if (lineIds.length > 1) {
              const lastEl = window.document.getElementById(lineIds[lineIds.length - 1]);
              const bottom = lastEl.offsetTop + lastEl.offsetHeight;
              height = bottom - top;
            }
            if (top !== null && height !== null && parent !== null) {
              // cook up a div (if necessary) and position it
              let div = window.document.getElementById("code-annotation-line-highlight");
              if (div === null) {
                div = window.document.createElement("div");
                div.setAttribute("id", "code-annotation-line-highlight");
                div.style.position = 'absolute';
                parent.appendChild(div);
              }
              div.style.top = top - 2 + "px";
              div.style.height = height + 4 + "px";
              div.style.left = 0;
              let gutterDiv = window.document.getElementById("code-annotation-line-highlight-gutter");
              if (gutterDiv === null) {
                gutterDiv = window.document.createElement("div");
                gutterDiv.setAttribute("id", "code-annotation-line-highlight-gutter");
                gutterDiv.style.position = 'absolute';
                const codeCell = window.document.getElementById(targetCell);
                const gutter = codeCell.querySelector('.code-annotation-gutter');
                gutter.appendChild(gutterDiv);
              }
              gutterDiv.style.top = top - 2 + "px";
              gutterDiv.style.height = height + 4 + "px";
            }
            selectedAnnoteEl = annoteEl;
          }
        };
        const unselectCodeLines = () => {
          const elementsIds = ["code-annotation-line-highlight", "code-annotation-line-highlight-gutter"];
          elementsIds.forEach((elId) => {
            const div = window.document.getElementById(elId);
            if (div) {
              div.remove();
            }
          });
          selectedAnnoteEl = undefined;
        };
          // Handle positioning of the toggle
      window.addEventListener(
        "resize",
        throttle(() => {
          elRect = undefined;
          if (selectedAnnoteEl) {
            selectCodeLines(selectedAnnoteEl);
          }
        }, 10)
      );
      function throttle(fn, ms) {
      let throttle = false;
      let timer;
        return (...args) => {
          if(!throttle) { // first call gets through
              fn.apply(this, args);
              throttle = true;
          } else { // all the others get throttled
              if(timer) clearTimeout(timer); // cancel #2
              timer = setTimeout(() => {
                fn.apply(this, args);
                timer = throttle = false;
              }, ms);
          }
        };
      }
        // Attach click handler to the DT
        const annoteDls = window.document.querySelectorAll('dt[data-target-cell]');
        for (const annoteDlNode of annoteDls) {
          annoteDlNode.addEventListener('click', (event) => {
            const clickedEl = event.target;
            if (clickedEl !== selectedAnnoteEl) {
              unselectCodeLines();
              const activeEl = window.document.querySelector('dt[data-target-cell].code-annotation-active');
              if (activeEl) {
                activeEl.classList.remove('code-annotation-active');
              }
              selectCodeLines(clickedEl);
              clickedEl.classList.add('code-annotation-active');
            } else {
              // Unselect the line
              unselectCodeLines();
              clickedEl.classList.remove('code-annotation-active');
            }
          });
        }
    const findCites = (el) => {
      const parentEl = el.parentElement;
      if (parentEl) {
        const cites = parentEl.dataset.cites;
        if (cites) {
          return {
            el,
            cites: cites.split(' ')
          };
        } else {
          return findCites(el.parentElement)
        }
      } else {
        return undefined;
      }
    };
    var bibliorefs = window.document.querySelectorAll('a[role="doc-biblioref"]');
    for (var i=0; i<bibliorefs.length; i++) {
      const ref = bibliorefs[i];
      const citeInfo = findCites(ref);
      if (citeInfo) {
        tippyHover(citeInfo.el, function() {
          var popup = window.document.createElement('div');
          citeInfo.cites.forEach(function(cite) {
            var citeDiv = window.document.createElement('div');
            citeDiv.classList.add('hanging-indent');
            citeDiv.classList.add('csl-entry');
            var biblioDiv = window.document.getElementById('ref-' + cite);
            if (biblioDiv) {
              citeDiv.innerHTML = biblioDiv.innerHTML;
            }
            popup.appendChild(citeDiv);
          });
          return popup.innerHTML;
        });
      }
    }
  });
  </script>
</div> <!-- /content -->


</body></html>