diff --git a/.github/workflows/main.yml b/.github/workflows/main.yml
index 01606f902..7ff712757 100644
--- a/.github/workflows/main.yml
+++ b/.github/workflows/main.yml
@@ -29,12 +29,12 @@ jobs:
           - cuda: 126
             cuda_version: 12.6.3
             python_version: "3.11"
-            pytorch: 2.7.0
+            pytorch: 2.7.1
             axolotl_extras:
           - cuda: 128
             cuda_version: 12.8.1
             python_version: "3.11"
-            pytorch: 2.7.0
+            pytorch: 2.7.1
             axolotl_extras:
     runs-on: axolotl-gpu-runner
     steps:
@@ -97,12 +97,12 @@ jobs:
           - cuda: 126
             cuda_version: 12.6.3
             python_version: "3.11"
-            pytorch: 2.7.0
+            pytorch: 2.7.1
             axolotl_extras:
           - cuda: 128
             cuda_version: 12.8.1
             python_version: "3.11"
-            pytorch: 2.7.0
+            pytorch: 2.7.1
             axolotl_extras:
     runs-on: axolotl-gpu-runner
     steps:
diff --git a/.nojekyll b/.nojekyll
index 16a82cc64..81c8edb89 100644
--- a/.nojekyll
+++ b/.nojekyll
@@ -1 +1 @@
-91cd29d0
\ No newline at end of file
+72083c85
\ No newline at end of file
diff --git a/docs/api/core.training_args.html b/docs/api/core.training_args.html
index a74183f9e..f35ea760a 100644
--- a/docs/api/core.training_args.html
+++ b/docs/api/core.training_args.html
@@ -547,43 +547,44 @@ gtag('config', 'G-9KYCVJBNMQ', { 'anonymize_ip': true});
 <span id="cb1-10"><a href="#cb1-10" aria-hidden="true" tabindex="-1"></a>    sample_packing_bin_size<span class="op">=</span><span class="dv">200</span>,</span>
 <span id="cb1-11"><a href="#cb1-11" aria-hidden="true" tabindex="-1"></a>    sample_packing_group_size<span class="op">=</span><span class="dv">100000</span>,</span>
 <span id="cb1-12"><a href="#cb1-12" aria-hidden="true" tabindex="-1"></a>    max_seq_length<span class="op">=</span><span class="dv">2048</span>,</span>
-<span id="cb1-13"><a href="#cb1-13" aria-hidden="true" tabindex="-1"></a>    relora_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-14"><a href="#cb1-14" aria-hidden="true" tabindex="-1"></a>    relora_warmup_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-15"><a href="#cb1-15" aria-hidden="true" tabindex="-1"></a>    relora_anneal_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-16"><a href="#cb1-16" aria-hidden="true" tabindex="-1"></a>    relora_prune_ratio<span class="op">=</span><span class="fl">0.9</span>,</span>
-<span id="cb1-17"><a href="#cb1-17" aria-hidden="true" tabindex="-1"></a>    bench_split<span class="op">=</span><span class="st">'eval'</span>,</span>
-<span id="cb1-18"><a href="#cb1-18" aria-hidden="true" tabindex="-1"></a>    bench_dataset<span class="op">=</span><span class="st">'pharaouk/dharma-1/dharma_1_mini.json'</span>,</span>
-<span id="cb1-19"><a href="#cb1-19" aria-hidden="true" tabindex="-1"></a>    do_bench_eval<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb1-20"><a href="#cb1-20" aria-hidden="true" tabindex="-1"></a>    do_causal_lm_eval<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb1-21"><a href="#cb1-21" aria-hidden="true" tabindex="-1"></a>    max_bench_samples<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-22"><a href="#cb1-22" aria-hidden="true" tabindex="-1"></a>    bench_source_max_len<span class="op">=</span><span class="dv">2048</span>,</span>
-<span id="cb1-23"><a href="#cb1-23" aria-hidden="true" tabindex="-1"></a>    dataloader_prefetch_factor<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-24"><a href="#cb1-24" aria-hidden="true" tabindex="-1"></a>    cosine_min_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-25"><a href="#cb1-25" aria-hidden="true" tabindex="-1"></a>    cosine_constant_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-26"><a href="#cb1-26" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-27"><a href="#cb1-27" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_embedding<span class="op">=</span><span class="fl">1e-06</span>,</span>
-<span id="cb1-28"><a href="#cb1-28" aria-hidden="true" tabindex="-1"></a>    embedding_lr_scale<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-29"><a href="#cb1-29" aria-hidden="true" tabindex="-1"></a>    lr_groups<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-30"><a href="#cb1-30" aria-hidden="true" tabindex="-1"></a>    embedding_lr<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-31"><a href="#cb1-31" aria-hidden="true" tabindex="-1"></a>    qlora<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb1-32"><a href="#cb1-32" aria-hidden="true" tabindex="-1"></a>    orpo_alpha<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-33"><a href="#cb1-33" aria-hidden="true" tabindex="-1"></a>    lisa_n_layers<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-34"><a href="#cb1-34" aria-hidden="true" tabindex="-1"></a>    lisa_step_interval<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-35"><a href="#cb1-35" aria-hidden="true" tabindex="-1"></a>    lisa_layers_attribute<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-36"><a href="#cb1-36" aria-hidden="true" tabindex="-1"></a>    curriculum_sampling<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-37"><a href="#cb1-37" aria-hidden="true" tabindex="-1"></a>    alternate_lr_scheduler_type<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-38"><a href="#cb1-38" aria-hidden="true" tabindex="-1"></a>    chat_template<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-39"><a href="#cb1-39" aria-hidden="true" tabindex="-1"></a>    kd_ce_alpha<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-40"><a href="#cb1-40" aria-hidden="true" tabindex="-1"></a>    kd_alpha<span class="op">=</span><span class="fl">1.0</span>,</span>
-<span id="cb1-41"><a href="#cb1-41" aria-hidden="true" tabindex="-1"></a>    kd_temperature<span class="op">=</span><span class="fl">1.0</span>,</span>
-<span id="cb1-42"><a href="#cb1-42" aria-hidden="true" tabindex="-1"></a>    kd_zscore_base_temp<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-43"><a href="#cb1-43" aria-hidden="true" tabindex="-1"></a>    kd_top_k_before_softmax<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-44"><a href="#cb1-44" aria-hidden="true" tabindex="-1"></a>    adam_beta3<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-45"><a href="#cb1-45" aria-hidden="true" tabindex="-1"></a>    adam_epsilon2<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-46"><a href="#cb1-46" aria-hidden="true" tabindex="-1"></a>    image_size<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-47"><a href="#cb1-47" aria-hidden="true" tabindex="-1"></a>    image_resize_algorithm<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-48"><a href="#cb1-48" aria-hidden="true" tabindex="-1"></a>    simpo_gamma<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb1-49"><a href="#cb1-49" aria-hidden="true" tabindex="-1"></a>)</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+<span id="cb1-13"><a href="#cb1-13" aria-hidden="true" tabindex="-1"></a>    dataset_num_proc<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-14"><a href="#cb1-14" aria-hidden="true" tabindex="-1"></a>    relora_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-15"><a href="#cb1-15" aria-hidden="true" tabindex="-1"></a>    relora_warmup_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-16"><a href="#cb1-16" aria-hidden="true" tabindex="-1"></a>    relora_anneal_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-17"><a href="#cb1-17" aria-hidden="true" tabindex="-1"></a>    relora_prune_ratio<span class="op">=</span><span class="fl">0.9</span>,</span>
+<span id="cb1-18"><a href="#cb1-18" aria-hidden="true" tabindex="-1"></a>    bench_split<span class="op">=</span><span class="st">'eval'</span>,</span>
+<span id="cb1-19"><a href="#cb1-19" aria-hidden="true" tabindex="-1"></a>    bench_dataset<span class="op">=</span><span class="st">'pharaouk/dharma-1/dharma_1_mini.json'</span>,</span>
+<span id="cb1-20"><a href="#cb1-20" aria-hidden="true" tabindex="-1"></a>    do_bench_eval<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb1-21"><a href="#cb1-21" aria-hidden="true" tabindex="-1"></a>    do_causal_lm_eval<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb1-22"><a href="#cb1-22" aria-hidden="true" tabindex="-1"></a>    max_bench_samples<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-23"><a href="#cb1-23" aria-hidden="true" tabindex="-1"></a>    bench_source_max_len<span class="op">=</span><span class="dv">2048</span>,</span>
+<span id="cb1-24"><a href="#cb1-24" aria-hidden="true" tabindex="-1"></a>    dataloader_prefetch_factor<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-25"><a href="#cb1-25" aria-hidden="true" tabindex="-1"></a>    cosine_min_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-26"><a href="#cb1-26" aria-hidden="true" tabindex="-1"></a>    cosine_constant_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-27"><a href="#cb1-27" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-28"><a href="#cb1-28" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_embedding<span class="op">=</span><span class="fl">1e-06</span>,</span>
+<span id="cb1-29"><a href="#cb1-29" aria-hidden="true" tabindex="-1"></a>    embedding_lr_scale<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-30"><a href="#cb1-30" aria-hidden="true" tabindex="-1"></a>    lr_groups<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-31"><a href="#cb1-31" aria-hidden="true" tabindex="-1"></a>    embedding_lr<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-32"><a href="#cb1-32" aria-hidden="true" tabindex="-1"></a>    qlora<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb1-33"><a href="#cb1-33" aria-hidden="true" tabindex="-1"></a>    orpo_alpha<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-34"><a href="#cb1-34" aria-hidden="true" tabindex="-1"></a>    lisa_n_layers<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-35"><a href="#cb1-35" aria-hidden="true" tabindex="-1"></a>    lisa_step_interval<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-36"><a href="#cb1-36" aria-hidden="true" tabindex="-1"></a>    lisa_layers_attribute<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-37"><a href="#cb1-37" aria-hidden="true" tabindex="-1"></a>    curriculum_sampling<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-38"><a href="#cb1-38" aria-hidden="true" tabindex="-1"></a>    alternate_lr_scheduler_type<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-39"><a href="#cb1-39" aria-hidden="true" tabindex="-1"></a>    chat_template<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-40"><a href="#cb1-40" aria-hidden="true" tabindex="-1"></a>    kd_ce_alpha<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-41"><a href="#cb1-41" aria-hidden="true" tabindex="-1"></a>    kd_alpha<span class="op">=</span><span class="fl">1.0</span>,</span>
+<span id="cb1-42"><a href="#cb1-42" aria-hidden="true" tabindex="-1"></a>    kd_temperature<span class="op">=</span><span class="fl">1.0</span>,</span>
+<span id="cb1-43"><a href="#cb1-43" aria-hidden="true" tabindex="-1"></a>    kd_zscore_base_temp<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-44"><a href="#cb1-44" aria-hidden="true" tabindex="-1"></a>    kd_top_k_before_softmax<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-45"><a href="#cb1-45" aria-hidden="true" tabindex="-1"></a>    adam_beta3<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-46"><a href="#cb1-46" aria-hidden="true" tabindex="-1"></a>    adam_epsilon2<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-47"><a href="#cb1-47" aria-hidden="true" tabindex="-1"></a>    image_size<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-48"><a href="#cb1-48" aria-hidden="true" tabindex="-1"></a>    image_resize_algorithm<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-49"><a href="#cb1-49" aria-hidden="true" tabindex="-1"></a>    simpo_gamma<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb1-50"><a href="#cb1-50" aria-hidden="true" tabindex="-1"></a>)</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
 <p>CPO config for CPO training</p>
 </section>
 <section id="axolotl.core.training_args.AxolotlKTOConfig" class="level3">
@@ -600,42 +601,43 @@ gtag('config', 'G-9KYCVJBNMQ', { 'anonymize_ip': true});
 <span id="cb2-10"><a href="#cb2-10" aria-hidden="true" tabindex="-1"></a>    sample_packing_bin_size<span class="op">=</span><span class="dv">200</span>,</span>
 <span id="cb2-11"><a href="#cb2-11" aria-hidden="true" tabindex="-1"></a>    sample_packing_group_size<span class="op">=</span><span class="dv">100000</span>,</span>
 <span id="cb2-12"><a href="#cb2-12" aria-hidden="true" tabindex="-1"></a>    max_seq_length<span class="op">=</span><span class="dv">2048</span>,</span>
-<span id="cb2-13"><a href="#cb2-13" aria-hidden="true" tabindex="-1"></a>    relora_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-14"><a href="#cb2-14" aria-hidden="true" tabindex="-1"></a>    relora_warmup_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-15"><a href="#cb2-15" aria-hidden="true" tabindex="-1"></a>    relora_anneal_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-16"><a href="#cb2-16" aria-hidden="true" tabindex="-1"></a>    relora_prune_ratio<span class="op">=</span><span class="fl">0.9</span>,</span>
-<span id="cb2-17"><a href="#cb2-17" aria-hidden="true" tabindex="-1"></a>    bench_split<span class="op">=</span><span class="st">'eval'</span>,</span>
-<span id="cb2-18"><a href="#cb2-18" aria-hidden="true" tabindex="-1"></a>    bench_dataset<span class="op">=</span><span class="st">'pharaouk/dharma-1/dharma_1_mini.json'</span>,</span>
-<span id="cb2-19"><a href="#cb2-19" aria-hidden="true" tabindex="-1"></a>    do_bench_eval<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb2-20"><a href="#cb2-20" aria-hidden="true" tabindex="-1"></a>    do_causal_lm_eval<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb2-21"><a href="#cb2-21" aria-hidden="true" tabindex="-1"></a>    max_bench_samples<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-22"><a href="#cb2-22" aria-hidden="true" tabindex="-1"></a>    bench_source_max_len<span class="op">=</span><span class="dv">2048</span>,</span>
-<span id="cb2-23"><a href="#cb2-23" aria-hidden="true" tabindex="-1"></a>    dataloader_prefetch_factor<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-24"><a href="#cb2-24" aria-hidden="true" tabindex="-1"></a>    cosine_min_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-25"><a href="#cb2-25" aria-hidden="true" tabindex="-1"></a>    cosine_constant_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-26"><a href="#cb2-26" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-27"><a href="#cb2-27" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_embedding<span class="op">=</span><span class="fl">1e-06</span>,</span>
-<span id="cb2-28"><a href="#cb2-28" aria-hidden="true" tabindex="-1"></a>    embedding_lr_scale<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-29"><a href="#cb2-29" aria-hidden="true" tabindex="-1"></a>    lr_groups<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-30"><a href="#cb2-30" aria-hidden="true" tabindex="-1"></a>    embedding_lr<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-31"><a href="#cb2-31" aria-hidden="true" tabindex="-1"></a>    qlora<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb2-32"><a href="#cb2-32" aria-hidden="true" tabindex="-1"></a>    orpo_alpha<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-33"><a href="#cb2-33" aria-hidden="true" tabindex="-1"></a>    lisa_n_layers<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-34"><a href="#cb2-34" aria-hidden="true" tabindex="-1"></a>    lisa_step_interval<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-35"><a href="#cb2-35" aria-hidden="true" tabindex="-1"></a>    lisa_layers_attribute<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-36"><a href="#cb2-36" aria-hidden="true" tabindex="-1"></a>    curriculum_sampling<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-37"><a href="#cb2-37" aria-hidden="true" tabindex="-1"></a>    alternate_lr_scheduler_type<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-38"><a href="#cb2-38" aria-hidden="true" tabindex="-1"></a>    chat_template<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-39"><a href="#cb2-39" aria-hidden="true" tabindex="-1"></a>    kd_ce_alpha<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-40"><a href="#cb2-40" aria-hidden="true" tabindex="-1"></a>    kd_alpha<span class="op">=</span><span class="fl">1.0</span>,</span>
-<span id="cb2-41"><a href="#cb2-41" aria-hidden="true" tabindex="-1"></a>    kd_temperature<span class="op">=</span><span class="fl">1.0</span>,</span>
-<span id="cb2-42"><a href="#cb2-42" aria-hidden="true" tabindex="-1"></a>    kd_zscore_base_temp<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-43"><a href="#cb2-43" aria-hidden="true" tabindex="-1"></a>    kd_top_k_before_softmax<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-44"><a href="#cb2-44" aria-hidden="true" tabindex="-1"></a>    adam_beta3<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-45"><a href="#cb2-45" aria-hidden="true" tabindex="-1"></a>    adam_epsilon2<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-46"><a href="#cb2-46" aria-hidden="true" tabindex="-1"></a>    image_size<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-47"><a href="#cb2-47" aria-hidden="true" tabindex="-1"></a>    image_resize_algorithm<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb2-48"><a href="#cb2-48" aria-hidden="true" tabindex="-1"></a>)</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+<span id="cb2-13"><a href="#cb2-13" aria-hidden="true" tabindex="-1"></a>    dataset_num_proc<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-14"><a href="#cb2-14" aria-hidden="true" tabindex="-1"></a>    relora_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-15"><a href="#cb2-15" aria-hidden="true" tabindex="-1"></a>    relora_warmup_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-16"><a href="#cb2-16" aria-hidden="true" tabindex="-1"></a>    relora_anneal_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-17"><a href="#cb2-17" aria-hidden="true" tabindex="-1"></a>    relora_prune_ratio<span class="op">=</span><span class="fl">0.9</span>,</span>
+<span id="cb2-18"><a href="#cb2-18" aria-hidden="true" tabindex="-1"></a>    bench_split<span class="op">=</span><span class="st">'eval'</span>,</span>
+<span id="cb2-19"><a href="#cb2-19" aria-hidden="true" tabindex="-1"></a>    bench_dataset<span class="op">=</span><span class="st">'pharaouk/dharma-1/dharma_1_mini.json'</span>,</span>
+<span id="cb2-20"><a href="#cb2-20" aria-hidden="true" tabindex="-1"></a>    do_bench_eval<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb2-21"><a href="#cb2-21" aria-hidden="true" tabindex="-1"></a>    do_causal_lm_eval<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb2-22"><a href="#cb2-22" aria-hidden="true" tabindex="-1"></a>    max_bench_samples<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-23"><a href="#cb2-23" aria-hidden="true" tabindex="-1"></a>    bench_source_max_len<span class="op">=</span><span class="dv">2048</span>,</span>
+<span id="cb2-24"><a href="#cb2-24" aria-hidden="true" tabindex="-1"></a>    dataloader_prefetch_factor<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-25"><a href="#cb2-25" aria-hidden="true" tabindex="-1"></a>    cosine_min_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-26"><a href="#cb2-26" aria-hidden="true" tabindex="-1"></a>    cosine_constant_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-27"><a href="#cb2-27" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-28"><a href="#cb2-28" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_embedding<span class="op">=</span><span class="fl">1e-06</span>,</span>
+<span id="cb2-29"><a href="#cb2-29" aria-hidden="true" tabindex="-1"></a>    embedding_lr_scale<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-30"><a href="#cb2-30" aria-hidden="true" tabindex="-1"></a>    lr_groups<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-31"><a href="#cb2-31" aria-hidden="true" tabindex="-1"></a>    embedding_lr<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-32"><a href="#cb2-32" aria-hidden="true" tabindex="-1"></a>    qlora<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb2-33"><a href="#cb2-33" aria-hidden="true" tabindex="-1"></a>    orpo_alpha<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-34"><a href="#cb2-34" aria-hidden="true" tabindex="-1"></a>    lisa_n_layers<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-35"><a href="#cb2-35" aria-hidden="true" tabindex="-1"></a>    lisa_step_interval<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-36"><a href="#cb2-36" aria-hidden="true" tabindex="-1"></a>    lisa_layers_attribute<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-37"><a href="#cb2-37" aria-hidden="true" tabindex="-1"></a>    curriculum_sampling<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-38"><a href="#cb2-38" aria-hidden="true" tabindex="-1"></a>    alternate_lr_scheduler_type<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-39"><a href="#cb2-39" aria-hidden="true" tabindex="-1"></a>    chat_template<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-40"><a href="#cb2-40" aria-hidden="true" tabindex="-1"></a>    kd_ce_alpha<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-41"><a href="#cb2-41" aria-hidden="true" tabindex="-1"></a>    kd_alpha<span class="op">=</span><span class="fl">1.0</span>,</span>
+<span id="cb2-42"><a href="#cb2-42" aria-hidden="true" tabindex="-1"></a>    kd_temperature<span class="op">=</span><span class="fl">1.0</span>,</span>
+<span id="cb2-43"><a href="#cb2-43" aria-hidden="true" tabindex="-1"></a>    kd_zscore_base_temp<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-44"><a href="#cb2-44" aria-hidden="true" tabindex="-1"></a>    kd_top_k_before_softmax<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-45"><a href="#cb2-45" aria-hidden="true" tabindex="-1"></a>    adam_beta3<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-46"><a href="#cb2-46" aria-hidden="true" tabindex="-1"></a>    adam_epsilon2<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-47"><a href="#cb2-47" aria-hidden="true" tabindex="-1"></a>    image_size<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-48"><a href="#cb2-48" aria-hidden="true" tabindex="-1"></a>    image_resize_algorithm<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb2-49"><a href="#cb2-49" aria-hidden="true" tabindex="-1"></a>)</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
 <p>KTO config for KTO training</p>
 </section>
 <section id="axolotl.core.training_args.AxolotlORPOConfig" class="level3">
@@ -652,42 +654,43 @@ gtag('config', 'G-9KYCVJBNMQ', { 'anonymize_ip': true});
 <span id="cb3-10"><a href="#cb3-10" aria-hidden="true" tabindex="-1"></a>    sample_packing_bin_size<span class="op">=</span><span class="dv">200</span>,</span>
 <span id="cb3-11"><a href="#cb3-11" aria-hidden="true" tabindex="-1"></a>    sample_packing_group_size<span class="op">=</span><span class="dv">100000</span>,</span>
 <span id="cb3-12"><a href="#cb3-12" aria-hidden="true" tabindex="-1"></a>    max_seq_length<span class="op">=</span><span class="dv">2048</span>,</span>
-<span id="cb3-13"><a href="#cb3-13" aria-hidden="true" tabindex="-1"></a>    relora_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-14"><a href="#cb3-14" aria-hidden="true" tabindex="-1"></a>    relora_warmup_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-15"><a href="#cb3-15" aria-hidden="true" tabindex="-1"></a>    relora_anneal_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-16"><a href="#cb3-16" aria-hidden="true" tabindex="-1"></a>    relora_prune_ratio<span class="op">=</span><span class="fl">0.9</span>,</span>
-<span id="cb3-17"><a href="#cb3-17" aria-hidden="true" tabindex="-1"></a>    bench_split<span class="op">=</span><span class="st">'eval'</span>,</span>
-<span id="cb3-18"><a href="#cb3-18" aria-hidden="true" tabindex="-1"></a>    bench_dataset<span class="op">=</span><span class="st">'pharaouk/dharma-1/dharma_1_mini.json'</span>,</span>
-<span id="cb3-19"><a href="#cb3-19" aria-hidden="true" tabindex="-1"></a>    do_bench_eval<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb3-20"><a href="#cb3-20" aria-hidden="true" tabindex="-1"></a>    do_causal_lm_eval<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb3-21"><a href="#cb3-21" aria-hidden="true" tabindex="-1"></a>    max_bench_samples<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-22"><a href="#cb3-22" aria-hidden="true" tabindex="-1"></a>    bench_source_max_len<span class="op">=</span><span class="dv">2048</span>,</span>
-<span id="cb3-23"><a href="#cb3-23" aria-hidden="true" tabindex="-1"></a>    dataloader_prefetch_factor<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-24"><a href="#cb3-24" aria-hidden="true" tabindex="-1"></a>    cosine_min_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-25"><a href="#cb3-25" aria-hidden="true" tabindex="-1"></a>    cosine_constant_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-26"><a href="#cb3-26" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-27"><a href="#cb3-27" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_embedding<span class="op">=</span><span class="fl">1e-06</span>,</span>
-<span id="cb3-28"><a href="#cb3-28" aria-hidden="true" tabindex="-1"></a>    embedding_lr_scale<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-29"><a href="#cb3-29" aria-hidden="true" tabindex="-1"></a>    lr_groups<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-30"><a href="#cb3-30" aria-hidden="true" tabindex="-1"></a>    embedding_lr<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-31"><a href="#cb3-31" aria-hidden="true" tabindex="-1"></a>    qlora<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb3-32"><a href="#cb3-32" aria-hidden="true" tabindex="-1"></a>    orpo_alpha<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-33"><a href="#cb3-33" aria-hidden="true" tabindex="-1"></a>    lisa_n_layers<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-34"><a href="#cb3-34" aria-hidden="true" tabindex="-1"></a>    lisa_step_interval<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-35"><a href="#cb3-35" aria-hidden="true" tabindex="-1"></a>    lisa_layers_attribute<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-36"><a href="#cb3-36" aria-hidden="true" tabindex="-1"></a>    curriculum_sampling<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-37"><a href="#cb3-37" aria-hidden="true" tabindex="-1"></a>    alternate_lr_scheduler_type<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-38"><a href="#cb3-38" aria-hidden="true" tabindex="-1"></a>    chat_template<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-39"><a href="#cb3-39" aria-hidden="true" tabindex="-1"></a>    kd_ce_alpha<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-40"><a href="#cb3-40" aria-hidden="true" tabindex="-1"></a>    kd_alpha<span class="op">=</span><span class="fl">1.0</span>,</span>
-<span id="cb3-41"><a href="#cb3-41" aria-hidden="true" tabindex="-1"></a>    kd_temperature<span class="op">=</span><span class="fl">1.0</span>,</span>
-<span id="cb3-42"><a href="#cb3-42" aria-hidden="true" tabindex="-1"></a>    kd_zscore_base_temp<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-43"><a href="#cb3-43" aria-hidden="true" tabindex="-1"></a>    kd_top_k_before_softmax<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-44"><a href="#cb3-44" aria-hidden="true" tabindex="-1"></a>    adam_beta3<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-45"><a href="#cb3-45" aria-hidden="true" tabindex="-1"></a>    adam_epsilon2<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-46"><a href="#cb3-46" aria-hidden="true" tabindex="-1"></a>    image_size<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-47"><a href="#cb3-47" aria-hidden="true" tabindex="-1"></a>    image_resize_algorithm<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb3-48"><a href="#cb3-48" aria-hidden="true" tabindex="-1"></a>)</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+<span id="cb3-13"><a href="#cb3-13" aria-hidden="true" tabindex="-1"></a>    dataset_num_proc<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-14"><a href="#cb3-14" aria-hidden="true" tabindex="-1"></a>    relora_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-15"><a href="#cb3-15" aria-hidden="true" tabindex="-1"></a>    relora_warmup_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-16"><a href="#cb3-16" aria-hidden="true" tabindex="-1"></a>    relora_anneal_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-17"><a href="#cb3-17" aria-hidden="true" tabindex="-1"></a>    relora_prune_ratio<span class="op">=</span><span class="fl">0.9</span>,</span>
+<span id="cb3-18"><a href="#cb3-18" aria-hidden="true" tabindex="-1"></a>    bench_split<span class="op">=</span><span class="st">'eval'</span>,</span>
+<span id="cb3-19"><a href="#cb3-19" aria-hidden="true" tabindex="-1"></a>    bench_dataset<span class="op">=</span><span class="st">'pharaouk/dharma-1/dharma_1_mini.json'</span>,</span>
+<span id="cb3-20"><a href="#cb3-20" aria-hidden="true" tabindex="-1"></a>    do_bench_eval<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb3-21"><a href="#cb3-21" aria-hidden="true" tabindex="-1"></a>    do_causal_lm_eval<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb3-22"><a href="#cb3-22" aria-hidden="true" tabindex="-1"></a>    max_bench_samples<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-23"><a href="#cb3-23" aria-hidden="true" tabindex="-1"></a>    bench_source_max_len<span class="op">=</span><span class="dv">2048</span>,</span>
+<span id="cb3-24"><a href="#cb3-24" aria-hidden="true" tabindex="-1"></a>    dataloader_prefetch_factor<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-25"><a href="#cb3-25" aria-hidden="true" tabindex="-1"></a>    cosine_min_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-26"><a href="#cb3-26" aria-hidden="true" tabindex="-1"></a>    cosine_constant_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-27"><a href="#cb3-27" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-28"><a href="#cb3-28" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_embedding<span class="op">=</span><span class="fl">1e-06</span>,</span>
+<span id="cb3-29"><a href="#cb3-29" aria-hidden="true" tabindex="-1"></a>    embedding_lr_scale<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-30"><a href="#cb3-30" aria-hidden="true" tabindex="-1"></a>    lr_groups<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-31"><a href="#cb3-31" aria-hidden="true" tabindex="-1"></a>    embedding_lr<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-32"><a href="#cb3-32" aria-hidden="true" tabindex="-1"></a>    qlora<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb3-33"><a href="#cb3-33" aria-hidden="true" tabindex="-1"></a>    orpo_alpha<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-34"><a href="#cb3-34" aria-hidden="true" tabindex="-1"></a>    lisa_n_layers<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-35"><a href="#cb3-35" aria-hidden="true" tabindex="-1"></a>    lisa_step_interval<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-36"><a href="#cb3-36" aria-hidden="true" tabindex="-1"></a>    lisa_layers_attribute<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-37"><a href="#cb3-37" aria-hidden="true" tabindex="-1"></a>    curriculum_sampling<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-38"><a href="#cb3-38" aria-hidden="true" tabindex="-1"></a>    alternate_lr_scheduler_type<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-39"><a href="#cb3-39" aria-hidden="true" tabindex="-1"></a>    chat_template<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-40"><a href="#cb3-40" aria-hidden="true" tabindex="-1"></a>    kd_ce_alpha<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-41"><a href="#cb3-41" aria-hidden="true" tabindex="-1"></a>    kd_alpha<span class="op">=</span><span class="fl">1.0</span>,</span>
+<span id="cb3-42"><a href="#cb3-42" aria-hidden="true" tabindex="-1"></a>    kd_temperature<span class="op">=</span><span class="fl">1.0</span>,</span>
+<span id="cb3-43"><a href="#cb3-43" aria-hidden="true" tabindex="-1"></a>    kd_zscore_base_temp<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-44"><a href="#cb3-44" aria-hidden="true" tabindex="-1"></a>    kd_top_k_before_softmax<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-45"><a href="#cb3-45" aria-hidden="true" tabindex="-1"></a>    adam_beta3<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-46"><a href="#cb3-46" aria-hidden="true" tabindex="-1"></a>    adam_epsilon2<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-47"><a href="#cb3-47" aria-hidden="true" tabindex="-1"></a>    image_size<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-48"><a href="#cb3-48" aria-hidden="true" tabindex="-1"></a>    image_resize_algorithm<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb3-49"><a href="#cb3-49" aria-hidden="true" tabindex="-1"></a>)</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
 <p>ORPO config for ORPO training</p>
 </section>
 <section id="axolotl.core.training_args.AxolotlPRMConfig" class="level3">
@@ -704,42 +707,43 @@ gtag('config', 'G-9KYCVJBNMQ', { 'anonymize_ip': true});
 <span id="cb4-10"><a href="#cb4-10" aria-hidden="true" tabindex="-1"></a>    sample_packing_bin_size<span class="op">=</span><span class="dv">200</span>,</span>
 <span id="cb4-11"><a href="#cb4-11" aria-hidden="true" tabindex="-1"></a>    sample_packing_group_size<span class="op">=</span><span class="dv">100000</span>,</span>
 <span id="cb4-12"><a href="#cb4-12" aria-hidden="true" tabindex="-1"></a>    max_seq_length<span class="op">=</span><span class="dv">2048</span>,</span>
-<span id="cb4-13"><a href="#cb4-13" aria-hidden="true" tabindex="-1"></a>    relora_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-14"><a href="#cb4-14" aria-hidden="true" tabindex="-1"></a>    relora_warmup_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-15"><a href="#cb4-15" aria-hidden="true" tabindex="-1"></a>    relora_anneal_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-16"><a href="#cb4-16" aria-hidden="true" tabindex="-1"></a>    relora_prune_ratio<span class="op">=</span><span class="fl">0.9</span>,</span>
-<span id="cb4-17"><a href="#cb4-17" aria-hidden="true" tabindex="-1"></a>    bench_split<span class="op">=</span><span class="st">'eval'</span>,</span>
-<span id="cb4-18"><a href="#cb4-18" aria-hidden="true" tabindex="-1"></a>    bench_dataset<span class="op">=</span><span class="st">'pharaouk/dharma-1/dharma_1_mini.json'</span>,</span>
-<span id="cb4-19"><a href="#cb4-19" aria-hidden="true" tabindex="-1"></a>    do_bench_eval<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb4-20"><a href="#cb4-20" aria-hidden="true" tabindex="-1"></a>    do_causal_lm_eval<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb4-21"><a href="#cb4-21" aria-hidden="true" tabindex="-1"></a>    max_bench_samples<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-22"><a href="#cb4-22" aria-hidden="true" tabindex="-1"></a>    bench_source_max_len<span class="op">=</span><span class="dv">2048</span>,</span>
-<span id="cb4-23"><a href="#cb4-23" aria-hidden="true" tabindex="-1"></a>    dataloader_prefetch_factor<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-24"><a href="#cb4-24" aria-hidden="true" tabindex="-1"></a>    cosine_min_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-25"><a href="#cb4-25" aria-hidden="true" tabindex="-1"></a>    cosine_constant_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-26"><a href="#cb4-26" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-27"><a href="#cb4-27" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_embedding<span class="op">=</span><span class="fl">1e-06</span>,</span>
-<span id="cb4-28"><a href="#cb4-28" aria-hidden="true" tabindex="-1"></a>    embedding_lr_scale<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-29"><a href="#cb4-29" aria-hidden="true" tabindex="-1"></a>    lr_groups<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-30"><a href="#cb4-30" aria-hidden="true" tabindex="-1"></a>    embedding_lr<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-31"><a href="#cb4-31" aria-hidden="true" tabindex="-1"></a>    qlora<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb4-32"><a href="#cb4-32" aria-hidden="true" tabindex="-1"></a>    orpo_alpha<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-33"><a href="#cb4-33" aria-hidden="true" tabindex="-1"></a>    lisa_n_layers<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-34"><a href="#cb4-34" aria-hidden="true" tabindex="-1"></a>    lisa_step_interval<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-35"><a href="#cb4-35" aria-hidden="true" tabindex="-1"></a>    lisa_layers_attribute<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-36"><a href="#cb4-36" aria-hidden="true" tabindex="-1"></a>    curriculum_sampling<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-37"><a href="#cb4-37" aria-hidden="true" tabindex="-1"></a>    alternate_lr_scheduler_type<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-38"><a href="#cb4-38" aria-hidden="true" tabindex="-1"></a>    chat_template<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-39"><a href="#cb4-39" aria-hidden="true" tabindex="-1"></a>    kd_ce_alpha<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-40"><a href="#cb4-40" aria-hidden="true" tabindex="-1"></a>    kd_alpha<span class="op">=</span><span class="fl">1.0</span>,</span>
-<span id="cb4-41"><a href="#cb4-41" aria-hidden="true" tabindex="-1"></a>    kd_temperature<span class="op">=</span><span class="fl">1.0</span>,</span>
-<span id="cb4-42"><a href="#cb4-42" aria-hidden="true" tabindex="-1"></a>    kd_zscore_base_temp<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-43"><a href="#cb4-43" aria-hidden="true" tabindex="-1"></a>    kd_top_k_before_softmax<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-44"><a href="#cb4-44" aria-hidden="true" tabindex="-1"></a>    adam_beta3<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-45"><a href="#cb4-45" aria-hidden="true" tabindex="-1"></a>    adam_epsilon2<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-46"><a href="#cb4-46" aria-hidden="true" tabindex="-1"></a>    image_size<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-47"><a href="#cb4-47" aria-hidden="true" tabindex="-1"></a>    image_resize_algorithm<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb4-48"><a href="#cb4-48" aria-hidden="true" tabindex="-1"></a>)</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+<span id="cb4-13"><a href="#cb4-13" aria-hidden="true" tabindex="-1"></a>    dataset_num_proc<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-14"><a href="#cb4-14" aria-hidden="true" tabindex="-1"></a>    relora_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-15"><a href="#cb4-15" aria-hidden="true" tabindex="-1"></a>    relora_warmup_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-16"><a href="#cb4-16" aria-hidden="true" tabindex="-1"></a>    relora_anneal_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-17"><a href="#cb4-17" aria-hidden="true" tabindex="-1"></a>    relora_prune_ratio<span class="op">=</span><span class="fl">0.9</span>,</span>
+<span id="cb4-18"><a href="#cb4-18" aria-hidden="true" tabindex="-1"></a>    bench_split<span class="op">=</span><span class="st">'eval'</span>,</span>
+<span id="cb4-19"><a href="#cb4-19" aria-hidden="true" tabindex="-1"></a>    bench_dataset<span class="op">=</span><span class="st">'pharaouk/dharma-1/dharma_1_mini.json'</span>,</span>
+<span id="cb4-20"><a href="#cb4-20" aria-hidden="true" tabindex="-1"></a>    do_bench_eval<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb4-21"><a href="#cb4-21" aria-hidden="true" tabindex="-1"></a>    do_causal_lm_eval<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb4-22"><a href="#cb4-22" aria-hidden="true" tabindex="-1"></a>    max_bench_samples<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-23"><a href="#cb4-23" aria-hidden="true" tabindex="-1"></a>    bench_source_max_len<span class="op">=</span><span class="dv">2048</span>,</span>
+<span id="cb4-24"><a href="#cb4-24" aria-hidden="true" tabindex="-1"></a>    dataloader_prefetch_factor<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-25"><a href="#cb4-25" aria-hidden="true" tabindex="-1"></a>    cosine_min_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-26"><a href="#cb4-26" aria-hidden="true" tabindex="-1"></a>    cosine_constant_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-27"><a href="#cb4-27" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-28"><a href="#cb4-28" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_embedding<span class="op">=</span><span class="fl">1e-06</span>,</span>
+<span id="cb4-29"><a href="#cb4-29" aria-hidden="true" tabindex="-1"></a>    embedding_lr_scale<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-30"><a href="#cb4-30" aria-hidden="true" tabindex="-1"></a>    lr_groups<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-31"><a href="#cb4-31" aria-hidden="true" tabindex="-1"></a>    embedding_lr<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-32"><a href="#cb4-32" aria-hidden="true" tabindex="-1"></a>    qlora<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb4-33"><a href="#cb4-33" aria-hidden="true" tabindex="-1"></a>    orpo_alpha<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-34"><a href="#cb4-34" aria-hidden="true" tabindex="-1"></a>    lisa_n_layers<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-35"><a href="#cb4-35" aria-hidden="true" tabindex="-1"></a>    lisa_step_interval<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-36"><a href="#cb4-36" aria-hidden="true" tabindex="-1"></a>    lisa_layers_attribute<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-37"><a href="#cb4-37" aria-hidden="true" tabindex="-1"></a>    curriculum_sampling<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-38"><a href="#cb4-38" aria-hidden="true" tabindex="-1"></a>    alternate_lr_scheduler_type<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-39"><a href="#cb4-39" aria-hidden="true" tabindex="-1"></a>    chat_template<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-40"><a href="#cb4-40" aria-hidden="true" tabindex="-1"></a>    kd_ce_alpha<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-41"><a href="#cb4-41" aria-hidden="true" tabindex="-1"></a>    kd_alpha<span class="op">=</span><span class="fl">1.0</span>,</span>
+<span id="cb4-42"><a href="#cb4-42" aria-hidden="true" tabindex="-1"></a>    kd_temperature<span class="op">=</span><span class="fl">1.0</span>,</span>
+<span id="cb4-43"><a href="#cb4-43" aria-hidden="true" tabindex="-1"></a>    kd_zscore_base_temp<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-44"><a href="#cb4-44" aria-hidden="true" tabindex="-1"></a>    kd_top_k_before_softmax<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-45"><a href="#cb4-45" aria-hidden="true" tabindex="-1"></a>    adam_beta3<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-46"><a href="#cb4-46" aria-hidden="true" tabindex="-1"></a>    adam_epsilon2<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-47"><a href="#cb4-47" aria-hidden="true" tabindex="-1"></a>    image_size<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-48"><a href="#cb4-48" aria-hidden="true" tabindex="-1"></a>    image_resize_algorithm<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb4-49"><a href="#cb4-49" aria-hidden="true" tabindex="-1"></a>)</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
 <p>PRM config for PRM training</p>
 </section>
 <section id="axolotl.core.training_args.AxolotlRewardConfig" class="level3">
@@ -756,42 +760,43 @@ gtag('config', 'G-9KYCVJBNMQ', { 'anonymize_ip': true});
 <span id="cb5-10"><a href="#cb5-10" aria-hidden="true" tabindex="-1"></a>    sample_packing_bin_size<span class="op">=</span><span class="dv">200</span>,</span>
 <span id="cb5-11"><a href="#cb5-11" aria-hidden="true" tabindex="-1"></a>    sample_packing_group_size<span class="op">=</span><span class="dv">100000</span>,</span>
 <span id="cb5-12"><a href="#cb5-12" aria-hidden="true" tabindex="-1"></a>    max_seq_length<span class="op">=</span><span class="dv">2048</span>,</span>
-<span id="cb5-13"><a href="#cb5-13" aria-hidden="true" tabindex="-1"></a>    relora_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-14"><a href="#cb5-14" aria-hidden="true" tabindex="-1"></a>    relora_warmup_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-15"><a href="#cb5-15" aria-hidden="true" tabindex="-1"></a>    relora_anneal_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-16"><a href="#cb5-16" aria-hidden="true" tabindex="-1"></a>    relora_prune_ratio<span class="op">=</span><span class="fl">0.9</span>,</span>
-<span id="cb5-17"><a href="#cb5-17" aria-hidden="true" tabindex="-1"></a>    bench_split<span class="op">=</span><span class="st">'eval'</span>,</span>
-<span id="cb5-18"><a href="#cb5-18" aria-hidden="true" tabindex="-1"></a>    bench_dataset<span class="op">=</span><span class="st">'pharaouk/dharma-1/dharma_1_mini.json'</span>,</span>
-<span id="cb5-19"><a href="#cb5-19" aria-hidden="true" tabindex="-1"></a>    do_bench_eval<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb5-20"><a href="#cb5-20" aria-hidden="true" tabindex="-1"></a>    do_causal_lm_eval<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb5-21"><a href="#cb5-21" aria-hidden="true" tabindex="-1"></a>    max_bench_samples<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-22"><a href="#cb5-22" aria-hidden="true" tabindex="-1"></a>    bench_source_max_len<span class="op">=</span><span class="dv">2048</span>,</span>
-<span id="cb5-23"><a href="#cb5-23" aria-hidden="true" tabindex="-1"></a>    dataloader_prefetch_factor<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-24"><a href="#cb5-24" aria-hidden="true" tabindex="-1"></a>    cosine_min_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-25"><a href="#cb5-25" aria-hidden="true" tabindex="-1"></a>    cosine_constant_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-26"><a href="#cb5-26" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-27"><a href="#cb5-27" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_embedding<span class="op">=</span><span class="fl">1e-06</span>,</span>
-<span id="cb5-28"><a href="#cb5-28" aria-hidden="true" tabindex="-1"></a>    embedding_lr_scale<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-29"><a href="#cb5-29" aria-hidden="true" tabindex="-1"></a>    lr_groups<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-30"><a href="#cb5-30" aria-hidden="true" tabindex="-1"></a>    embedding_lr<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-31"><a href="#cb5-31" aria-hidden="true" tabindex="-1"></a>    qlora<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb5-32"><a href="#cb5-32" aria-hidden="true" tabindex="-1"></a>    orpo_alpha<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-33"><a href="#cb5-33" aria-hidden="true" tabindex="-1"></a>    lisa_n_layers<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-34"><a href="#cb5-34" aria-hidden="true" tabindex="-1"></a>    lisa_step_interval<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-35"><a href="#cb5-35" aria-hidden="true" tabindex="-1"></a>    lisa_layers_attribute<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-36"><a href="#cb5-36" aria-hidden="true" tabindex="-1"></a>    curriculum_sampling<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-37"><a href="#cb5-37" aria-hidden="true" tabindex="-1"></a>    alternate_lr_scheduler_type<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-38"><a href="#cb5-38" aria-hidden="true" tabindex="-1"></a>    chat_template<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-39"><a href="#cb5-39" aria-hidden="true" tabindex="-1"></a>    kd_ce_alpha<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-40"><a href="#cb5-40" aria-hidden="true" tabindex="-1"></a>    kd_alpha<span class="op">=</span><span class="fl">1.0</span>,</span>
-<span id="cb5-41"><a href="#cb5-41" aria-hidden="true" tabindex="-1"></a>    kd_temperature<span class="op">=</span><span class="fl">1.0</span>,</span>
-<span id="cb5-42"><a href="#cb5-42" aria-hidden="true" tabindex="-1"></a>    kd_zscore_base_temp<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-43"><a href="#cb5-43" aria-hidden="true" tabindex="-1"></a>    kd_top_k_before_softmax<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-44"><a href="#cb5-44" aria-hidden="true" tabindex="-1"></a>    adam_beta3<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-45"><a href="#cb5-45" aria-hidden="true" tabindex="-1"></a>    adam_epsilon2<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-46"><a href="#cb5-46" aria-hidden="true" tabindex="-1"></a>    image_size<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-47"><a href="#cb5-47" aria-hidden="true" tabindex="-1"></a>    image_resize_algorithm<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb5-48"><a href="#cb5-48" aria-hidden="true" tabindex="-1"></a>)</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+<span id="cb5-13"><a href="#cb5-13" aria-hidden="true" tabindex="-1"></a>    dataset_num_proc<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-14"><a href="#cb5-14" aria-hidden="true" tabindex="-1"></a>    relora_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-15"><a href="#cb5-15" aria-hidden="true" tabindex="-1"></a>    relora_warmup_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-16"><a href="#cb5-16" aria-hidden="true" tabindex="-1"></a>    relora_anneal_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-17"><a href="#cb5-17" aria-hidden="true" tabindex="-1"></a>    relora_prune_ratio<span class="op">=</span><span class="fl">0.9</span>,</span>
+<span id="cb5-18"><a href="#cb5-18" aria-hidden="true" tabindex="-1"></a>    bench_split<span class="op">=</span><span class="st">'eval'</span>,</span>
+<span id="cb5-19"><a href="#cb5-19" aria-hidden="true" tabindex="-1"></a>    bench_dataset<span class="op">=</span><span class="st">'pharaouk/dharma-1/dharma_1_mini.json'</span>,</span>
+<span id="cb5-20"><a href="#cb5-20" aria-hidden="true" tabindex="-1"></a>    do_bench_eval<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb5-21"><a href="#cb5-21" aria-hidden="true" tabindex="-1"></a>    do_causal_lm_eval<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb5-22"><a href="#cb5-22" aria-hidden="true" tabindex="-1"></a>    max_bench_samples<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-23"><a href="#cb5-23" aria-hidden="true" tabindex="-1"></a>    bench_source_max_len<span class="op">=</span><span class="dv">2048</span>,</span>
+<span id="cb5-24"><a href="#cb5-24" aria-hidden="true" tabindex="-1"></a>    dataloader_prefetch_factor<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-25"><a href="#cb5-25" aria-hidden="true" tabindex="-1"></a>    cosine_min_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-26"><a href="#cb5-26" aria-hidden="true" tabindex="-1"></a>    cosine_constant_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-27"><a href="#cb5-27" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-28"><a href="#cb5-28" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_embedding<span class="op">=</span><span class="fl">1e-06</span>,</span>
+<span id="cb5-29"><a href="#cb5-29" aria-hidden="true" tabindex="-1"></a>    embedding_lr_scale<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-30"><a href="#cb5-30" aria-hidden="true" tabindex="-1"></a>    lr_groups<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-31"><a href="#cb5-31" aria-hidden="true" tabindex="-1"></a>    embedding_lr<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-32"><a href="#cb5-32" aria-hidden="true" tabindex="-1"></a>    qlora<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb5-33"><a href="#cb5-33" aria-hidden="true" tabindex="-1"></a>    orpo_alpha<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-34"><a href="#cb5-34" aria-hidden="true" tabindex="-1"></a>    lisa_n_layers<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-35"><a href="#cb5-35" aria-hidden="true" tabindex="-1"></a>    lisa_step_interval<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-36"><a href="#cb5-36" aria-hidden="true" tabindex="-1"></a>    lisa_layers_attribute<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-37"><a href="#cb5-37" aria-hidden="true" tabindex="-1"></a>    curriculum_sampling<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-38"><a href="#cb5-38" aria-hidden="true" tabindex="-1"></a>    alternate_lr_scheduler_type<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-39"><a href="#cb5-39" aria-hidden="true" tabindex="-1"></a>    chat_template<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-40"><a href="#cb5-40" aria-hidden="true" tabindex="-1"></a>    kd_ce_alpha<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-41"><a href="#cb5-41" aria-hidden="true" tabindex="-1"></a>    kd_alpha<span class="op">=</span><span class="fl">1.0</span>,</span>
+<span id="cb5-42"><a href="#cb5-42" aria-hidden="true" tabindex="-1"></a>    kd_temperature<span class="op">=</span><span class="fl">1.0</span>,</span>
+<span id="cb5-43"><a href="#cb5-43" aria-hidden="true" tabindex="-1"></a>    kd_zscore_base_temp<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-44"><a href="#cb5-44" aria-hidden="true" tabindex="-1"></a>    kd_top_k_before_softmax<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-45"><a href="#cb5-45" aria-hidden="true" tabindex="-1"></a>    adam_beta3<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-46"><a href="#cb5-46" aria-hidden="true" tabindex="-1"></a>    adam_epsilon2<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-47"><a href="#cb5-47" aria-hidden="true" tabindex="-1"></a>    image_size<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-48"><a href="#cb5-48" aria-hidden="true" tabindex="-1"></a>    image_resize_algorithm<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb5-49"><a href="#cb5-49" aria-hidden="true" tabindex="-1"></a>)</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
 <p>Reward config for Reward training</p>
 </section>
 <section id="axolotl.core.training_args.AxolotlTrainingArguments" class="level3">
@@ -808,42 +813,43 @@ gtag('config', 'G-9KYCVJBNMQ', { 'anonymize_ip': true});
 <span id="cb6-10"><a href="#cb6-10" aria-hidden="true" tabindex="-1"></a>    sample_packing_bin_size<span class="op">=</span><span class="dv">200</span>,</span>
 <span id="cb6-11"><a href="#cb6-11" aria-hidden="true" tabindex="-1"></a>    sample_packing_group_size<span class="op">=</span><span class="dv">100000</span>,</span>
 <span id="cb6-12"><a href="#cb6-12" aria-hidden="true" tabindex="-1"></a>    max_seq_length<span class="op">=</span><span class="dv">2048</span>,</span>
-<span id="cb6-13"><a href="#cb6-13" aria-hidden="true" tabindex="-1"></a>    relora_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-14"><a href="#cb6-14" aria-hidden="true" tabindex="-1"></a>    relora_warmup_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-15"><a href="#cb6-15" aria-hidden="true" tabindex="-1"></a>    relora_anneal_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-16"><a href="#cb6-16" aria-hidden="true" tabindex="-1"></a>    relora_prune_ratio<span class="op">=</span><span class="fl">0.9</span>,</span>
-<span id="cb6-17"><a href="#cb6-17" aria-hidden="true" tabindex="-1"></a>    bench_split<span class="op">=</span><span class="st">'eval'</span>,</span>
-<span id="cb6-18"><a href="#cb6-18" aria-hidden="true" tabindex="-1"></a>    bench_dataset<span class="op">=</span><span class="st">'pharaouk/dharma-1/dharma_1_mini.json'</span>,</span>
-<span id="cb6-19"><a href="#cb6-19" aria-hidden="true" tabindex="-1"></a>    do_bench_eval<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb6-20"><a href="#cb6-20" aria-hidden="true" tabindex="-1"></a>    do_causal_lm_eval<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb6-21"><a href="#cb6-21" aria-hidden="true" tabindex="-1"></a>    max_bench_samples<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-22"><a href="#cb6-22" aria-hidden="true" tabindex="-1"></a>    bench_source_max_len<span class="op">=</span><span class="dv">2048</span>,</span>
-<span id="cb6-23"><a href="#cb6-23" aria-hidden="true" tabindex="-1"></a>    dataloader_prefetch_factor<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-24"><a href="#cb6-24" aria-hidden="true" tabindex="-1"></a>    cosine_min_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-25"><a href="#cb6-25" aria-hidden="true" tabindex="-1"></a>    cosine_constant_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-26"><a href="#cb6-26" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-27"><a href="#cb6-27" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_embedding<span class="op">=</span><span class="fl">1e-06</span>,</span>
-<span id="cb6-28"><a href="#cb6-28" aria-hidden="true" tabindex="-1"></a>    embedding_lr_scale<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-29"><a href="#cb6-29" aria-hidden="true" tabindex="-1"></a>    lr_groups<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-30"><a href="#cb6-30" aria-hidden="true" tabindex="-1"></a>    embedding_lr<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-31"><a href="#cb6-31" aria-hidden="true" tabindex="-1"></a>    qlora<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb6-32"><a href="#cb6-32" aria-hidden="true" tabindex="-1"></a>    orpo_alpha<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-33"><a href="#cb6-33" aria-hidden="true" tabindex="-1"></a>    lisa_n_layers<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-34"><a href="#cb6-34" aria-hidden="true" tabindex="-1"></a>    lisa_step_interval<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-35"><a href="#cb6-35" aria-hidden="true" tabindex="-1"></a>    lisa_layers_attribute<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-36"><a href="#cb6-36" aria-hidden="true" tabindex="-1"></a>    curriculum_sampling<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-37"><a href="#cb6-37" aria-hidden="true" tabindex="-1"></a>    alternate_lr_scheduler_type<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-38"><a href="#cb6-38" aria-hidden="true" tabindex="-1"></a>    chat_template<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-39"><a href="#cb6-39" aria-hidden="true" tabindex="-1"></a>    kd_ce_alpha<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-40"><a href="#cb6-40" aria-hidden="true" tabindex="-1"></a>    kd_alpha<span class="op">=</span><span class="fl">1.0</span>,</span>
-<span id="cb6-41"><a href="#cb6-41" aria-hidden="true" tabindex="-1"></a>    kd_temperature<span class="op">=</span><span class="fl">1.0</span>,</span>
-<span id="cb6-42"><a href="#cb6-42" aria-hidden="true" tabindex="-1"></a>    kd_zscore_base_temp<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-43"><a href="#cb6-43" aria-hidden="true" tabindex="-1"></a>    kd_top_k_before_softmax<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-44"><a href="#cb6-44" aria-hidden="true" tabindex="-1"></a>    adam_beta3<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-45"><a href="#cb6-45" aria-hidden="true" tabindex="-1"></a>    adam_epsilon2<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-46"><a href="#cb6-46" aria-hidden="true" tabindex="-1"></a>    image_size<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-47"><a href="#cb6-47" aria-hidden="true" tabindex="-1"></a>    image_resize_algorithm<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb6-48"><a href="#cb6-48" aria-hidden="true" tabindex="-1"></a>)</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+<span id="cb6-13"><a href="#cb6-13" aria-hidden="true" tabindex="-1"></a>    dataset_num_proc<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-14"><a href="#cb6-14" aria-hidden="true" tabindex="-1"></a>    relora_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-15"><a href="#cb6-15" aria-hidden="true" tabindex="-1"></a>    relora_warmup_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-16"><a href="#cb6-16" aria-hidden="true" tabindex="-1"></a>    relora_anneal_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-17"><a href="#cb6-17" aria-hidden="true" tabindex="-1"></a>    relora_prune_ratio<span class="op">=</span><span class="fl">0.9</span>,</span>
+<span id="cb6-18"><a href="#cb6-18" aria-hidden="true" tabindex="-1"></a>    bench_split<span class="op">=</span><span class="st">'eval'</span>,</span>
+<span id="cb6-19"><a href="#cb6-19" aria-hidden="true" tabindex="-1"></a>    bench_dataset<span class="op">=</span><span class="st">'pharaouk/dharma-1/dharma_1_mini.json'</span>,</span>
+<span id="cb6-20"><a href="#cb6-20" aria-hidden="true" tabindex="-1"></a>    do_bench_eval<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb6-21"><a href="#cb6-21" aria-hidden="true" tabindex="-1"></a>    do_causal_lm_eval<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb6-22"><a href="#cb6-22" aria-hidden="true" tabindex="-1"></a>    max_bench_samples<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-23"><a href="#cb6-23" aria-hidden="true" tabindex="-1"></a>    bench_source_max_len<span class="op">=</span><span class="dv">2048</span>,</span>
+<span id="cb6-24"><a href="#cb6-24" aria-hidden="true" tabindex="-1"></a>    dataloader_prefetch_factor<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-25"><a href="#cb6-25" aria-hidden="true" tabindex="-1"></a>    cosine_min_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-26"><a href="#cb6-26" aria-hidden="true" tabindex="-1"></a>    cosine_constant_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-27"><a href="#cb6-27" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-28"><a href="#cb6-28" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_embedding<span class="op">=</span><span class="fl">1e-06</span>,</span>
+<span id="cb6-29"><a href="#cb6-29" aria-hidden="true" tabindex="-1"></a>    embedding_lr_scale<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-30"><a href="#cb6-30" aria-hidden="true" tabindex="-1"></a>    lr_groups<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-31"><a href="#cb6-31" aria-hidden="true" tabindex="-1"></a>    embedding_lr<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-32"><a href="#cb6-32" aria-hidden="true" tabindex="-1"></a>    qlora<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb6-33"><a href="#cb6-33" aria-hidden="true" tabindex="-1"></a>    orpo_alpha<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-34"><a href="#cb6-34" aria-hidden="true" tabindex="-1"></a>    lisa_n_layers<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-35"><a href="#cb6-35" aria-hidden="true" tabindex="-1"></a>    lisa_step_interval<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-36"><a href="#cb6-36" aria-hidden="true" tabindex="-1"></a>    lisa_layers_attribute<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-37"><a href="#cb6-37" aria-hidden="true" tabindex="-1"></a>    curriculum_sampling<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-38"><a href="#cb6-38" aria-hidden="true" tabindex="-1"></a>    alternate_lr_scheduler_type<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-39"><a href="#cb6-39" aria-hidden="true" tabindex="-1"></a>    chat_template<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-40"><a href="#cb6-40" aria-hidden="true" tabindex="-1"></a>    kd_ce_alpha<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-41"><a href="#cb6-41" aria-hidden="true" tabindex="-1"></a>    kd_alpha<span class="op">=</span><span class="fl">1.0</span>,</span>
+<span id="cb6-42"><a href="#cb6-42" aria-hidden="true" tabindex="-1"></a>    kd_temperature<span class="op">=</span><span class="fl">1.0</span>,</span>
+<span id="cb6-43"><a href="#cb6-43" aria-hidden="true" tabindex="-1"></a>    kd_zscore_base_temp<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-44"><a href="#cb6-44" aria-hidden="true" tabindex="-1"></a>    kd_top_k_before_softmax<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-45"><a href="#cb6-45" aria-hidden="true" tabindex="-1"></a>    adam_beta3<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-46"><a href="#cb6-46" aria-hidden="true" tabindex="-1"></a>    adam_epsilon2<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-47"><a href="#cb6-47" aria-hidden="true" tabindex="-1"></a>    image_size<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-48"><a href="#cb6-48" aria-hidden="true" tabindex="-1"></a>    image_resize_algorithm<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb6-49"><a href="#cb6-49" aria-hidden="true" tabindex="-1"></a>)</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
 <p>Training arguments for Causal trainer</p>
 <p>This code is duplicated due to HF TrainingArguments not setting output_dir with a
 default value so it can’t be used as a mixin.</p>
@@ -862,42 +868,43 @@ default value so it can’t be used as a mixin.</p>
 <span id="cb7-10"><a href="#cb7-10" aria-hidden="true" tabindex="-1"></a>    sample_packing_bin_size<span class="op">=</span><span class="dv">200</span>,</span>
 <span id="cb7-11"><a href="#cb7-11" aria-hidden="true" tabindex="-1"></a>    sample_packing_group_size<span class="op">=</span><span class="dv">100000</span>,</span>
 <span id="cb7-12"><a href="#cb7-12" aria-hidden="true" tabindex="-1"></a>    max_seq_length<span class="op">=</span><span class="dv">2048</span>,</span>
-<span id="cb7-13"><a href="#cb7-13" aria-hidden="true" tabindex="-1"></a>    relora_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-14"><a href="#cb7-14" aria-hidden="true" tabindex="-1"></a>    relora_warmup_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-15"><a href="#cb7-15" aria-hidden="true" tabindex="-1"></a>    relora_anneal_steps<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-16"><a href="#cb7-16" aria-hidden="true" tabindex="-1"></a>    relora_prune_ratio<span class="op">=</span><span class="fl">0.9</span>,</span>
-<span id="cb7-17"><a href="#cb7-17" aria-hidden="true" tabindex="-1"></a>    bench_split<span class="op">=</span><span class="st">'eval'</span>,</span>
-<span id="cb7-18"><a href="#cb7-18" aria-hidden="true" tabindex="-1"></a>    bench_dataset<span class="op">=</span><span class="st">'pharaouk/dharma-1/dharma_1_mini.json'</span>,</span>
-<span id="cb7-19"><a href="#cb7-19" aria-hidden="true" tabindex="-1"></a>    do_bench_eval<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb7-20"><a href="#cb7-20" aria-hidden="true" tabindex="-1"></a>    do_causal_lm_eval<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb7-21"><a href="#cb7-21" aria-hidden="true" tabindex="-1"></a>    max_bench_samples<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-22"><a href="#cb7-22" aria-hidden="true" tabindex="-1"></a>    bench_source_max_len<span class="op">=</span><span class="dv">2048</span>,</span>
-<span id="cb7-23"><a href="#cb7-23" aria-hidden="true" tabindex="-1"></a>    dataloader_prefetch_factor<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-24"><a href="#cb7-24" aria-hidden="true" tabindex="-1"></a>    cosine_min_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-25"><a href="#cb7-25" aria-hidden="true" tabindex="-1"></a>    cosine_constant_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-26"><a href="#cb7-26" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-27"><a href="#cb7-27" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_embedding<span class="op">=</span><span class="fl">1e-06</span>,</span>
-<span id="cb7-28"><a href="#cb7-28" aria-hidden="true" tabindex="-1"></a>    embedding_lr_scale<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-29"><a href="#cb7-29" aria-hidden="true" tabindex="-1"></a>    lr_groups<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-30"><a href="#cb7-30" aria-hidden="true" tabindex="-1"></a>    embedding_lr<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-31"><a href="#cb7-31" aria-hidden="true" tabindex="-1"></a>    qlora<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb7-32"><a href="#cb7-32" aria-hidden="true" tabindex="-1"></a>    orpo_alpha<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-33"><a href="#cb7-33" aria-hidden="true" tabindex="-1"></a>    lisa_n_layers<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-34"><a href="#cb7-34" aria-hidden="true" tabindex="-1"></a>    lisa_step_interval<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-35"><a href="#cb7-35" aria-hidden="true" tabindex="-1"></a>    lisa_layers_attribute<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-36"><a href="#cb7-36" aria-hidden="true" tabindex="-1"></a>    curriculum_sampling<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-37"><a href="#cb7-37" aria-hidden="true" tabindex="-1"></a>    alternate_lr_scheduler_type<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-38"><a href="#cb7-38" aria-hidden="true" tabindex="-1"></a>    chat_template<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-39"><a href="#cb7-39" aria-hidden="true" tabindex="-1"></a>    kd_ce_alpha<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-40"><a href="#cb7-40" aria-hidden="true" tabindex="-1"></a>    kd_alpha<span class="op">=</span><span class="fl">1.0</span>,</span>
-<span id="cb7-41"><a href="#cb7-41" aria-hidden="true" tabindex="-1"></a>    kd_temperature<span class="op">=</span><span class="fl">1.0</span>,</span>
-<span id="cb7-42"><a href="#cb7-42" aria-hidden="true" tabindex="-1"></a>    kd_zscore_base_temp<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-43"><a href="#cb7-43" aria-hidden="true" tabindex="-1"></a>    kd_top_k_before_softmax<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-44"><a href="#cb7-44" aria-hidden="true" tabindex="-1"></a>    adam_beta3<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-45"><a href="#cb7-45" aria-hidden="true" tabindex="-1"></a>    adam_epsilon2<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-46"><a href="#cb7-46" aria-hidden="true" tabindex="-1"></a>    image_size<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-47"><a href="#cb7-47" aria-hidden="true" tabindex="-1"></a>    image_resize_algorithm<span class="op">=</span><span class="va">None</span>,</span>
-<span id="cb7-48"><a href="#cb7-48" aria-hidden="true" tabindex="-1"></a>)</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+<span id="cb7-13"><a href="#cb7-13" aria-hidden="true" tabindex="-1"></a>    dataset_num_proc<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-14"><a href="#cb7-14" aria-hidden="true" tabindex="-1"></a>    relora_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-15"><a href="#cb7-15" aria-hidden="true" tabindex="-1"></a>    relora_warmup_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-16"><a href="#cb7-16" aria-hidden="true" tabindex="-1"></a>    relora_anneal_steps<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-17"><a href="#cb7-17" aria-hidden="true" tabindex="-1"></a>    relora_prune_ratio<span class="op">=</span><span class="fl">0.9</span>,</span>
+<span id="cb7-18"><a href="#cb7-18" aria-hidden="true" tabindex="-1"></a>    bench_split<span class="op">=</span><span class="st">'eval'</span>,</span>
+<span id="cb7-19"><a href="#cb7-19" aria-hidden="true" tabindex="-1"></a>    bench_dataset<span class="op">=</span><span class="st">'pharaouk/dharma-1/dharma_1_mini.json'</span>,</span>
+<span id="cb7-20"><a href="#cb7-20" aria-hidden="true" tabindex="-1"></a>    do_bench_eval<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb7-21"><a href="#cb7-21" aria-hidden="true" tabindex="-1"></a>    do_causal_lm_eval<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb7-22"><a href="#cb7-22" aria-hidden="true" tabindex="-1"></a>    max_bench_samples<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-23"><a href="#cb7-23" aria-hidden="true" tabindex="-1"></a>    bench_source_max_len<span class="op">=</span><span class="dv">2048</span>,</span>
+<span id="cb7-24"><a href="#cb7-24" aria-hidden="true" tabindex="-1"></a>    dataloader_prefetch_factor<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-25"><a href="#cb7-25" aria-hidden="true" tabindex="-1"></a>    cosine_min_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-26"><a href="#cb7-26" aria-hidden="true" tabindex="-1"></a>    cosine_constant_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-27"><a href="#cb7-27" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_ratio<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-28"><a href="#cb7-28" aria-hidden="true" tabindex="-1"></a>    loraplus_lr_embedding<span class="op">=</span><span class="fl">1e-06</span>,</span>
+<span id="cb7-29"><a href="#cb7-29" aria-hidden="true" tabindex="-1"></a>    embedding_lr_scale<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-30"><a href="#cb7-30" aria-hidden="true" tabindex="-1"></a>    lr_groups<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-31"><a href="#cb7-31" aria-hidden="true" tabindex="-1"></a>    embedding_lr<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-32"><a href="#cb7-32" aria-hidden="true" tabindex="-1"></a>    qlora<span class="op">=</span><span class="va">False</span>,</span>
+<span id="cb7-33"><a href="#cb7-33" aria-hidden="true" tabindex="-1"></a>    orpo_alpha<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-34"><a href="#cb7-34" aria-hidden="true" tabindex="-1"></a>    lisa_n_layers<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-35"><a href="#cb7-35" aria-hidden="true" tabindex="-1"></a>    lisa_step_interval<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-36"><a href="#cb7-36" aria-hidden="true" tabindex="-1"></a>    lisa_layers_attribute<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-37"><a href="#cb7-37" aria-hidden="true" tabindex="-1"></a>    curriculum_sampling<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-38"><a href="#cb7-38" aria-hidden="true" tabindex="-1"></a>    alternate_lr_scheduler_type<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-39"><a href="#cb7-39" aria-hidden="true" tabindex="-1"></a>    chat_template<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-40"><a href="#cb7-40" aria-hidden="true" tabindex="-1"></a>    kd_ce_alpha<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-41"><a href="#cb7-41" aria-hidden="true" tabindex="-1"></a>    kd_alpha<span class="op">=</span><span class="fl">1.0</span>,</span>
+<span id="cb7-42"><a href="#cb7-42" aria-hidden="true" tabindex="-1"></a>    kd_temperature<span class="op">=</span><span class="fl">1.0</span>,</span>
+<span id="cb7-43"><a href="#cb7-43" aria-hidden="true" tabindex="-1"></a>    kd_zscore_base_temp<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-44"><a href="#cb7-44" aria-hidden="true" tabindex="-1"></a>    kd_top_k_before_softmax<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-45"><a href="#cb7-45" aria-hidden="true" tabindex="-1"></a>    adam_beta3<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-46"><a href="#cb7-46" aria-hidden="true" tabindex="-1"></a>    adam_epsilon2<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-47"><a href="#cb7-47" aria-hidden="true" tabindex="-1"></a>    image_size<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-48"><a href="#cb7-48" aria-hidden="true" tabindex="-1"></a>    image_resize_algorithm<span class="op">=</span><span class="va">None</span>,</span>
+<span id="cb7-49"><a href="#cb7-49" aria-hidden="true" tabindex="-1"></a>)</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
 <p>Mixin class for the Axolotl training args.</p>
 
 
diff --git a/docs/api/utils.samplers.multipack.html b/docs/api/utils.samplers.multipack.html
index 6d351ba0f..75a23093a 100644
--- a/docs/api/utils.samplers.multipack.html
+++ b/docs/api/utils.samplers.multipack.html
@@ -520,7 +520,7 @@ into fixed-capacity batches to optimize memory usage and training throughput.</p
 <span id="cb1-5"><a href="#cb1-5" aria-hidden="true" tabindex="-1"></a>    lengths,</span>
 <span id="cb1-6"><a href="#cb1-6" aria-hidden="true" tabindex="-1"></a>    packing_efficiency_estimate<span class="op">=</span><span class="fl">1.0</span>,</span>
 <span id="cb1-7"><a href="#cb1-7" aria-hidden="true" tabindex="-1"></a>    drop_last<span class="op">=</span><span class="va">False</span>,</span>
-<span id="cb1-8"><a href="#cb1-8" aria-hidden="true" tabindex="-1"></a>    num_count_samples<span class="op">=</span><span class="dv">16</span>,</span>
+<span id="cb1-8"><a href="#cb1-8" aria-hidden="true" tabindex="-1"></a>    num_count_samples<span class="op">=</span><span class="dv">8</span>,</span>
 <span id="cb1-9"><a href="#cb1-9" aria-hidden="true" tabindex="-1"></a>    sequential<span class="op">=</span><span class="va">False</span>,</span>
 <span id="cb1-10"><a href="#cb1-10" aria-hidden="true" tabindex="-1"></a>    group_size<span class="op">=</span><span class="dv">100000</span>,</span>
 <span id="cb1-11"><a href="#cb1-11" aria-hidden="true" tabindex="-1"></a>    bin_size<span class="op">=</span><span class="dv">200</span>,</span>
diff --git a/docs/qat.html b/docs/qat.html
index d94a67ed7..fff59d03e 100644
--- a/docs/qat.html
+++ b/docs/qat.html
@@ -512,7 +512,7 @@ and the QAT documentation in the <a href="https://github.com/pytorch/ao/tree/mai
 <span id="cb1-3"><a href="#cb1-3" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">weight_dtype</span><span class="kw">:</span><span class="co"> # Optional[str] = "int8". Fake quantization layout to use for weight quantization. Valid options are "int4" and "int8"</span></span>
 <span id="cb1-4"><a href="#cb1-4" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">group_size</span><span class="kw">:</span><span class="co"> # Optional[int] = 32. The number of elements in each group for per-group fake quantization</span></span>
 <span id="cb1-5"><a href="#cb1-5" aria-hidden="true" tabindex="-1"></a><span class="at">  </span><span class="fu">fake_quant_after_n_steps</span><span class="kw">:</span><span class="co"> # Optional[int] = None. The number of steps to apply fake quantization after</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
-<p>Once you have finished training, you must quantize your model by using the same quantization configuration which you used to train the model with. You can use the <a href="./quantize.md"><code>quantize</code> command</a> to do this.</p>
+<p>Once you have finished training, you must quantize your model by using the same quantization configuration which you used to train the model with. You can use the <a href="../docs/quantize.html"><code>quantize</code></a> command to do this.</p>
 
 
 </section>
diff --git a/index.html b/index.html
index abaab220a..d3bac7b26 100644
--- a/index.html
+++ b/index.html
@@ -467,16 +467,16 @@ gtag('config', 'G-9KYCVJBNMQ', { 'anonymize_ip': true});
     <h2 id="toc-title">On this page</h2>
    
   <ul>
-  <li><a href="#quick-start" id="toc-quick-start" class="nav-link active" data-scroll-target="#quick-start">🚀 Quick Start</a>
+  <li><a href="#latest-updates" id="toc-latest-updates" class="nav-link active" data-scroll-target="#latest-updates">🎉 Latest Updates</a></li>
+  <li><a href="#overview" id="toc-overview" class="nav-link" data-scroll-target="#overview">✨ Overview</a></li>
+  <li><a href="#quick-start" id="toc-quick-start" class="nav-link" data-scroll-target="#quick-start">🚀 Quick Start</a>
   <ul class="collapse">
   <li><a href="#installation" id="toc-installation" class="nav-link" data-scroll-target="#installation">Installation</a></li>
   <li><a href="#your-first-fine-tune" id="toc-your-first-fine-tune" class="nav-link" data-scroll-target="#your-first-fine-tune">Your First Fine-tune</a></li>
   </ul></li>
-  <li><a href="#key-features" id="toc-key-features" class="nav-link" data-scroll-target="#key-features">✨ Key Features</a></li>
   <li><a href="#documentation" id="toc-documentation" class="nav-link" data-scroll-target="#documentation">📚 Documentation</a></li>
   <li><a href="#getting-help" id="toc-getting-help" class="nav-link" data-scroll-target="#getting-help">🤝 Getting Help</a></li>
   <li><a href="#contributing" id="toc-contributing" class="nav-link" data-scroll-target="#contributing">🌟 Contributing</a></li>
-  <li><a href="#supported-models" id="toc-supported-models" class="nav-link" data-scroll-target="#supported-models">Supported Models</a></li>
   <li><a href="#sponsors" id="toc-sponsors" class="nav-link" data-scroll-target="#sponsors">❤️ Sponsors</a></li>
   <li><a href="#license" id="toc-license" class="nav-link" data-scroll-target="#license">📜 License</a></li>
   </ul>
@@ -510,27 +510,31 @@ gtag('config', 'G-9KYCVJBNMQ', { 'anonymize_ip': true});
 <img src="https://github.com/axolotl-ai-cloud/axolotl/actions/workflows/tests-nightly.yml/badge.svg" alt="tests-nightly">
 <img src="https://github.com/axolotl-ai-cloud/axolotl/actions/workflows/multi-gpu-e2e.yml/badge.svg" alt="multigpu-semi-weekly tests">
 </p>
-<p>Axolotl is a tool designed to streamline post-training for various AI models.
-Post-training refers to any modifications or additional training performed on
-pre-trained models - including full model fine-tuning, parameter-efficient tuning (like
-LoRA and QLoRA), supervised fine-tuning (SFT), instruction tuning, and alignment
-techniques. With support for multiple model architectures and training configurations,
-Axolotl makes it easy to get started with these techniques.</p>
-<p>Axolotl is designed to work with YAML config files that contain everything you need to
-preprocess a dataset, train or fine-tune a model, run model inference or evaluation,
-and much more.</p>
+<section id="latest-updates" class="level2">
+<h2 class="anchored" data-anchor-id="latest-updates">🎉 Latest Updates</h2>
+<ul>
+<li>2025/05: Quantization Aware Training (QAT) support has been added to Axolotl. Explore the <a href="https://docs.axolotl.ai/docs/qat.html">docs</a> to learn more!</li>
+<li>2025/04: Llama 4 support has been added in Axolotl. See <a href="https://github.com/axolotl-ai-cloud/axolotl/tree/main/examples/llama-4">examples</a> to start training your own Llama 4 models with Axolotl’s linearized version!</li>
+<li>2025/03: Axolotl has implemented Sequence Parallelism (SP) support. Read the <a href="https://huggingface.co/blog/axolotl-ai-co/long-context-with-sequence-parallelism-in-axolotl">blog</a> and <a href="https://docs.axolotl.ai/docs/sequence_parallelism.html">docs</a> to learn how to scale your context length when fine-tuning.</li>
+<li>2025/03: (Beta) Fine-tuning Multimodal models is now supported in Axolotl. Check out the <a href="https://docs.axolotl.ai/docs/multimodal.html">docs</a> to fine-tune your own!</li>
+<li>2025/02: Axolotl has added LoRA optimizations to reduce memory usage and improve training speed for LoRA and QLoRA in single GPU and multi-GPU training (DDP and DeepSpeed). Jump into the <a href="https://docs.axolotl.ai/docs/lora_optims.html">docs</a> to give it a try.</li>
+<li>2025/02: Axolotl has added GRPO support. Dive into our <a href="https://huggingface.co/blog/axolotl-ai-co/training-llms-w-interpreter-feedback-wasm">blog</a> and <a href="https://github.com/axolotl-ai-cloud/grpo_code">GRPO example</a> and have some fun!</li>
+<li>2025/01: Axolotl has added Reward Modelling / Process Reward Modelling fine-tuning support. See <a href="https://docs.axolotl.ai/docs/reward_modelling.html">docs</a>.</li>
+</ul>
+</section>
+<section id="overview" class="level2">
+<h2 class="anchored" data-anchor-id="overview">✨ Overview</h2>
+<p>Axolotl is a tool designed to streamline post-training for various AI models.</p>
 <p>Features:</p>
 <ul>
-<li>Train various Huggingface models such as llama, pythia, falcon, mpt</li>
-<li>Supports fullfinetune, lora, qlora, relora, and gptq</li>
-<li>Customize configurations using a simple yaml file or CLI overwrite</li>
-<li>Load different dataset formats, use custom formats, or bring your own tokenized datasets</li>
-<li>Integrated with <a href="https://github.com/facebookresearch/xformers">xformers</a>, flash attention, <a href="https://github.com/linkedin/Liger-Kernel">liger kernel</a>, rope scaling, and multipacking</li>
-<li>Works with single GPU or multiple GPUs via FSDP or Deepspeed</li>
-<li>Easily run with Docker locally or on the cloud</li>
-<li>Log results and optionally checkpoints to wandb, mlflow or Comet</li>
-<li>And more!</li>
+<li><strong>Multiple Model Support</strong>: Train various models like LLaMA, Mistral, Mixtral, Pythia, and more. We are compatible with HuggingFace transformers causal language models.</li>
+<li><strong>Training Methods</strong>: Full fine-tuning, LoRA, QLoRA, GPTQ, QAT, Preference Tuning (DPO, IPO, KTO, ORPO), RL (GRPO), Multimodal, and Reward Modelling (RM) / Process Reward Modelling (PRM).</li>
+<li><strong>Easy Configuration</strong>: Re-use a single YAML file between dataset preprocess, training, evaluation, quantization, and inference.</li>
+<li><strong>Performance Optimizations</strong>: <a href="https://docs.axolotl.ai/docs/multipack.html">Multipacking</a>, <a href="https://github.com/Dao-AILab/flash-attention">Flash Attention</a>, <a href="https://github.com/facebookresearch/xformers">Xformers</a>, <a href="https://pytorch.org/blog/flexattention/">Flex Attention</a>, <a href="https://github.com/linkedin/Liger-Kernel">Liger Kernel</a>, <a href="https://github.com/apple/ml-cross-entropy/tree/main">Cut Cross Entropy</a>, Sequence Parallelism (SP), LoRA optimizations, Multi-GPU training (FSDP1, FSDP2, DeepSpeed), Multi-node training (Torchrun, Ray), and many more!</li>
+<li><strong>Flexible Dataset Handling</strong>: Load from local, HuggingFace, and cloud (S3, Azure, GCP, OCI) datasets.</li>
+<li><strong>Cloud Ready</strong>: We ship <a href="https://hub.docker.com/u/axolotlai">Docker images</a> and also <a href="https://pypi.org/project/axolotl/">PyPI packages</a> for use on cloud platforms and local hardware.</li>
 </ul>
+</section>
 <section id="quick-start" class="level2">
 <h2 class="anchored" data-anchor-id="quick-start">🚀 Quick Start</h2>
 <p><strong>Requirements</strong>:</p>
@@ -562,22 +566,12 @@ and much more.</p>
 <p>That’s it! Check out our <a href="https://docs.axolotl.ai/docs/getting-started.html">Getting Started Guide</a> for a more detailed walkthrough.</p>
 </section>
 </section>
-<section id="key-features" class="level2">
-<h2 class="anchored" data-anchor-id="key-features">✨ Key Features</h2>
-<ul>
-<li><strong>Multiple Model Support</strong>: Train various models like LLaMA, Mistral, Mixtral, Pythia, and more</li>
-<li><strong>Training Methods</strong>: Full fine-tuning, LoRA, QLoRA, and more</li>
-<li><strong>Easy Configuration</strong>: Simple YAML files to control your training setup</li>
-<li><strong>Performance Optimizations</strong>: Flash Attention, xformers, multi-GPU training</li>
-<li><strong>Flexible Dataset Handling</strong>: Use various formats and custom datasets</li>
-<li><strong>Cloud Ready</strong>: Run on cloud platforms or local hardware</li>
-</ul>
-</section>
 <section id="documentation" class="level2">
 <h2 class="anchored" data-anchor-id="documentation">📚 Documentation</h2>
 <ul>
 <li><a href="https://docs.axolotl.ai/docs/installation.html">Installation Options</a> - Detailed setup instructions for different environments</li>
 <li><a href="https://docs.axolotl.ai/docs/config.html">Configuration Guide</a> - Full configuration options and examples</li>
+<li><a href="https://docs.axolotl.ai/docs/dataset_loading.html">Dataset Loading</a> - Loading datasets from various sources</li>
 <li><a href="https://docs.axolotl.ai/docs/dataset-formats/">Dataset Guide</a> - Supported formats and how to use them</li>
 <li><a href="https://docs.axolotl.ai/docs/multi-gpu.html">Multi-GPU Training</a></li>
 <li><a href="https://docs.axolotl.ai/docs/multi-node.html">Multi-Node Training</a></li>
@@ -599,198 +593,6 @@ and much more.</p>
 <h2 class="anchored" data-anchor-id="contributing">🌟 Contributing</h2>
 <p>Contributions are welcome! Please see our <a href="https://github.com/axolotl-ai-cloud/axolotl/blob/main/.github/CONTRIBUTING.md">Contributing Guide</a> for details.</p>
 </section>
-<section id="supported-models" class="level2">
-<h2 class="anchored" data-anchor-id="supported-models">Supported Models</h2>
-<table class="caption-top table">
-<colgroup>
-<col style="width: 14%">
-<col style="width: 12%">
-<col style="width: 6%">
-<col style="width: 7%">
-<col style="width: 6%">
-<col style="width: 21%">
-<col style="width: 13%">
-<col style="width: 15%">
-</colgroup>
-<thead>
-<tr class="header">
-<th></th>
-<th style="text-align: left;">fp16/fp32</th>
-<th style="text-align: left;">lora</th>
-<th>qlora</th>
-<th>gptq</th>
-<th>gptq w/flash attn</th>
-<th>flash attn</th>
-<th>xformers attn</th>
-</tr>
-</thead>
-<tbody>
-<tr class="odd">
-<td>llama</td>
-<td style="text-align: left;">✅</td>
-<td style="text-align: left;">✅</td>
-<td>✅</td>
-<td>✅</td>
-<td>✅</td>
-<td>✅</td>
-<td>✅</td>
-</tr>
-<tr class="even">
-<td>Mistral</td>
-<td style="text-align: left;">✅</td>
-<td style="text-align: left;">✅</td>
-<td>✅</td>
-<td>✅</td>
-<td>✅</td>
-<td>✅</td>
-<td>✅</td>
-</tr>
-<tr class="odd">
-<td>Mixtral-MoE</td>
-<td style="text-align: left;">✅</td>
-<td style="text-align: left;">✅</td>
-<td>✅</td>
-<td>❓</td>
-<td>❓</td>
-<td>❓</td>
-<td>❓</td>
-</tr>
-<tr class="even">
-<td>Mixtral8X22</td>
-<td style="text-align: left;">✅</td>
-<td style="text-align: left;">✅</td>
-<td>✅</td>
-<td>❓</td>
-<td>❓</td>
-<td>❓</td>
-<td>❓</td>
-</tr>
-<tr class="odd">
-<td>Pythia</td>
-<td style="text-align: left;">✅</td>
-<td style="text-align: left;">✅</td>
-<td>✅</td>
-<td>❌</td>
-<td>❌</td>
-<td>❌</td>
-<td>❓</td>
-</tr>
-<tr class="even">
-<td>cerebras</td>
-<td style="text-align: left;">✅</td>
-<td style="text-align: left;">✅</td>
-<td>✅</td>
-<td>❌</td>
-<td>❌</td>
-<td>❌</td>
-<td>❓</td>
-</tr>
-<tr class="odd">
-<td>btlm</td>
-<td style="text-align: left;">✅</td>
-<td style="text-align: left;">✅</td>
-<td>✅</td>
-<td>❌</td>
-<td>❌</td>
-<td>❌</td>
-<td>❓</td>
-</tr>
-<tr class="even">
-<td>mpt</td>
-<td style="text-align: left;">✅</td>
-<td style="text-align: left;">❌</td>
-<td>❓</td>
-<td>❌</td>
-<td>❌</td>
-<td>❌</td>
-<td>❓</td>
-</tr>
-<tr class="odd">
-<td>falcon</td>
-<td style="text-align: left;">✅</td>
-<td style="text-align: left;">✅</td>
-<td>✅</td>
-<td>❌</td>
-<td>❌</td>
-<td>❌</td>
-<td>❓</td>
-</tr>
-<tr class="even">
-<td>gpt-j</td>
-<td style="text-align: left;">✅</td>
-<td style="text-align: left;">✅</td>
-<td>✅</td>
-<td>❌</td>
-<td>❌</td>
-<td>❓</td>
-<td>❓</td>
-</tr>
-<tr class="odd">
-<td>XGen</td>
-<td style="text-align: left;">✅</td>
-<td style="text-align: left;">❓</td>
-<td>✅</td>
-<td>❓</td>
-<td>❓</td>
-<td>❓</td>
-<td>✅</td>
-</tr>
-<tr class="even">
-<td>phi</td>
-<td style="text-align: left;">✅</td>
-<td style="text-align: left;">✅</td>
-<td>✅</td>
-<td>❓</td>
-<td>❓</td>
-<td>❓</td>
-<td>❓</td>
-</tr>
-<tr class="odd">
-<td>RWKV</td>
-<td style="text-align: left;">✅</td>
-<td style="text-align: left;">❓</td>
-<td>❓</td>
-<td>❓</td>
-<td>❓</td>
-<td>❓</td>
-<td>❓</td>
-</tr>
-<tr class="even">
-<td>Qwen</td>
-<td style="text-align: left;">✅</td>
-<td style="text-align: left;">✅</td>
-<td>✅</td>
-<td>❓</td>
-<td>❓</td>
-<td>❓</td>
-<td>❓</td>
-</tr>
-<tr class="odd">
-<td>Gemma</td>
-<td style="text-align: left;">✅</td>
-<td style="text-align: left;">✅</td>
-<td>✅</td>
-<td>❓</td>
-<td>❓</td>
-<td>✅</td>
-<td>❓</td>
-</tr>
-<tr class="even">
-<td>Jamba</td>
-<td style="text-align: left;">✅</td>
-<td style="text-align: left;">✅</td>
-<td>✅</td>
-<td>❓</td>
-<td>❓</td>
-<td>✅</td>
-<td>❓</td>
-</tr>
-</tbody>
-</table>
-<p>✅: supported
-❌: not supported
-❓: untested</p>
-</section>
 <section id="sponsors" class="level2">
 <h2 class="anchored" data-anchor-id="sponsors">❤️ Sponsors</h2>
 <p>Thank you to our sponsors who help make Axolotl possible:</p>
diff --git a/search.json b/search.json
index 41e427623..53e98255f 100644
--- a/search.json
+++ b/search.json
@@ -644,14 +644,14 @@
     "href": "docs/api/core.training_args.html",
     "title": "core.training_args",
     "section": "",
-    "text": "core.training_args\nextra axolotl specific training args\n\n\n\n\n\nName\nDescription\n\n\n\n\nAxolotlCPOConfig\nCPO config for CPO training\n\n\nAxolotlKTOConfig\nKTO config for KTO training\n\n\nAxolotlORPOConfig\nORPO config for ORPO training\n\n\nAxolotlPRMConfig\nPRM config for PRM training\n\n\nAxolotlRewardConfig\nReward config for Reward training\n\n\nAxolotlTrainingArguments\nTraining arguments for Causal trainer\n\n\nAxolotlTrainingMixins\nMixin class for the Axolotl training args.\n\n\n\n\n\ncore.training_args.AxolotlCPOConfig(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n    simpo_gamma=None,\n)\nCPO config for CPO training\n\n\n\ncore.training_args.AxolotlKTOConfig(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nKTO config for KTO training\n\n\n\ncore.training_args.AxolotlORPOConfig(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nORPO config for ORPO training\n\n\n\ncore.training_args.AxolotlPRMConfig(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nPRM config for PRM training\n\n\n\ncore.training_args.AxolotlRewardConfig(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nReward config for Reward training\n\n\n\ncore.training_args.AxolotlTrainingArguments(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nTraining arguments for Causal trainer\nThis code is duplicated due to HF TrainingArguments not setting output_dir with a\ndefault value so it can’t be used as a mixin.\n\n\n\ncore.training_args.AxolotlTrainingMixins(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nMixin class for the Axolotl training args."
+    "text": "core.training_args\nextra axolotl specific training args\n\n\n\n\n\nName\nDescription\n\n\n\n\nAxolotlCPOConfig\nCPO config for CPO training\n\n\nAxolotlKTOConfig\nKTO config for KTO training\n\n\nAxolotlORPOConfig\nORPO config for ORPO training\n\n\nAxolotlPRMConfig\nPRM config for PRM training\n\n\nAxolotlRewardConfig\nReward config for Reward training\n\n\nAxolotlTrainingArguments\nTraining arguments for Causal trainer\n\n\nAxolotlTrainingMixins\nMixin class for the Axolotl training args.\n\n\n\n\n\ncore.training_args.AxolotlCPOConfig(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    dataset_num_proc=None,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n    simpo_gamma=None,\n)\nCPO config for CPO training\n\n\n\ncore.training_args.AxolotlKTOConfig(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    dataset_num_proc=None,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nKTO config for KTO training\n\n\n\ncore.training_args.AxolotlORPOConfig(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    dataset_num_proc=None,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nORPO config for ORPO training\n\n\n\ncore.training_args.AxolotlPRMConfig(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    dataset_num_proc=None,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nPRM config for PRM training\n\n\n\ncore.training_args.AxolotlRewardConfig(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    dataset_num_proc=None,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nReward config for Reward training\n\n\n\ncore.training_args.AxolotlTrainingArguments(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    dataset_num_proc=None,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nTraining arguments for Causal trainer\nThis code is duplicated due to HF TrainingArguments not setting output_dir with a\ndefault value so it can’t be used as a mixin.\n\n\n\ncore.training_args.AxolotlTrainingMixins(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    dataset_num_proc=None,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nMixin class for the Axolotl training args."
   },
   {
     "objectID": "docs/api/core.training_args.html#classes",
     "href": "docs/api/core.training_args.html#classes",
     "title": "core.training_args",
     "section": "",
-    "text": "Name\nDescription\n\n\n\n\nAxolotlCPOConfig\nCPO config for CPO training\n\n\nAxolotlKTOConfig\nKTO config for KTO training\n\n\nAxolotlORPOConfig\nORPO config for ORPO training\n\n\nAxolotlPRMConfig\nPRM config for PRM training\n\n\nAxolotlRewardConfig\nReward config for Reward training\n\n\nAxolotlTrainingArguments\nTraining arguments for Causal trainer\n\n\nAxolotlTrainingMixins\nMixin class for the Axolotl training args.\n\n\n\n\n\ncore.training_args.AxolotlCPOConfig(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n    simpo_gamma=None,\n)\nCPO config for CPO training\n\n\n\ncore.training_args.AxolotlKTOConfig(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nKTO config for KTO training\n\n\n\ncore.training_args.AxolotlORPOConfig(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nORPO config for ORPO training\n\n\n\ncore.training_args.AxolotlPRMConfig(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nPRM config for PRM training\n\n\n\ncore.training_args.AxolotlRewardConfig(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nReward config for Reward training\n\n\n\ncore.training_args.AxolotlTrainingArguments(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nTraining arguments for Causal trainer\nThis code is duplicated due to HF TrainingArguments not setting output_dir with a\ndefault value so it can’t be used as a mixin.\n\n\n\ncore.training_args.AxolotlTrainingMixins(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nMixin class for the Axolotl training args."
+    "text": "Name\nDescription\n\n\n\n\nAxolotlCPOConfig\nCPO config for CPO training\n\n\nAxolotlKTOConfig\nKTO config for KTO training\n\n\nAxolotlORPOConfig\nORPO config for ORPO training\n\n\nAxolotlPRMConfig\nPRM config for PRM training\n\n\nAxolotlRewardConfig\nReward config for Reward training\n\n\nAxolotlTrainingArguments\nTraining arguments for Causal trainer\n\n\nAxolotlTrainingMixins\nMixin class for the Axolotl training args.\n\n\n\n\n\ncore.training_args.AxolotlCPOConfig(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    dataset_num_proc=None,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n    simpo_gamma=None,\n)\nCPO config for CPO training\n\n\n\ncore.training_args.AxolotlKTOConfig(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    dataset_num_proc=None,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nKTO config for KTO training\n\n\n\ncore.training_args.AxolotlORPOConfig(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    dataset_num_proc=None,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nORPO config for ORPO training\n\n\n\ncore.training_args.AxolotlPRMConfig(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    dataset_num_proc=None,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nPRM config for PRM training\n\n\n\ncore.training_args.AxolotlRewardConfig(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    dataset_num_proc=None,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nReward config for Reward training\n\n\n\ncore.training_args.AxolotlTrainingArguments(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    dataset_num_proc=None,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nTraining arguments for Causal trainer\nThis code is duplicated due to HF TrainingArguments not setting output_dir with a\ndefault value so it can’t be used as a mixin.\n\n\n\ncore.training_args.AxolotlTrainingMixins(\n    model_type=None,\n    lr_quadratic_warmup=False,\n    pretraining=False,\n    sample_packing=False,\n    sample_packing_sequentially=False,\n    multipack_real_batches=False,\n    eval_sample_packing=None,\n    sample_packing_efficiency=1.0,\n    sample_packing_bin_size=200,\n    sample_packing_group_size=100000,\n    max_seq_length=2048,\n    dataset_num_proc=None,\n    relora_steps=None,\n    relora_warmup_steps=None,\n    relora_anneal_steps=None,\n    relora_prune_ratio=0.9,\n    bench_split='eval',\n    bench_dataset='pharaouk/dharma-1/dharma_1_mini.json',\n    do_bench_eval=False,\n    do_causal_lm_eval=False,\n    max_bench_samples=None,\n    bench_source_max_len=2048,\n    dataloader_prefetch_factor=None,\n    cosine_min_lr_ratio=None,\n    cosine_constant_lr_ratio=None,\n    loraplus_lr_ratio=None,\n    loraplus_lr_embedding=1e-06,\n    embedding_lr_scale=None,\n    lr_groups=None,\n    embedding_lr=None,\n    qlora=False,\n    orpo_alpha=None,\n    lisa_n_layers=None,\n    lisa_step_interval=None,\n    lisa_layers_attribute=None,\n    curriculum_sampling=None,\n    alternate_lr_scheduler_type=None,\n    chat_template=None,\n    kd_ce_alpha=None,\n    kd_alpha=1.0,\n    kd_temperature=1.0,\n    kd_zscore_base_temp=None,\n    kd_top_k_before_softmax=None,\n    adam_beta3=None,\n    adam_epsilon2=None,\n    image_size=None,\n    image_resize_algorithm=None,\n)\nMixin class for the Axolotl training args."
   },
   {
     "objectID": "docs/api/prompt_strategies.user_defined.html",
@@ -1127,14 +1127,14 @@
     "href": "docs/api/utils.samplers.multipack.html",
     "title": "utils.samplers.multipack",
     "section": "",
-    "text": "utils.samplers.multipack\nMultipack Batch Sampler - An efficient batch sampler for packing variable-length sequences\ninto fixed-capacity batches to optimize memory usage and training throughput.\n\n\n\n\n\nName\nDescription\n\n\n\n\nMultipackBatchSampler\nBatch sampler class for efficient packing of variable-length sequences\n\n\n\n\n\nutils.samplers.multipack.MultipackBatchSampler(\n    sampler,\n    batch_size,\n    batch_max_len,\n    lengths,\n    packing_efficiency_estimate=1.0,\n    drop_last=False,\n    num_count_samples=16,\n    sequential=False,\n    group_size=100000,\n    bin_size=200,\n    num_processes=None,\n    safe_mode=True,\n    **kwargs,\n)\nBatch sampler class for efficient packing of variable-length sequences\nThis sampler packs sequences into fixed-capacity bins (batches) to maximize\nGPU memory utilization and training throughput by reducing padding.\nIt supports both parallel packing (using FFD algorithm) and\nsequential packing (preserving original sequence order).\n\n\n\n\n\nName\nDescription\n\n\n\n\nefficiency\nCalculate the packing efficiency (ratio of tokens used to total token slots).\n\n\ngather_efficiency\nGather and synchronize packing efficiency estimates across all distributed\n\n\ngather_len_batches\nGather and synchronize batch counts across all distributed ranks. Returns\n\n\ngenerate_batches\nGenerate packed batches for training.\n\n\nset_epoch\nSet the epoch number, used for reproducible shuffling across epochs\n\n\n\n\n\nutils.samplers.multipack.MultipackBatchSampler.efficiency()\nCalculate the packing efficiency (ratio of tokens used to total token slots).\nHigher is better - 1.0 would mean perfect packing with no wasted space.\n\n\n\nutils.samplers.multipack.MultipackBatchSampler.gather_efficiency()\nGather and synchronize packing efficiency estimates across all distributed\nranks.\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\n\n\n\n\n\nfloat\nA conservative efficiency estimate based on the measurements.\n\n\n\n\n\n\n\nutils.samplers.multipack.MultipackBatchSampler.gather_len_batches(num)\nGather and synchronize batch counts across all distributed ranks. Returns\nthe minimum number of batches available on any rank.\n\n\n\nutils.samplers.multipack.MultipackBatchSampler.generate_batches(set_stats=False)\nGenerate packed batches for training.\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\nDefault\n\n\n\n\nset_stats\nbool\nWhether to update efficiency statistics.\nFalse\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\n\n\n\n\n\nlist[list[list[int]]]\nList of batches, where each batch contains multiple bins, and each bin contains multiple sequence indices.\n\n\n\n\n\n\n\nutils.samplers.multipack.MultipackBatchSampler.set_epoch(epoch)\nSet the epoch number, used for reproducible shuffling across epochs\n\n\n\n\n\n\n\n\n\nName\nDescription\n\n\n\n\nallocate_sequentially\nSequential allocator that preserves example order.\n\n\nffd_check\nFirst-fit-decreasing bin packing algorithm check.\n\n\npack_group\nPack a group of sequences into bins using First-Fit Decreasing algorithm.\n\n\npack_parallel\nPack sequences into bins using parallel processing.\n\n\n\n\n\nutils.samplers.multipack.allocate_sequentially(\n    sequence_lengths,\n    rank,\n    bin_capacity,\n    num_ranks,\n)\nSequential allocator that preserves example order.\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\nDefault\n\n\n\n\nsequence_lengths\nnp.ndarray\nThe lengths of all examples.\nrequired\n\n\nrank\nint\nThe current rank (for distributed training).\nrequired\n\n\nbin_capacity\nint\nThe capacity of each bin (maximum sequence length).\nrequired\n\n\nnum_ranks\nint\nNumber of ranks (processes / GPUs).\nrequired\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\n\n\n\n\nrank_batches\nlist[list[int]]\nList of batches for the current rank.\n\n\ntotal_tokens_used\nint\nNumber of actual example tokens.\n\n\ntotal_token_slots\nint\nMaximum theoretical number of example tokens (number of bins * bin capacity).\n\n\n\n\n\n\n\nutils.samplers.multipack.ffd_check(sequence_lengths, bin_capacity, num_bins)\nFirst-fit-decreasing bin packing algorithm check.\nChecks if sequences with the given lengths could fit in the specified number of\nbins.\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\nDefault\n\n\n\n\nsequence_lengths\nnp.ndarray\nArray of sequence lengths.\nrequired\n\n\nbin_capacity\nint\nMaximum capacity of each bin.\nrequired\n\n\nnum_bins\nint\nNumber of bins available.\nrequired\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\n\n\n\n\n\nbool\nTrue if all sequences can be packed, False otherwise.\n\n\n\n\n\n\n\nutils.samplers.multipack.pack_group(\n    sequence_lengths,\n    group_offset,\n    bin_capacity,\n    max_bins,\n    bin_size,\n    safe_mode=True,\n)\nPack a group of sequences into bins using First-Fit Decreasing algorithm.\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\nDefault\n\n\n\n\nsequence_lengths\nnp.ndarray\nArray of sequence lengths.\nrequired\n\n\ngroup_offset\nint\nOffset to apply to indices when returning results.\nrequired\n\n\nbin_capacity\nint\nMaximum capacity of each bin.\nrequired\n\n\nmax_bins\nint\nMaximum number of bins to use.\nrequired\n\n\nbin_size\nint\nMaximum number of sequences per bin.\nrequired\n\n\nsafe_mode\nbool\nIf True, use a more conservative packing approach.\nTrue\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\n\n\n\n\n\nlist[list[int]]\nList of bins, where each bin contains indices of sequences assigned to it.\n\n\n\n\n\n\n\nutils.samplers.multipack.pack_parallel(\n    sequence_lengths,\n    bin_capacity,\n    group_size,\n    bin_size,\n    num_processes=None,\n    safe_mode=True,\n    mp_start_method='spawn',\n)\nPack sequences into bins using parallel processing.\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\nDefault\n\n\n\n\nsequence_lengths\nnp.ndarray\nArray of sequence lengths.\nrequired\n\n\nbin_capacity\nint\nMaximum capacity of each bin as total number of tokens.\nrequired\n\n\ngroup_size\nint\nNumber of sequences to process in each group.\nrequired\n\n\nbin_size\nint\nMaximum number of bins to use.\nrequired\n\n\nnum_processes\nint | None\nNumber of parallel processes to use.\nNone\n\n\nsafe_mode\nbool\nIf True, use a more conservative packing approach.\nTrue\n\n\nmp_start_method\nstr | None\nMultiprocessing start method (‘fork’, ‘spawn’, ‘forkserver’). ‘spawn’ is often safer with Numba/PyTorch. Set to None to use system default.\n'spawn'\n\n\n\nReturns:\nList of bins, where each bin contains indices of sequences assigned to it."
+    "text": "utils.samplers.multipack\nMultipack Batch Sampler - An efficient batch sampler for packing variable-length sequences\ninto fixed-capacity batches to optimize memory usage and training throughput.\n\n\n\n\n\nName\nDescription\n\n\n\n\nMultipackBatchSampler\nBatch sampler class for efficient packing of variable-length sequences\n\n\n\n\n\nutils.samplers.multipack.MultipackBatchSampler(\n    sampler,\n    batch_size,\n    batch_max_len,\n    lengths,\n    packing_efficiency_estimate=1.0,\n    drop_last=False,\n    num_count_samples=8,\n    sequential=False,\n    group_size=100000,\n    bin_size=200,\n    num_processes=None,\n    safe_mode=True,\n    **kwargs,\n)\nBatch sampler class for efficient packing of variable-length sequences\nThis sampler packs sequences into fixed-capacity bins (batches) to maximize\nGPU memory utilization and training throughput by reducing padding.\nIt supports both parallel packing (using FFD algorithm) and\nsequential packing (preserving original sequence order).\n\n\n\n\n\nName\nDescription\n\n\n\n\nefficiency\nCalculate the packing efficiency (ratio of tokens used to total token slots).\n\n\ngather_efficiency\nGather and synchronize packing efficiency estimates across all distributed\n\n\ngather_len_batches\nGather and synchronize batch counts across all distributed ranks. Returns\n\n\ngenerate_batches\nGenerate packed batches for training.\n\n\nset_epoch\nSet the epoch number, used for reproducible shuffling across epochs\n\n\n\n\n\nutils.samplers.multipack.MultipackBatchSampler.efficiency()\nCalculate the packing efficiency (ratio of tokens used to total token slots).\nHigher is better - 1.0 would mean perfect packing with no wasted space.\n\n\n\nutils.samplers.multipack.MultipackBatchSampler.gather_efficiency()\nGather and synchronize packing efficiency estimates across all distributed\nranks.\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\n\n\n\n\n\nfloat\nA conservative efficiency estimate based on the measurements.\n\n\n\n\n\n\n\nutils.samplers.multipack.MultipackBatchSampler.gather_len_batches(num)\nGather and synchronize batch counts across all distributed ranks. Returns\nthe minimum number of batches available on any rank.\n\n\n\nutils.samplers.multipack.MultipackBatchSampler.generate_batches(set_stats=False)\nGenerate packed batches for training.\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\nDefault\n\n\n\n\nset_stats\nbool\nWhether to update efficiency statistics.\nFalse\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\n\n\n\n\n\nlist[list[list[int]]]\nList of batches, where each batch contains multiple bins, and each bin contains multiple sequence indices.\n\n\n\n\n\n\n\nutils.samplers.multipack.MultipackBatchSampler.set_epoch(epoch)\nSet the epoch number, used for reproducible shuffling across epochs\n\n\n\n\n\n\n\n\n\nName\nDescription\n\n\n\n\nallocate_sequentially\nSequential allocator that preserves example order.\n\n\nffd_check\nFirst-fit-decreasing bin packing algorithm check.\n\n\npack_group\nPack a group of sequences into bins using First-Fit Decreasing algorithm.\n\n\npack_parallel\nPack sequences into bins using parallel processing.\n\n\n\n\n\nutils.samplers.multipack.allocate_sequentially(\n    sequence_lengths,\n    rank,\n    bin_capacity,\n    num_ranks,\n)\nSequential allocator that preserves example order.\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\nDefault\n\n\n\n\nsequence_lengths\nnp.ndarray\nThe lengths of all examples.\nrequired\n\n\nrank\nint\nThe current rank (for distributed training).\nrequired\n\n\nbin_capacity\nint\nThe capacity of each bin (maximum sequence length).\nrequired\n\n\nnum_ranks\nint\nNumber of ranks (processes / GPUs).\nrequired\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\n\n\n\n\nrank_batches\nlist[list[int]]\nList of batches for the current rank.\n\n\ntotal_tokens_used\nint\nNumber of actual example tokens.\n\n\ntotal_token_slots\nint\nMaximum theoretical number of example tokens (number of bins * bin capacity).\n\n\n\n\n\n\n\nutils.samplers.multipack.ffd_check(sequence_lengths, bin_capacity, num_bins)\nFirst-fit-decreasing bin packing algorithm check.\nChecks if sequences with the given lengths could fit in the specified number of\nbins.\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\nDefault\n\n\n\n\nsequence_lengths\nnp.ndarray\nArray of sequence lengths.\nrequired\n\n\nbin_capacity\nint\nMaximum capacity of each bin.\nrequired\n\n\nnum_bins\nint\nNumber of bins available.\nrequired\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\n\n\n\n\n\nbool\nTrue if all sequences can be packed, False otherwise.\n\n\n\n\n\n\n\nutils.samplers.multipack.pack_group(\n    sequence_lengths,\n    group_offset,\n    bin_capacity,\n    max_bins,\n    bin_size,\n    safe_mode=True,\n)\nPack a group of sequences into bins using First-Fit Decreasing algorithm.\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\nDefault\n\n\n\n\nsequence_lengths\nnp.ndarray\nArray of sequence lengths.\nrequired\n\n\ngroup_offset\nint\nOffset to apply to indices when returning results.\nrequired\n\n\nbin_capacity\nint\nMaximum capacity of each bin.\nrequired\n\n\nmax_bins\nint\nMaximum number of bins to use.\nrequired\n\n\nbin_size\nint\nMaximum number of sequences per bin.\nrequired\n\n\nsafe_mode\nbool\nIf True, use a more conservative packing approach.\nTrue\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\n\n\n\n\n\nlist[list[int]]\nList of bins, where each bin contains indices of sequences assigned to it.\n\n\n\n\n\n\n\nutils.samplers.multipack.pack_parallel(\n    sequence_lengths,\n    bin_capacity,\n    group_size,\n    bin_size,\n    num_processes=None,\n    safe_mode=True,\n    mp_start_method='spawn',\n)\nPack sequences into bins using parallel processing.\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\nDefault\n\n\n\n\nsequence_lengths\nnp.ndarray\nArray of sequence lengths.\nrequired\n\n\nbin_capacity\nint\nMaximum capacity of each bin as total number of tokens.\nrequired\n\n\ngroup_size\nint\nNumber of sequences to process in each group.\nrequired\n\n\nbin_size\nint\nMaximum number of bins to use.\nrequired\n\n\nnum_processes\nint | None\nNumber of parallel processes to use.\nNone\n\n\nsafe_mode\nbool\nIf True, use a more conservative packing approach.\nTrue\n\n\nmp_start_method\nstr | None\nMultiprocessing start method (‘fork’, ‘spawn’, ‘forkserver’). ‘spawn’ is often safer with Numba/PyTorch. Set to None to use system default.\n'spawn'\n\n\n\nReturns:\nList of bins, where each bin contains indices of sequences assigned to it."
   },
   {
     "objectID": "docs/api/utils.samplers.multipack.html#classes",
     "href": "docs/api/utils.samplers.multipack.html#classes",
     "title": "utils.samplers.multipack",
     "section": "",
-    "text": "Name\nDescription\n\n\n\n\nMultipackBatchSampler\nBatch sampler class for efficient packing of variable-length sequences\n\n\n\n\n\nutils.samplers.multipack.MultipackBatchSampler(\n    sampler,\n    batch_size,\n    batch_max_len,\n    lengths,\n    packing_efficiency_estimate=1.0,\n    drop_last=False,\n    num_count_samples=16,\n    sequential=False,\n    group_size=100000,\n    bin_size=200,\n    num_processes=None,\n    safe_mode=True,\n    **kwargs,\n)\nBatch sampler class for efficient packing of variable-length sequences\nThis sampler packs sequences into fixed-capacity bins (batches) to maximize\nGPU memory utilization and training throughput by reducing padding.\nIt supports both parallel packing (using FFD algorithm) and\nsequential packing (preserving original sequence order).\n\n\n\n\n\nName\nDescription\n\n\n\n\nefficiency\nCalculate the packing efficiency (ratio of tokens used to total token slots).\n\n\ngather_efficiency\nGather and synchronize packing efficiency estimates across all distributed\n\n\ngather_len_batches\nGather and synchronize batch counts across all distributed ranks. Returns\n\n\ngenerate_batches\nGenerate packed batches for training.\n\n\nset_epoch\nSet the epoch number, used for reproducible shuffling across epochs\n\n\n\n\n\nutils.samplers.multipack.MultipackBatchSampler.efficiency()\nCalculate the packing efficiency (ratio of tokens used to total token slots).\nHigher is better - 1.0 would mean perfect packing with no wasted space.\n\n\n\nutils.samplers.multipack.MultipackBatchSampler.gather_efficiency()\nGather and synchronize packing efficiency estimates across all distributed\nranks.\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\n\n\n\n\n\nfloat\nA conservative efficiency estimate based on the measurements.\n\n\n\n\n\n\n\nutils.samplers.multipack.MultipackBatchSampler.gather_len_batches(num)\nGather and synchronize batch counts across all distributed ranks. Returns\nthe minimum number of batches available on any rank.\n\n\n\nutils.samplers.multipack.MultipackBatchSampler.generate_batches(set_stats=False)\nGenerate packed batches for training.\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\nDefault\n\n\n\n\nset_stats\nbool\nWhether to update efficiency statistics.\nFalse\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\n\n\n\n\n\nlist[list[list[int]]]\nList of batches, where each batch contains multiple bins, and each bin contains multiple sequence indices.\n\n\n\n\n\n\n\nutils.samplers.multipack.MultipackBatchSampler.set_epoch(epoch)\nSet the epoch number, used for reproducible shuffling across epochs"
+    "text": "Name\nDescription\n\n\n\n\nMultipackBatchSampler\nBatch sampler class for efficient packing of variable-length sequences\n\n\n\n\n\nutils.samplers.multipack.MultipackBatchSampler(\n    sampler,\n    batch_size,\n    batch_max_len,\n    lengths,\n    packing_efficiency_estimate=1.0,\n    drop_last=False,\n    num_count_samples=8,\n    sequential=False,\n    group_size=100000,\n    bin_size=200,\n    num_processes=None,\n    safe_mode=True,\n    **kwargs,\n)\nBatch sampler class for efficient packing of variable-length sequences\nThis sampler packs sequences into fixed-capacity bins (batches) to maximize\nGPU memory utilization and training throughput by reducing padding.\nIt supports both parallel packing (using FFD algorithm) and\nsequential packing (preserving original sequence order).\n\n\n\n\n\nName\nDescription\n\n\n\n\nefficiency\nCalculate the packing efficiency (ratio of tokens used to total token slots).\n\n\ngather_efficiency\nGather and synchronize packing efficiency estimates across all distributed\n\n\ngather_len_batches\nGather and synchronize batch counts across all distributed ranks. Returns\n\n\ngenerate_batches\nGenerate packed batches for training.\n\n\nset_epoch\nSet the epoch number, used for reproducible shuffling across epochs\n\n\n\n\n\nutils.samplers.multipack.MultipackBatchSampler.efficiency()\nCalculate the packing efficiency (ratio of tokens used to total token slots).\nHigher is better - 1.0 would mean perfect packing with no wasted space.\n\n\n\nutils.samplers.multipack.MultipackBatchSampler.gather_efficiency()\nGather and synchronize packing efficiency estimates across all distributed\nranks.\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\n\n\n\n\n\nfloat\nA conservative efficiency estimate based on the measurements.\n\n\n\n\n\n\n\nutils.samplers.multipack.MultipackBatchSampler.gather_len_batches(num)\nGather and synchronize batch counts across all distributed ranks. Returns\nthe minimum number of batches available on any rank.\n\n\n\nutils.samplers.multipack.MultipackBatchSampler.generate_batches(set_stats=False)\nGenerate packed batches for training.\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\nDefault\n\n\n\n\nset_stats\nbool\nWhether to update efficiency statistics.\nFalse\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nName\nType\nDescription\n\n\n\n\n\nlist[list[list[int]]]\nList of batches, where each batch contains multiple bins, and each bin contains multiple sequence indices.\n\n\n\n\n\n\n\nutils.samplers.multipack.MultipackBatchSampler.set_epoch(epoch)\nSet the epoch number, used for reproducible shuffling across epochs"
   },
   {
     "objectID": "docs/api/utils.samplers.multipack.html#functions",
@@ -1833,11 +1833,21 @@
     ]
   },
   {
-    "objectID": "index.html",
-    "href": "index.html",
+    "objectID": "index.html#latest-updates",
+    "href": "index.html#latest-updates",
     "title": "Axolotl",
-    "section": "",
-    "text": "Axolotl is a tool designed to streamline post-training for various AI models.\nPost-training refers to any modifications or additional training performed on\npre-trained models - including full model fine-tuning, parameter-efficient tuning (like\nLoRA and QLoRA), supervised fine-tuning (SFT), instruction tuning, and alignment\ntechniques. With support for multiple model architectures and training configurations,\nAxolotl makes it easy to get started with these techniques.\nAxolotl is designed to work with YAML config files that contain everything you need to\npreprocess a dataset, train or fine-tune a model, run model inference or evaluation,\nand much more.\nFeatures:",
+    "section": "🎉 Latest Updates",
+    "text": "🎉 Latest Updates\n\n2025/05: Quantization Aware Training (QAT) support has been added to Axolotl. Explore the docs to learn more!\n2025/04: Llama 4 support has been added in Axolotl. See examples to start training your own Llama 4 models with Axolotl’s linearized version!\n2025/03: Axolotl has implemented Sequence Parallelism (SP) support. Read the blog and docs to learn how to scale your context length when fine-tuning.\n2025/03: (Beta) Fine-tuning Multimodal models is now supported in Axolotl. Check out the docs to fine-tune your own!\n2025/02: Axolotl has added LoRA optimizations to reduce memory usage and improve training speed for LoRA and QLoRA in single GPU and multi-GPU training (DDP and DeepSpeed). Jump into the docs to give it a try.\n2025/02: Axolotl has added GRPO support. Dive into our blog and GRPO example and have some fun!\n2025/01: Axolotl has added Reward Modelling / Process Reward Modelling fine-tuning support. See docs.",
+    "crumbs": [
+      "Home"
+    ]
+  },
+  {
+    "objectID": "index.html#overview",
+    "href": "index.html#overview",
+    "title": "Axolotl",
+    "section": "✨ Overview",
+    "text": "✨ Overview\nAxolotl is a tool designed to streamline post-training for various AI models.\nFeatures:\n\nMultiple Model Support: Train various models like LLaMA, Mistral, Mixtral, Pythia, and more. We are compatible with HuggingFace transformers causal language models.\nTraining Methods: Full fine-tuning, LoRA, QLoRA, GPTQ, QAT, Preference Tuning (DPO, IPO, KTO, ORPO), RL (GRPO), Multimodal, and Reward Modelling (RM) / Process Reward Modelling (PRM).\nEasy Configuration: Re-use a single YAML file between dataset preprocess, training, evaluation, quantization, and inference.\nPerformance Optimizations: Multipacking, Flash Attention, Xformers, Flex Attention, Liger Kernel, Cut Cross Entropy, Sequence Parallelism (SP), LoRA optimizations, Multi-GPU training (FSDP1, FSDP2, DeepSpeed), Multi-node training (Torchrun, Ray), and many more!\nFlexible Dataset Handling: Load from local, HuggingFace, and cloud (S3, Azure, GCP, OCI) datasets.\nCloud Ready: We ship Docker images and also PyPI packages for use on cloud platforms and local hardware.",
     "crumbs": [
       "Home"
     ]
@@ -1852,22 +1862,12 @@
       "Home"
     ]
   },
-  {
-    "objectID": "index.html#key-features",
-    "href": "index.html#key-features",
-    "title": "Axolotl",
-    "section": "✨ Key Features",
-    "text": "✨ Key Features\n\nMultiple Model Support: Train various models like LLaMA, Mistral, Mixtral, Pythia, and more\nTraining Methods: Full fine-tuning, LoRA, QLoRA, and more\nEasy Configuration: Simple YAML files to control your training setup\nPerformance Optimizations: Flash Attention, xformers, multi-GPU training\nFlexible Dataset Handling: Use various formats and custom datasets\nCloud Ready: Run on cloud platforms or local hardware",
-    "crumbs": [
-      "Home"
-    ]
-  },
   {
     "objectID": "index.html#documentation",
     "href": "index.html#documentation",
     "title": "Axolotl",
     "section": "📚 Documentation",
-    "text": "📚 Documentation\n\nInstallation Options - Detailed setup instructions for different environments\nConfiguration Guide - Full configuration options and examples\nDataset Guide - Supported formats and how to use them\nMulti-GPU Training\nMulti-Node Training\nMultipacking\nAPI Reference - Auto-generated code documentation\nFAQ - Frequently asked questions",
+    "text": "📚 Documentation\n\nInstallation Options - Detailed setup instructions for different environments\nConfiguration Guide - Full configuration options and examples\nDataset Loading - Loading datasets from various sources\nDataset Guide - Supported formats and how to use them\nMulti-GPU Training\nMulti-Node Training\nMultipacking\nAPI Reference - Auto-generated code documentation\nFAQ - Frequently asked questions",
     "crumbs": [
       "Home"
     ]
@@ -1892,16 +1892,6 @@
       "Home"
     ]
   },
-  {
-    "objectID": "index.html#supported-models",
-    "href": "index.html#supported-models",
-    "title": "Axolotl",
-    "section": "Supported Models",
-    "text": "Supported Models\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nfp16/fp32\nlora\nqlora\ngptq\ngptq w/flash attn\nflash attn\nxformers attn\n\n\n\n\nllama\n✅\n✅\n✅\n✅\n✅\n✅\n✅\n\n\nMistral\n✅\n✅\n✅\n✅\n✅\n✅\n✅\n\n\nMixtral-MoE\n✅\n✅\n✅\n❓\n❓\n❓\n❓\n\n\nMixtral8X22\n✅\n✅\n✅\n❓\n❓\n❓\n❓\n\n\nPythia\n✅\n✅\n✅\n❌\n❌\n❌\n❓\n\n\ncerebras\n✅\n✅\n✅\n❌\n❌\n❌\n❓\n\n\nbtlm\n✅\n✅\n✅\n❌\n❌\n❌\n❓\n\n\nmpt\n✅\n❌\n❓\n❌\n❌\n❌\n❓\n\n\nfalcon\n✅\n✅\n✅\n❌\n❌\n❌\n❓\n\n\ngpt-j\n✅\n✅\n✅\n❌\n❌\n❓\n❓\n\n\nXGen\n✅\n❓\n✅\n❓\n❓\n❓\n✅\n\n\nphi\n✅\n✅\n✅\n❓\n❓\n❓\n❓\n\n\nRWKV\n✅\n❓\n❓\n❓\n❓\n❓\n❓\n\n\nQwen\n✅\n✅\n✅\n❓\n❓\n❓\n❓\n\n\nGemma\n✅\n✅\n✅\n❓\n❓\n✅\n❓\n\n\nJamba\n✅\n✅\n✅\n❓\n❓\n✅\n❓\n\n\n\n✅: supported\n❌: not supported\n❓: untested",
-    "crumbs": [
-      "Home"
-    ]
-  },
   {
     "objectID": "index.html#sponsors",
     "href": "index.html#sponsors",
diff --git a/sitemap.xml b/sitemap.xml
index 62452cce5..83835e8ff 100644
--- a/sitemap.xml
+++ b/sitemap.xml
@@ -2,758 +2,758 @@
 <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <url>
     <loc>https://docs.axolotl.ai/docs/unsloth.html</loc>
-    <lastmod>2025-06-11T21:11:16.399Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.001Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/dataset-formats/conversation.html</loc>
-    <lastmod>2025-06-11T21:11:16.394Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.997Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/dataset-formats/stepwise_supervised.html</loc>
-    <lastmod>2025-06-11T21:11:16.394Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.997Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/dataset-formats/tokenized.html</loc>
-    <lastmod>2025-06-11T21:11:16.394Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.998Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/mac.html</loc>
-    <lastmod>2025-06-11T21:11:16.398Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.001Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/nccl.html</loc>
-    <lastmod>2025-06-11T21:11:16.399Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.001Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/multi-node.html</loc>
-    <lastmod>2025-06-11T21:11:16.399Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.001Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/docker.html</loc>
-    <lastmod>2025-06-11T21:11:16.394Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.998Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/lr_groups.html</loc>
-    <lastmod>2025-06-11T21:11:16.398Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.001Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/inference.html</loc>
-    <lastmod>2025-06-11T21:11:16.398Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.001Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/cli.html</loc>
-    <lastmod>2025-06-11T21:11:16.393Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.997Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/faq.html</loc>
-    <lastmod>2025-06-11T21:11:16.395Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.998Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/getting-started.html</loc>
-    <lastmod>2025-06-11T21:11:16.395Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.998Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/custom_integrations.html</loc>
-    <lastmod>2025-06-11T21:11:16.393Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.997Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/fsdp_qlora.html</loc>
-    <lastmod>2025-06-11T21:11:16.395Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.998Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/common.const.html</loc>
-    <lastmod>2025-06-11T21:11:47.171Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.577Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_tokenizers.html</loc>
-    <lastmod>2025-06-11T21:11:45.864Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.286Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.dpo.user_defined.html</loc>
-    <lastmod>2025-06-11T21:11:46.505Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.913Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.training_args.html</loc>
-    <lastmod>2025-06-11T21:11:45.994Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.405Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.user_defined.html</loc>
-    <lastmod>2025-06-11T21:11:46.429Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.838Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.dict.html</loc>
-    <lastmod>2025-06-11T21:11:46.902Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.309Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/monkeypatch.unsloth_.html</loc>
-    <lastmod>2025-06-11T21:11:46.766Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.174Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.collators.mamba.html</loc>
-    <lastmod>2025-06-11T21:11:47.211Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.616Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.trainers.mixins.optimizer.html</loc>
-    <lastmod>2025-06-11T21:11:46.335Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.745Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/cli.train.html</loc>
-    <lastmod>2025-06-11T21:11:46.074Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.485Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.messages.chat.html</loc>
-    <lastmod>2025-06-11T21:11:46.479Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.888Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.chat.format.llama3x.html</loc>
-    <lastmod>2025-06-11T21:11:46.020Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.431Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/loaders.processor.html</loc>
-    <lastmod>2025-06-11T21:11:46.315Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.725Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.datasets.transforms.chat_builder.html</loc>
-    <lastmod>2025-06-11T21:11:46.034Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.445Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.trainers.mamba.html</loc>
-    <lastmod>2025-06-11T21:11:46.260Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.670Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/monkeypatch.gradient_checkpointing.offload_cpu.html</loc>
-    <lastmod>2025-06-11T21:11:46.773Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.180Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/models.mamba.modeling_mamba.html</loc>
-    <lastmod>2025-06-11T21:11:47.187Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.592Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.trainers.relora.html</loc>
-    <lastmod>2025-06-11T21:11:46.264Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.674Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.builders.causal.html</loc>
-    <lastmod>2025-06-11T21:11:45.884Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.307Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.chat.messages.html</loc>
-    <lastmod>2025-06-11T21:11:46.017Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.428Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/integrations.lm_eval.args.html</loc>
-    <lastmod>2025-06-11T21:11:47.165Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.570Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/cli.quantize.html</loc>
-    <lastmod>2025-06-11T21:11:46.228Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.638Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/cli.checks.html</loc>
-    <lastmod>2025-06-11T21:11:46.108Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.519Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.kto.llama3.html</loc>
-    <lastmod>2025-06-11T21:11:46.514Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.923Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/kernels.lora.html</loc>
-    <lastmod>2025-06-11T21:11:46.632Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.040Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.schemas.multimodal.html</loc>
-    <lastmod>2025-06-11T21:11:46.997Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.404Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/loaders.adapter.html</loc>
-    <lastmod>2025-06-11T21:11:46.320Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.730Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/index.html</loc>
-    <lastmod>2025-06-11T21:11:45.724Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.148Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/monkeypatch.llama_patch_multipack.html</loc>
-    <lastmod>2025-06-11T21:11:46.749Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.157Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/train.html</loc>
-    <lastmod>2025-06-11T21:11:45.786Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.210Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/monkeypatch.mixtral.html</loc>
-    <lastmod>2025-06-11T21:11:46.769Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.177Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.dpo.chatml.html</loc>
-    <lastmod>2025-06-11T21:11:46.502Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.910Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/integrations.grokfast.optimizer.html</loc>
-    <lastmod>2025-06-11T21:11:47.150Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.556Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.samplers.multipack.html</loc>
-    <lastmod>2025-06-11T21:11:47.256Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.661Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.alpaca_chat.html</loc>
-    <lastmod>2025-06-11T21:11:46.408Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.817Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/monkeypatch.llama_expand_mask.html</loc>
-    <lastmod>2025-06-11T21:11:46.713Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.121Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/common.architectures.html</loc>
-    <lastmod>2025-06-11T21:11:47.169Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.575Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.schemas.utils.html</loc>
-    <lastmod>2025-06-11T21:11:47.025Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.432Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.chat_templates.html</loc>
-    <lastmod>2025-06-11T21:11:46.816Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.223Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.callbacks.comet_.html</loc>
-    <lastmod>2025-06-11T21:11:47.274Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.680Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/cli.main.html</loc>
-    <lastmod>2025-06-11T21:11:46.066Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.476Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.trainers.grpo.trainer.html</loc>
-    <lastmod>2025-06-11T21:11:46.282Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.692Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.callbacks.mlflow_.html</loc>
-    <lastmod>2025-06-11T21:11:47.271Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.676Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/loaders.model.html</loc>
-    <lastmod>2025-06-11T21:11:46.305Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.715Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.tokenization.html</loc>
-    <lastmod>2025-06-11T21:11:46.806Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.213Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.kto.chatml.html</loc>
-    <lastmod>2025-06-11T21:11:46.522Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.931Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.model_shard_quant.html</loc>
-    <lastmod>2025-06-11T21:11:46.826Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.234Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.trainers.mixins.scheduler.html</loc>
-    <lastmod>2025-06-11T21:11:46.346Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.755Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.chat.format.chatml.html</loc>
-    <lastmod>2025-06-11T21:11:46.019Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.429Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.dpo.passthrough.html</loc>
-    <lastmod>2025-06-11T21:11:46.506Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.915Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.orpo.chat_template.html</loc>
-    <lastmod>2025-06-11T21:11:46.544Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.953Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/monkeypatch.multipack.html</loc>
-    <lastmod>2025-06-11T21:11:46.704Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.113Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.base.html</loc>
-    <lastmod>2025-06-11T21:11:46.370Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.780Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.trainers.grpo.sampler.html</loc>
-    <lastmod>2025-06-11T21:11:46.294Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.704Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.collators.batching.html</loc>
-    <lastmod>2025-06-11T21:11:47.207Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.613Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/monkeypatch.lora_kernels.html</loc>
-    <lastmod>2025-06-11T21:11:46.738Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.146Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/integrations.kd.trainer.html</loc>
-    <lastmod>2025-06-11T21:11:47.158Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.564Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.schemas.enums.html</loc>
-    <lastmod>2025-06-11T21:11:47.020Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.426Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/datasets.html</loc>
-    <lastmod>2025-06-11T21:11:45.808Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.232Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.dpo.zephyr.html</loc>
-    <lastmod>2025-06-11T21:11:46.503Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.912Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/monkeypatch.data.batch_dataset_fetcher.html</loc>
-    <lastmod>2025-06-11T21:11:46.768Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.176Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.schemas.model.html</loc>
-    <lastmod>2025-06-11T21:11:46.956Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.364Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/integrations.cut_cross_entropy.args.html</loc>
-    <lastmod>2025-06-11T21:11:47.149Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.555Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.trainer.html</loc>
-    <lastmod>2025-06-11T21:11:46.854Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.262Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.callbacks.lisa.html</loc>
-    <lastmod>2025-06-11T21:11:47.267Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.673Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.data.pretraining.html</loc>
-    <lastmod>2025-06-11T21:11:46.911Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.318Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.callbacks.profiler.html</loc>
-    <lastmod>2025-06-11T21:11:47.266Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.671Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.metharme.html</loc>
-    <lastmod>2025-06-11T21:11:46.465Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.874Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.collators.core.html</loc>
-    <lastmod>2025-06-11T21:11:47.189Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.594Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/monkeypatch.stablelm_attn_hijack_flash.html</loc>
-    <lastmod>2025-06-11T21:11:46.755Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.163Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.alpaca_w_system.html</loc>
-    <lastmod>2025-06-11T21:11:46.421Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.830Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.lora.html</loc>
-    <lastmod>2025-06-11T21:11:46.820Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.228Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/qat.html</loc>
-    <lastmod>2025-06-11T21:11:16.399Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.001Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/quantize.html</loc>
-    <lastmod>2025-06-11T21:11:16.399Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.001Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/ray-integration.html</loc>
-    <lastmod>2025-06-11T21:11:16.399Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.001Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/sequence_parallelism.html</loc>
-    <lastmod>2025-06-11T21:11:16.399Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.001Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/reward_modelling.html</loc>
-    <lastmod>2025-06-11T21:11:16.399Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.001Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/index.html</loc>
-    <lastmod>2025-06-11T21:11:16.413Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.014Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/src/axolotl/integrations/LICENSE.html</loc>
-    <lastmod>2025-06-11T21:11:16.416Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.018Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/FAQS.html</loc>
-    <lastmod>2025-06-11T21:11:16.390Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.995Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/src/axolotl/integrations/cut_cross_entropy/ACKNOWLEDGEMENTS.html</loc>
-    <lastmod>2025-06-11T21:11:16.417Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.018Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/TODO.html</loc>
-    <lastmod>2025-06-11T21:11:16.391Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.996Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/examples/colab-notebooks/colab-axolotl-example.html</loc>
-    <lastmod>2025-06-11T21:11:16.400Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.002Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/torchao.html</loc>
-    <lastmod>2025-06-11T21:11:16.399Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.001Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/config.html</loc>
-    <lastmod>2025-06-11T21:11:16.393Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.997Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/input_output.html</loc>
-    <lastmod>2025-06-11T21:11:16.398Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.001Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/batch_vs_grad.html</loc>
-    <lastmod>2025-06-11T21:11:16.393Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.997Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.quantization.html</loc>
-    <lastmod>2025-06-11T21:11:46.938Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.346Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.bench.html</loc>
-    <lastmod>2025-06-11T21:11:46.830Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.237Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/loaders.tokenizer.html</loc>
-    <lastmod>2025-06-11T21:11:46.313Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.723Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.freeze.html</loc>
-    <lastmod>2025-06-11T21:11:46.837Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.245Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.orcamini.html</loc>
-    <lastmod>2025-06-11T21:11:46.469Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.878Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.schemas.training.html</loc>
-    <lastmod>2025-06-11T21:11:46.961Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.369Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/integrations.spectrum.args.html</loc>
-    <lastmod>2025-06-11T21:11:47.168Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.574Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.ctx_managers.sequence_parallel.html</loc>
-    <lastmod>2025-06-11T21:11:46.369Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.778Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/cli.inference.html</loc>
-    <lastmod>2025-06-11T21:11:46.140Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.551Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/logging_config.html</loc>
-    <lastmod>2025-06-11T21:11:45.873Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.296Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/loaders.constants.html</loc>
-    <lastmod>2025-06-11T21:11:46.330Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.740Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.dpo.chat_template.html</loc>
-    <lastmod>2025-06-11T21:11:46.481Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.890Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/cli.args.html</loc>
-    <lastmod>2025-06-11T21:11:46.102Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.512Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.schemas.trl.html</loc>
-    <lastmod>2025-06-11T21:11:46.991Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.399Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.pygmalion.html</loc>
-    <lastmod>2025-06-11T21:11:46.475Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.884Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/convert.html</loc>
-    <lastmod>2025-06-11T21:11:45.821Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.245Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.trainers.base.html</loc>
-    <lastmod>2025-06-11T21:11:46.238Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.649Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/cli.preprocess.html</loc>
-    <lastmod>2025-06-11T21:11:46.169Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.579Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/cli.config.html</loc>
-    <lastmod>2025-06-11T21:11:46.126Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.537Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/monkeypatch.relora.html</loc>
-    <lastmod>2025-06-11T21:11:46.711Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.119Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.chat.format.shared.html</loc>
-    <lastmod>2025-06-11T21:11:46.022Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.432Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.trainers.dpo.trainer.html</loc>
-    <lastmod>2025-06-11T21:11:46.271Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.681Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.callbacks.qat.html</loc>
-    <lastmod>2025-06-11T21:11:47.281Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.686Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.optimizers.adopt.html</loc>
-    <lastmod>2025-06-11T21:11:46.909Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.317Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/cli.evaluate.html</loc>
-    <lastmod>2025-06-11T21:11:46.082Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.493Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.trainers.trl.html</loc>
-    <lastmod>2025-06-11T21:11:46.255Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.665Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.builders.base.html</loc>
-    <lastmod>2025-06-11T21:11:45.880Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.302Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/monkeypatch.trainer_fsdp_optim.html</loc>
-    <lastmod>2025-06-11T21:11:46.758Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.166Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/monkeypatch.gradient_checkpointing.offload_disk.html</loc>
-    <lastmod>2025-06-11T21:11:46.799Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.206Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.distributed.html</loc>
-    <lastmod>2025-06-11T21:11:46.898Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.306Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.input_output.html</loc>
-    <lastmod>2025-06-11T21:11:46.454Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.862Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.schemas.config.html</loc>
-    <lastmod>2025-06-11T21:11:46.949Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.357Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/cli.utils.html</loc>
-    <lastmod>2025-06-11T21:11:46.207Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.617Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.callbacks.perplexity.html</loc>
-    <lastmod>2025-06-11T21:11:47.262Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.667Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.schemas.integrations.html</loc>
-    <lastmod>2025-06-11T21:11:47.009Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.416Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/loaders.patch_manager.html</loc>
-    <lastmod>2025-06-11T21:11:46.328Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.738Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/monkeypatch.utils.html</loc>
-    <lastmod>2025-06-11T21:11:46.746Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.154Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/cli.vllm_serve.html</loc>
-    <lastmod>2025-06-11T21:11:46.214Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.624Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/monkeypatch.mistral_attn_hijack_flash.html</loc>
-    <lastmod>2025-06-11T21:11:46.703Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.111Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/integrations.liger.args.html</loc>
-    <lastmod>2025-06-11T21:11:47.161Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.567Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.alpaca_instruct.html</loc>
-    <lastmod>2025-06-11T21:11:46.410Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.818Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.data.sft.html</loc>
-    <lastmod>2025-06-11T21:11:46.918Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.325Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.collators.mm_chat.html</loc>
-    <lastmod>2025-06-11T21:11:47.216Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.621Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.llama2_chat.html</loc>
-    <lastmod>2025-06-11T21:11:46.442Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.850Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/monkeypatch.transformers_fa_utils.html</loc>
-    <lastmod>2025-06-11T21:11:46.765Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.173Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/cli.merge_sharded_fsdp_weights.html</loc>
-    <lastmod>2025-06-11T21:11:46.161Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.571Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/cli.merge_lora.html</loc>
-    <lastmod>2025-06-11T21:11:46.148Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.559Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/integrations.base.html</loc>
-    <lastmod>2025-06-11T21:11:47.146Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.551Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.trainers.mixins.rng_state_loader.html</loc>
-    <lastmod>2025-06-11T21:11:46.339Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.749Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/monkeypatch.llama_attn_hijack_flash.html</loc>
-    <lastmod>2025-06-11T21:11:46.687Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.095Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/kernels.quantize.html</loc>
-    <lastmod>2025-06-11T21:11:46.660Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.068Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/evaluate.html</loc>
-    <lastmod>2025-06-11T21:11:45.797Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.221Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.builders.rl.html</loc>
-    <lastmod>2025-06-11T21:11:45.892Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.315Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.schemas.datasets.html</loc>
-    <lastmod>2025-06-11T21:11:46.979Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.387Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/common.datasets.html</loc>
-    <lastmod>2025-06-11T21:11:47.186Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.591Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/kernels.utils.html</loc>
-    <lastmod>2025-06-11T21:11:46.662Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.069Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.completion.html</loc>
-    <lastmod>2025-06-11T21:11:46.448Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.856Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.bradley_terry.llama3.html</loc>
-    <lastmod>2025-06-11T21:11:46.548Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.957Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.stepwise_supervised.html</loc>
-    <lastmod>2025-06-11T21:11:46.458Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.867Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/kernels.swiglu.html</loc>
-    <lastmod>2025-06-11T21:11:46.652Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.060Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/cli.cloud.base.html</loc>
-    <lastmod>2025-06-11T21:11:46.217Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.627Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.kto.user_defined.html</loc>
-    <lastmod>2025-06-11T21:11:46.524Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.933Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.chat_template.html</loc>
-    <lastmod>2025-06-11T21:11:46.394Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.803Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/monkeypatch.btlm_attn_hijack_flash.html</loc>
-    <lastmod>2025-06-11T21:11:46.748Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.156Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.schemas.peft.html</loc>
-    <lastmod>2025-06-11T21:11:46.988Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.395Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.datasets.chat.html</loc>
-    <lastmod>2025-06-11T21:11:46.027Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.437Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/core.trainers.utils.html</loc>
-    <lastmod>2025-06-11T21:11:46.295Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.705Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/kernels.geglu.html</loc>
-    <lastmod>2025-06-11T21:11:46.642Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.050Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/cli.cloud.modal_.html</loc>
-    <lastmod>2025-06-11T21:11:46.223Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.634Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/monkeypatch.llama_attn_hijack_xformers.html</loc>
-    <lastmod>2025-06-11T21:11:46.689Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.097Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/utils.schedulers.html</loc>
-    <lastmod>2025-06-11T21:11:46.879Z</lastmod>
+    <lastmod>2025-06-12T17:24:09.286Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/prompt_strategies.dpo.llama3.html</loc>
-    <lastmod>2025-06-11T21:11:46.491Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.900Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/api/cli.sweeps.html</loc>
-    <lastmod>2025-06-11T21:11:46.175Z</lastmod>
+    <lastmod>2025-06-12T17:24:08.585Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/multimodal.html</loc>
-    <lastmod>2025-06-11T21:11:16.399Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.001Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/debugging.html</loc>
-    <lastmod>2025-06-11T21:11:16.394Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.998Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/multi-gpu.html</loc>
-    <lastmod>2025-06-11T21:11:16.398Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.001Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/lora_optims.html</loc>
-    <lastmod>2025-06-11T21:11:16.398Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.001Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/rlhf.html</loc>
-    <lastmod>2025-06-11T21:11:16.399Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.001Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/amd_hpc.html</loc>
-    <lastmod>2025-06-11T21:11:16.393Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.997Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/installation.html</loc>
-    <lastmod>2025-06-11T21:11:16.398Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.001Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/multipack.html</loc>
-    <lastmod>2025-06-11T21:11:16.399Z</lastmod>
+    <lastmod>2025-06-12T17:23:39.001Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/dataset_preprocessing.html</loc>
-    <lastmod>2025-06-11T21:11:16.394Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.998Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/dataset_loading.html</loc>
-    <lastmod>2025-06-11T21:11:16.394Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.998Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/dataset-formats/inst_tune.html</loc>
-    <lastmod>2025-06-11T21:11:16.394Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.997Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/dataset-formats/template_free.html</loc>
-    <lastmod>2025-06-11T21:11:16.394Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.998Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/dataset-formats/index.html</loc>
-    <lastmod>2025-06-11T21:11:16.394Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.997Z</lastmod>
   </url>
   <url>
     <loc>https://docs.axolotl.ai/docs/dataset-formats/pretraining.html</loc>
-    <lastmod>2025-06-11T21:11:16.394Z</lastmod>
+    <lastmod>2025-06-12T17:23:38.997Z</lastmod>
   </url>
 </urlset>

	fp16/fp32	lora	qlora	gptq	gptq w/flash attn	flash attn	xformers attn
llama	✅	✅	✅	✅	✅	✅	✅
Mistral	✅	✅	✅	✅	✅	✅	✅
Mixtral-MoE	✅	✅	✅	❓	❓	❓	❓
Mixtral8X22	✅	✅	✅	❓	❓	❓	❓
Pythia	✅	✅	✅	❌	❌	❌	❓
cerebras	✅	✅	✅	❌	❌	❌	❓
btlm	✅	✅	✅	❌	❌	❌	❓
mpt	✅	❌	❓	❌	❌	❌	❓
falcon	✅	✅	✅	❌	❌	❌	❓
gpt-j	✅	✅	✅	❌	❌	❓	❓
XGen	✅	❓	✅	❓	❓	❓	✅
phi	✅	✅	✅	❓	❓	❓	❓
RWKV	✅	❓	❓	❓	❓	❓	❓
Qwen	✅	✅	✅	❓	❓	❓	❓
Gemma	✅	✅	✅	❓	❓	✅	❓
Jamba	✅	✅	✅	❓	❓	✅	❓