seperately include max_completion_len

2025-02-05 13:01:52 -05:00
parent b8f258817e
commit a1958b09de
2 changed files with 9 additions and 0 deletions
--- a/src/axolotl/core/trainers/grpo/init.py
+++ b/src/axolotl/core/trainers/grpo/init.py
@@ -43,6 +43,9 @@ class GRPOStrategy:
                ] = cfg.grpo_vllm_gpu_memory_utilization
        if cfg.grpo_num_generations:
            grpo_args_kwargs["num_generations"] = cfg.grpo_num_generations
+        grpo_args_kwargs["max_completion_length"] = (
+            cfg.max_completion_length or cfg.sequence_len
+        )
        return grpo_args_kwargs

    @classmethod
--- a/src/axolotl/utils/config/models/input/v0_4_1/init.py
+++ b/src/axolotl/utils/config/models/input/v0_4_1/init.py
@@ -757,6 +757,12 @@ class AxolotlInputConfig(
        default=512,
        json_schema_extra={"description": "maximum prompt length for RL training"},
    )
+    max_completion_length: Optional[int] = Field(
+        default=None,
+        json_schema_extra={
+            "description": "Maximum length of the completion for RL training"
+        },
+    )
    sample_packing: Optional[bool] = None
    sample_packing_group_size: Optional[int] = 100_000
    sample_packing_bin_size: Optional[int] = 200