use cfg.max_completion_length, not sequence_len

2025-02-05 13:20:17 -05:00
parent bdb0f97082
commit 3659d812f7
1 changed files with 7 additions and 9 deletions
--- a/src/axolotl/core/trainers/grpo/init.py
+++ b/src/axolotl/core/trainers/grpo/init.py
@@ -38,14 +38,12 @@ class GRPOStrategy:
            else:
                grpo_args_kwargs["vllm_device"] = "auto"
            if cfg.grpo_vllm_gpu_memory_utilization:
-                grpo_args_kwargs["vllm_gpu_memory_utilization"] = (
+                grpo_args_kwargs[
-                    cfg.grpo_vllm_gpu_memory_utilization
+                    "vllm_gpu_memory_utilization"
-                )
+                ] = cfg.grpo_vllm_gpu_memory_utilization
        if cfg.grpo_num_generations:
            grpo_args_kwargs["num_generations"] = cfg.grpo_num_generations
-        grpo_args_kwargs["max_completion_length"] = (
+        grpo_args_kwargs["max_completion_length"] = cfg.max_completion_length
            cfg.max_completion_length or cfg.sequence_len
        )
        return grpo_args_kwargs
    @classmethod
@@ -57,9 +55,9 @@ class GRPOStrategy:
                reward_funcs.append(cls.get_reward_func(reward_func_fqn))
            trainer_kwargs["reward_funcs"] = reward_funcs
        if cfg.grpo_reward_processing_classes:
-            trainer_kwargs["reward_processing_classes"] = (
+            trainer_kwargs[
-                cfg.grpo_reward_processing_classes
+                "reward_processing_classes"
-            )
+            ] = cfg.grpo_reward_processing_classes
        return trainer_kwargs
    @classmethod