fix: customized dataset with simpo (#2894) [skip ci]

2025-07-12 10:40:30 -05:00
parent 4dc5910e1c
commit 7fb8441e0e
3 changed files with 17 additions and 19 deletions
--- a/docs/rlhf.qmd
+++ b/docs/rlhf.qmd
@@ -274,15 +274,14 @@ rl: dpo
 datasets:
  - path: ...
    split: train
-    type: user_defined.default
+    type:
-
+      field_prompt: "prompt"
-    field_prompt: "prompt"
+      field_system: "system"
-    field_system: "system"
+      field_chosen: "chosen"
-    field_chosen: "chosen"
+      field_rejected: "rejected"
-    field_rejected: "rejected"
+      prompt_format: "{prompt}"
-    prompt_format: "{prompt}"
+      chosen_format: "{chosen}"
-    chosen_format: "{chosen}"
+      rejected_format: "{rejected}"
    rejected_format: "{rejected}"
 ```
 The input format is a simple JSON input with customizable fields based on the above config.
@@ -475,14 +474,13 @@ rl: kto
 datasets:
  - path: ...
    split: train
-    type: user_defined.default
+    type:
-
+      field_prompt: "prompt"
-    field_prompt: "prompt"
+      field_system: "system"
-    field_system: "system"
+      field_completion: "completion"
-    field_completion: "completion"
+      field_label: "label"
-    field_label: "label"
+      prompt_format: "{prompt}"
-    prompt_format: "{prompt}"
+      completion_format: "{completion}"
    completion_format: "{completion}"
 ```
 The input format is a simple JSON input with customizable fields based on the above config.
--- a/src/axolotl/prompt_strategies/dpo/user_defined.py
+++ b/src/axolotl/prompt_strategies/dpo/user_defined.py
@@ -33,7 +33,7 @@ def default(cfg, dataset_idx=0, **kwargs):  # pylint: disable=unused-argument
                system=sample[field_system], prompt=sample[field_prompt]
            )
        else:
-            sample["prompt"] = prompt_format.format(prompt=sample["prompt"])
+            sample["prompt"] = prompt_format.format(prompt=sample[field_prompt])
        sample["chosen"] = chosen_format.format(chosen=sample[field_chosen])
        sample["rejected"] = rejected_format.format(rejected=sample[field_rejected])
        return sample
--- a/src/axolotl/utils/config/init.py
+++ b/src/axolotl/utils/config/init.py
@@ -274,7 +274,7 @@ def validate_config(
    # Convert datasets to proper format if needed
    if cfg.get("datasets"):
        for idx, ds_cfg in enumerate(cfg["datasets"]):
-            if cfg.get("rl") == "dpo" and not isinstance(ds_cfg, DPODataset):
+            if cfg.get("rl") in ["dpo", "simpo"] and not isinstance(ds_cfg, DPODataset):
                cfg["datasets"][idx] = DPODataset(**ds_cfg)
            elif cfg.get("rl") == "kto" and not isinstance(ds_cfg, KTODataset):
                cfg["datasets"][idx] = KTODataset(**dict(ds_cfg))